A. 选择已知的最佳行为与尝试新行为之间的决策
C. 最大化奖励与最小化惩罚之间的平衡
在强化学习中,哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力A. 动态规划B. Bellman方程C. 贪心策略D. 蒙特卡洛采样
在强化学习中,哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力A. 蒙特卡洛采样B. Bellman方程C. 贪心策略D. 动态规划
强化学习的学习依据是什么()A. 基于监督信息B. 基于对数据结构的假设C. 基于评价D. 基于人工反馈
强化学习的学习依据是什么()A. 基于评价B. 基于监督信息C. 基于对数据结构的假设D. 基于人工反馈
在强化学习中,奖励信号的主要作用是什么?A. 计算智能体的损失函数B. 提供环境的状态信息C. 评估智能体的表现D. 直接指导智能体的行为
在强化学习中,智能体的目标是:A. 最大化即时奖励B. 最大化长期累积奖励C. 最小化状态空间D. 最小化动作空间
强化学习与监督学习的区别是 ()强化学习与监督学习的区别是 ()。A. 学习依据是奖励和惩罚B. 反馈有延时性C. 更适合于行为智能的学习D. 有教师指导
在强化学习中,Q学习属于哪种类型的算法?()A. 基于策略的算法B. 基于价值的算法C. 基于模型的算法D. 基于模拟的算法
强化学习中,智能体的目标是()A. 最大化即时奖励B. 最大化长期回报C. 最小化长期回报D. 最小化即时奖励
[单选题]运用人的多种感官参与学习的“强化学习”是()的强化。A . 形式B . 内容C . 过程D . 结果