判断题
强化学习中的价值迭代和策略迭代是等价的,可以互相替代。
错误(↓↓↓ 点击‘点击查看答案’看答案解析 ↓↓↓)
判断题 强化学习中的状态转移概率必须是已知的,否则无法进行学习。
判断题 强化学习只能用于解决离散动作空间的问题,无法处理连续动作空间。
判断题 强化学习中的策略梯度方法是一种直接优化策略参数的算法,不需要估计价值函数。