强化学习中的价值迭代和策略迭代是等价的，可以互相替代。_在线考试题库网

人工智能训练师

判断题

强化学习中的价值迭代和策略迭代是等价的，可以互相替代。

【参考答案】

错误

(↓↓↓ 点击‘点击查看答案’看答案解析 ↓↓↓)

相关考题

判断题强化学习中的状态转移概率必须是已知的，否则无法进行学习。

判断题强化学习只能用于解决离散动作空间的问题，无法处理连续动作空间。

判断题强化学习中的策略梯度方法是一种直接优化策略参数的算法，不需要估计价值函数。

All Rights Reserved 版权所有©在线考试题库网(zxkao.com)

备案号：湘ICP备14005140号-7

经营许可证号：湘B2-20140064