在本课程内容范围内,“在状态s,按照某个策略采取动作a后在未来所获得反馈值的期望”,这句话描述了状态s的()A动作价值函数B策略优化C价值函数D采样函数

  尔雅 智慧树 mooc


+
账户
更新
搜索
帮助
主页