下面哪一种方法不是通过迭代计算贝尔曼方程来进行策略评估()A深度学习B动态规划C蒙特卡洛采样D时序差分(TemporalDifference)

  尔雅 智慧树 mooc


+
账户
更新
搜索
帮助
主页