()的目标是获得一个策略去指导行动,会从一个初始策略开始,在学习过程中,主体通过行动和环境进行交互来产生新的数据,不断获得反馈,并通过反馈优化策略,是一种强大的学习方式

  尔雅 智慧树 mooc


+
账户
更新
搜索
帮助
主页