分类目录归档:python

强化学习-demo


强化学习一定有一个学习的环境,智能体通过当前环境选择动作,环境对智能体选择的动作更新环境并给出反馈/奖励(reward).我们这次使用的环境可以看作是一条单向的小路 如------+,小路(-)...

Read more