cs234_l1

Q: 在有好数据的情况下,imitation learning是否总是比reinforce learning更好? 因为此时 imitation learning 没有exploration的部分,从而避免了reinforce learning 中的exploration 从而一直学到好数据?

A: 一般而言强化学习的算法和策略带来的结果始终比模仿学习好。 e.g. imitation learning 不会得到和预先数据相悖的东西。而强化学习,如AlphaGo,可以得到和人类棋手相异的东西。 如果想要超越人类的表现,就不能仅仅依赖人类的表现来进行决策

marcov过程建模例题 marcov

状态空间S:(学生掌握加法的情况,学生掌握减法的情况) 动作空间A: 智能体分配学生加减法的情况(加法,减法) 奖励函数R: 学生答对题目的情况(对+1,错-1) 转移模型T(s,a,s`) 描述练习后学生掌握技能的概率 目标: 寻找策略Π,使得期望折扣总奖励最大 BUT 这里有一个风险,即问题代理只会给出简单的问题来确保总奖励最大 建模2
状态空间S:(学生所掌握的知识,可能已经问过的问题)。对于已经问过的问题,可能存在一个充分统计量来表示。 动作空间A: 问了一个问题后(学生内在知识的变化和问题历史的变化)

目标:学生解决问题的总时间最小。

MDP MDP 和 Marcov 过程不同点在于多了一个reward函数。