cs234_l1

Posted on 2025-10-09

Q：在有好数据的情况下，imitation learning是否总是比reinforce learning更好? 因为此时 imitation learning 没有exploration的部分，从而避免了reinforce learning 中的exploration 从而一直学到好数据？

A: 一般而言强化学习的算法和策略带来的结果始终比模仿学习好。 e.g. imitation learning 不会得到和预先数据相悖的东西。而强化学习，如AlphaGo，可以得到和人类棋手相异的东西。如果想要超越人类的表现，就不能仅仅依赖人类的表现来进行决策

marcov过程建模例题 marcov

状态空间S：(学生掌握加法的情况，学生掌握减法的情况) 动作空间A: 智能体分配学生加减法的情况(加法，减法) 奖励函数R: 学生答对题目的情况（对+1，错-1）转移模型T(s,a,s`) 描述练习后学生掌握技能的概率目标：寻找策略Π，使得期望折扣总奖励最大 BUT 这里有一个风险，即问题代理只会给出简单的问题来确保总奖励最大建模2
状态空间S：(学生所掌握的知识，可能已经问过的问题)。对于已经问过的问题，可能存在一个充分统计量来表示。动作空间A: 问了一个问题后(学生内在知识的变化和问题历史的变化)

目标：学生解决问题的总时间最小。

MDP MDP 和 Marcov 过程不同点在于多了一个reward函数。