Iron Moon Blog

cs221_l7

发表于 2025-10-16

Marcov Decision Process

发表于 2025-10-16

发表于 2025-10-11 更新于 2025-10-16

inference search problem Definition: search problem s_start: starting state Actions(s): possible actions Cost(s, a): action cost Succ(s, a):...

发表于 2025-10-11

reflex-based model e.g. linear classifiers deep neural networks Fully feed-forward(no backtracking), no reasoning about what was going on st...

发表于 2025-10-09

Q：在有好数据的情况下，imitation learning是否总是比reinforce learning更好? 因为此时 imitation learning 没有exploration的部分，从而避免了reinforce learning 中的exploration 从而一...

发表于 2025-09-24 更新于 2025-12-03

对Mamba的一点学习 pre Knowledge 时不变性如果在输入信号上有一个时移，那么输出信号上会产生相同的时移，那么这个系统就是时不变的。也就是说输入信号为 \(x(t - t_0)\) 时，输出信号为 \(y(t - t_0)\)。如何去理解呢？系统的特性和行为不随...

发表于 2025-09-24

发表于 2025-04-20 更新于 2025-04-29

信创的时候做的一个复习资料