之前那版太像“丢个附件完事”了,重写一下。
这份 PPT 是给那种情况用的:论文读完了,方法也大概懂了,但一打开编辑器就不知道从哪写。尤其是强化学习复现,最容易一上来就让 Codex 生成 train.py,然后报错一堆,最后自己也说不清 Env、reward、算法到底哪里偏了。
我整理这份的思路很简单:别让 Codex 一次性“复现论文”,而是把论文拆成一组能验证的小任务。每一步都能跑、能检查、能继续改,这样才不容易变成玄学调参。
如果只想快速看重点,建议先看 P04、P10-P15、P18。
P01 封面:先把任务说清楚

这不是“AI 自动复现论文”的鸡血课件,重点是怎么让 Codex 做工程助手,而不是让它替你理解论文。
P02 目录:三段路

先搭 RL 代码骨架,再把论文方法拆到代码,最后用训练曲线判断有没有学起来。
P03 第一步先别写代码

强化学习复现第一件事不是写算法,而是把 Env、Agent、训练循环、评估拆开。
P04 最值得看的总图

这页是整份课件的骨架:论文 Methods 里的系统模型、MDP、算法、实验设置,分别应该落到哪个代码模块。
P05 Gym Env 是地基

Env 写错了,后面 PPO 再漂亮也没用。这页可以拿来检查 observation、action、reward、info 有没有对应论文。
P06 先判断算法类型

很多复现卡住不是代码问题,是动作空间和算法骨架没对上。先分清离散/连续,再选 PPO、SAC、DQN。
P07 为什么用 CleanRL

CleanRL 的好处是透明,单文件好改,适合和论文伪代码一项项对。不是说它万能,而是方便拆。
P08 Codex 应该站在哪

Codex 适合生成、运行、修 bug、做一致性检查;论文边界和公式真假还是要人来把关。
P09 第二部分开始落地

从这里开始,不再讲概念,转成一组可以直接复制改的 prompt。
P10 五步拆法

Env、Reward、算法接入、启动检查、报错修复。每一步都有产物,别让任务糊成一团。
P11 Prompt 1:只写 Env

这个 prompt 的关键是“只实现 Env”。先把交互接口跑通,别同时要 PPO、画图、实验报告。
P12 Prompt 2:单独查 reward

reward 最容易被模型写得像那么回事但其实没对齐论文。这一步要把分项和 info 都留出来查。
P13 Prompt 3:接 CleanRL

这里让 Codex 自己看 CleanRL,但要求它说明选哪个骨架、为什么选,避免盲改。
P14 Prompt 4:先 smoke test

不要上来长训。先验证上下层 observation、action、reward、done、info 都能走通。
P15 Prompt 5:报错不是失败

这一页很实用:把 traceback 当下一轮输入,让 Codex 顺着错误修,直到 smoke test 过。
P16 第三部分:别只看能不能跑

代码跑起来只是第一关,RL 还要看曲线、loss、指标,不然很可能是在随机游走。
P17 监控工具怎么选

一个人本地调参 TensorBoard 够用,团队/多实验追踪再考虑 W&B、MLflow、Aim。
P18 怎么看训练曲线

RL 回报有噪声正常,关键看平滑趋势有没有上升、后期有没有平台。
P19 总结:复现是闭环

论文拆解、代码生成、运行报错、修复验证、训练监控,这条链闭上才算靠谱。
P20 最后一页

如果佬友手上有具体论文,可以按这个结构把 Methods 先拆一遍,再喂给 Codex。
原 PPT 放这里,站内不让传 pptx,所以 zip 里就是原文件:
从论文到代码.zip (184 KB)
如果你也在复现 RL/优化类论文,建议别急着要完整代码,先按 P10 那个五步拆一遍。这样 Codex 才是真的省时间,不是帮你制造一堆更难查的 bug。
1 个帖子 - 1 位参与者