整理了一份「从论文到代码」的课件,偏 Codex 复现论文用

之前那版太像“丢个附件完事”了,重写一下。 这份 PPT 是给那种情况用的:论文读完了,方法也大概懂了,但一打开编辑器就不知道从哪写。尤其是强化学习复现,最容易一上来就让 Codex 生成 train.py ,然后报错一堆,最后自己也说不清 Env、reward、算法到底哪里偏了。 我整理这份的思路...
整理了一份「从论文到代码」的课件,偏 Codex 复现论文用
整理一份「从论文到代码」的课件,偏 Codex 复现论文用

之前那版太像“丢个附件完事”了,重写一下。

这份 PPT 是给那种情况用的:论文读完了,方法也大概懂了,但一打开编辑器就不知道从哪写。尤其是强化学习复现,最容易一上来就让 Codex 生成 train.py,然后报错一堆,最后自己也说不清 Env、reward、算法到底哪里偏了。

整理这份的思路很简单:别让 Codex 一次性“复现论文”,而是把论文拆成一组能验证的小任务。每一步都能跑、能检查、能继续改,这样才不容易变成玄学调参。

如果只想快速看重点,建议先看 P04、P10-P15、P18。

P01 封面:先把任务说清楚

从论文到代码 P01
这不是“AI 自动复现论文”的鸡血课件,重点是怎么让 Codex 做工程助手,而不是让它替你理解论文。

P02 目录:三段路

从论文到代码 P02
先搭 RL 代码骨架,再把论文方法拆到代码,最后用训练曲线判断有没有学起来。

P03 第一步先别写代码

从论文到代码 P03
强化学习复现第一件事不是写算法,而是把 Env、Agent、训练循环、评估拆开。

P04 最值得看的总图

从论文到代码 P04
这页是整份课件的骨架:论文 Methods 里的系统模型、MDP、算法、实验设置,分别应该落到哪个代码模块。

P05 Gym Env 是地基

从论文到代码 P05
Env 写错了,后面 PPO 再漂亮也没用。这页可以拿来检查 observation、action、reward、info 有没有对应论文。

P06 先判断算法类型

从论文到代码 P06
很多复现卡住不是代码问题,是动作空间和算法骨架没对上。先分清离散/连续,再选 PPO、SAC、DQN。

P07 为什么用 CleanRL

从论文到代码 P07
CleanRL 的好处是透明,单文件好改,适合和论文伪代码一项项对。不是说它万能,而是方便拆。

P08 Codex 应该站在哪

从论文到代码 P08
Codex 适合生成、运行、修 bug、做一致性检查;论文边界和公式真假还是要人来把关。

P09 第二部分开始落地

从论文到代码 P09
从这里开始,不再讲概念,转成一组可以直接复制改的 prompt。

P10 五步拆法

从论文到代码 P10
Env、Reward、算法接入、启动检查、报错修复。每一步都有产物,别让任务糊成一团。

P11 Prompt 1:只写 Env

从论文到代码 P11
这个 prompt 的关键是“只实现 Env”。先把交互接口跑通,别同时要 PPO、画图、实验报告。

P12 Prompt 2:单独查 reward

从论文到代码 P12
reward 最容易被模型写得像那么回事但其实没对齐论文。这一步要把分项和 info 都留出来查。

P13 Prompt 3:接 CleanRL

从论文到代码 P13
这里让 Codex 自己看 CleanRL,但要求它说明选哪个骨架、为什么选,避免盲改。

P14 Prompt 4:先 smoke test

从论文到代码 P14
不要上来长训。先验证上下层 observation、action、reward、done、info 都能走通。

P15 Prompt 5:报错不是失败

从论文到代码 P15
这一页很实用:把 traceback 当下一轮输入,让 Codex 顺着错误修,直到 smoke test 过。

P16 第三部分:别只看能不能跑

从论文到代码 P16
代码跑起来只是第一关,RL 还要看曲线、loss、指标,不然很可能是在随机游走。

P17 监控工具怎么选

从论文到代码 P17
一个人本地调参 TensorBoard 够用,团队/多实验追踪再考虑 W&B、MLflow、Aim。

P18 怎么看训练曲线

从论文到代码 P18
RL 回报有噪声正常,关键看平滑趋势有没有上升、后期有没有平台。

P19 总结:复现是闭环

从论文到代码 P19
论文拆解、代码生成、运行报错、修复验证、训练监控,这条链闭上才算靠谱。

P20 最后一页

从论文到代码 P20
如果佬友手上有具体论文,可以按这个结构把 Methods 先拆一遍,再喂给 Codex。


原 PPT 放这里,站内不让传 pptx,所以 zip 里就是原文件:

从论文到代码.zip (184 KB)

如果你也在复现 RL/优化类论文,建议别急着要完整代码,先按 P10 那个五步拆一遍。这样 Codex 才是真的省时间,不是帮你制造一堆更难查的 bug。

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文