整理了一份「从论文到代码」的课件，偏 Codex 复现论文用

编辑部 2026-06-02T10:25:25.374093 27302 阅读 tech

之前那版太像“丢个附件完事”了，重写一下。这份 PPT 是给那种情况用的：论文读完了，方法也大概懂了，但一打开编辑器就不知道从哪写。尤其是强化学习复现，最容易一上来就让 Codex 生成 train.py ，然后报错一堆，最后自己也说不清 Env、reward、算法到底哪里偏了。我整理这份的思路...

整理了一份「从论文到代码」的课件，偏 Codex 复现论文用

之前那版太像“丢个附件完事”了，重写一下。

这份 PPT 是给那种情况用的：论文读完了，方法也大概懂了，但一打开编辑器就不知道从哪写。尤其是强化学习复现，最容易一上来就让 Codex 生成 train.py，然后报错一堆，最后自己也说不清 Env、reward、算法到底哪里偏了。

我整理这份的思路很简单：别让 Codex 一次性“复现论文”，而是把论文拆成一组能验证的小任务。每一步都能跑、能检查、能继续改，这样才不容易变成玄学调参。

如果只想快速看重点，建议先看 P04、P10-P15、P18。

P01 封面：先把任务说清楚

从论文到代码 P01

这不是“AI 自动复现论文”的鸡血课件，重点是怎么让 Codex 做工程助手，而不是让它替你理解论文。

P02 目录：三段路

从论文到代码 P02

先搭 RL 代码骨架，再把论文方法拆到代码，最后用训练曲线判断有没有学起来。

P03 第一步先别写代码

从论文到代码 P03

强化学习复现第一件事不是写算法，而是把 Env、Agent、训练循环、评估拆开。

P04 最值得看的总图

从论文到代码 P04

这页是整份课件的骨架：论文 Methods 里的系统模型、MDP、算法、实验设置，分别应该落到哪个代码模块。

P05 Gym Env 是地基

从论文到代码 P05

Env 写错了，后面 PPO 再漂亮也没用。这页可以拿来检查 observation、action、reward、info 有没有对应论文。

P06 先判断算法类型

从论文到代码 P06

很多复现卡住不是代码问题，是动作空间和算法骨架没对上。先分清离散/连续，再选 PPO、SAC、DQN。

P07 为什么用 CleanRL

从论文到代码 P07

CleanRL 的好处是透明，单文件好改，适合和论文伪代码一项项对。不是说它万能，而是方便拆。

P08 Codex 应该站在哪

从论文到代码 P08

Codex 适合生成、运行、修 bug、做一致性检查；论文边界和公式真假还是要人来把关。

P09 第二部分开始落地

从论文到代码 P09

从这里开始，不再讲概念，转成一组可以直接复制改的 prompt。

P10 五步拆法

从论文到代码 P10

Env、Reward、算法接入、启动检查、报错修复。每一步都有产物，别让任务糊成一团。

P11 Prompt 1：只写 Env

从论文到代码 P11

这个 prompt 的关键是“只实现 Env”。先把交互接口跑通，别同时要 PPO、画图、实验报告。

P12 Prompt 2：单独查 reward

从论文到代码 P12

reward 最容易被模型写得像那么回事但其实没对齐论文。这一步要把分项和 info 都留出来查。

P13 Prompt 3：接 CleanRL

从论文到代码 P13

这里让 Codex 自己看 CleanRL，但要求它说明选哪个骨架、为什么选，避免盲改。

P14 Prompt 4：先 smoke test

从论文到代码 P14

不要上来长训。先验证上下层 observation、action、reward、done、info 都能走通。

P15 Prompt 5：报错不是失败

从论文到代码 P15

这一页很实用：把 traceback 当下一轮输入，让 Codex 顺着错误修，直到 smoke test 过。

P16 第三部分：别只看能不能跑

从论文到代码 P16

代码跑起来只是第一关，RL 还要看曲线、loss、指标，不然很可能是在随机游走。

P17 监控工具怎么选

从论文到代码 P17

一个人本地调参 TensorBoard 够用，团队/多实验追踪再考虑 W&B、MLflow、Aim。

P18 怎么看训练曲线

从论文到代码 P18

RL 回报有噪声正常，关键看平滑趋势有没有上升、后期有没有平台。

P19 总结：复现是闭环

从论文到代码 P19

论文拆解、代码生成、运行报错、修复验证、训练监控，这条链闭上才算靠谱。

P20 最后一页

从论文到代码 P20

如果佬友手上有具体论文，可以按这个结构把 Methods 先拆一遍，再喂给 Codex。

原 PPT 放这里，站内不让传 pptx，所以 zip 里就是原文件：

从论文到代码.zip (184 KB)

如果你也在复现 RL/优化类论文，建议别急着要完整代码，先按 P10 那个五步拆一遍。这样 Codex 才是真的省时间，不是帮你制造一堆更难查的 bug。

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

整理一份论文代码课件一个帖子现在