DeepSeek V4 Pro带来的惊喜

这几天让 GPT 5.5 xhigh 排查我的模型训练代码,想定位 fp8 训练下导致 NaN 的原因 一直以来很信任 GPT,做事严谨认真几乎不会出错。这次排错也是,很耐心地和 GPT 交流想法思路。但时间一长,突然感觉很不舒服 我和 GPT 一致认同需要定位出问题的网络节点,甚至是已经定位到具体...
DeepSeek V4 Pro带来的惊喜
DeepSeek V4 Pro带来的惊喜

这几天让 GPT 5.5 xhigh 排查我的模型训练代码,想定位 fp8 训练下导致 NaN 的原因

一直以来很信任 GPT,做事严谨认真几乎不会出错。这次排错也是,很耐心地和 GPT 交流想法思路。但时间一长,突然感觉很不舒服

image

image

我和 GPT 一致认同需要定位出问题的网络节点,甚至是已经定位到具体网络层了。但 GPT 像着了魔一样要么反复验证这个结论,要么建议我关掉整个 fp8,就是没针对问题思考方案做修复。等我反应过来时,一整天时间都过去了

尝试换上 GLM 5.1。也能定位到问题位置,但它紧接着做了一个非常耗时的实验,一不注意把我五小时上限吃完了

image

然后是尝试 DeepSeek V4 Pro Max。定位错误,思考方案,插入代码一气呵成,最后工具触发失败整段垮掉

不过问题真解决了,一个很优雅的scale相乘,没有NaN问题了。直呼 deepseek 牛逼

image

image


意识到,GPT 不仅严谨认真,还有点死脑筋。我是真的没想到 GPT 是在钻牛角尖,看它说得头头是道我还一直反思是不是方向错了

之前用 ds 不多,这次感觉到确实有东西

16 个帖子 - 13 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文