deepseek v4 碎碎念

1、CSA和HCA两种sparse attention 2、mHC 3、Muon优化器 4、GRPO+OPD 想问一下这次的engram去哪里了,没办法scale up? 1 个帖子 - 1 位参与者 阅读完整话题...
deepseek v4 碎碎念
deepseek v4 碎碎念

1、CSA和HCA两种sparse attention
2、mHC
3、Muon优化器
4、GRPO+OPD

想问一下这次的engram去哪里了,没办法scale up?

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文