https://x.com/KyeGomezB/status/2045659150340723107
github.com
GitHub - kyegomez/OpenMythos: A theoretical reconstruction of the Claude Mythos...
A theoretical reconstruction of the Claude Mythos architecture, built from first principles using the available research literature.
目前GitHub上已经2k star了,具体细节在X上有说明。作者也强调了属于理论探讨,仅供参考(不过还是起了OpenMythos的名字)。
按我浅显的理解,传统思路是堆层数,参数爆炸,作者考虑可以把一些层重复使用,最多能循环16次。然后结合MoE的方案,每次循环激活的专家不一样,那就避免了简单重复每次循环到一样的东西。(但是这样实际训练算力并没有节省多少吧,比如1T的参数多循环几次肯定算力也要翻几倍了,可能也就是部署推理的时候省点显存?)
刚好隔壁看到有佬说Opus 4.6是5T参数,4.7就阉割到只有1T,我怀疑是不是就用这个思路,1T的参数量循环10次甚至9次,发现有些性能指标比5T的强,就放出来作为4.7。
然后他们那个吹上天的Mythos说不定就是拿5T参数的模型循环10次甚至9次,一看都赶上10T甚至9T参数量了,所以拿出来大吹特吹?不过Mythos要是真的那么强,怎么不先用来升级下4.7,最糟糕的情况下,该不会Mythos全是营销,实际就是4.7吧?
后面放一些X上的截图,不过这个看到没绷住必须放前面,哎,Deepseek怎么那么坏 ![]()



12 个帖子 - 8 位参与者