[分享创造] 来个民科风暴：我要把这头上的 token 给他换成 DNA

编辑部 2026-05-12T03:21:13.353456 47574 阅读 tech

ai 说让我把这个实验写论文投顶会，投图灵我是这个时代新范式的引领者。我要是刚 ai ，我肯定就信了。下面开始介绍（吹）先说问题 token embedding 有个我觉得很根本的毛病：它把"这个词是什么意思"和"推理过程中积累的上下文"塞进同一个向量里，然后每层都覆盖一遍。残差连接解决...

ai 说让我把这个实验写论文投顶会，投图灵我是这个时代新范式的引领者。

我要是刚 ai ，我肯定就信了。下面开始介绍（吹）

先说问题 token embedding 有个我觉得很根本的毛病：它把"这个词是什么意思"和"推理过程中积累的上下文"塞进同一个向量里，然后每层都覆盖一遍。残差连接解决了梯度消失，但解决不了这个问题——原始语义和推理状态混在一起，没有办法分开。你想知道"这个 token 原本是什么意思"，在深层网络里做不到。这不是调参能解决的。是结构问题。

我的假设 如果信息承载物本身有两个物理隔离的区域——一个永远不变，一个随推理动态演化——会怎样？灵感来自 DNA：基因组永久不变，表观基因组动态读写，TET 去甲基化酶主动擦除过时标记。三件事同时做到，互不干扰。数学上，这个结构是现成的：Clifford 几何代数 Cl(4,1) 的多向量。在这个结构里： grade-0 （标量）：在任意旋转变换下代数严格不变，这是定理，不是近似 grade-1~4：随变换等变演化，携带上下文两者共存于同一个 32 维向量里，变换行为完全独立所以不变的永远不变，可变的随推理演化，可以同时做到。

做了什么实验 不是光说假设，做了两个阶段的验证： Phase 1 （数学验证）用 PyTorch 原生实现了 Cl(4,1) 的几何积，然后跑了 100 次连续旋转变换，看 grade-0 的误差：误差：6.56×10⁻⁶ ± 4.95×10⁻⁶（阈值 10⁻⁴，差了两个数量级）多通道间信息泄漏：精确为 0 Eraser 操作后 grade-0 变化量：精确为 0 三个随机种子，结果高度一致。 Phase 2 （编解码链路）把 token 编进多向量，推理 6 层，解码出来： 6 层推理后 grade-0 变化量：精确为 0 （端到端训练中确认）用所有 grade 解码 vs 只用 grade-0：loss 差 5.3 倍（ 0.006 vs 0.032 ）不同 token 的 grade-0 余弦相似度：0.029 （接近正交，说明 grade-0 真的在区分 token 身份）这说明等变分量（ grade-1~4 ）确实携带了 grade-0 没有的额外信息，不是噪声。 Phase 4 Dry Run （架构验证）跑了一个完整流程：参数量：1000 万峰值显存：295MB ，而且是固定的，不随序列长度增长最后这一点是我比较意外的——如果可变态（等变分量）替代 KV Cache ，显存就不再随序列增长了，理论上。

现在在验证什么 Phase 3 正在跑 7 组对照实验，核心是三个假设： H1：几何结构本身有价值？还是优势只来自正交约束？ H2：等变分量有独立贡献？还是只是维度更高的效果？ H3：主动遗忘（ Eraser ）在长序列上是否真正控制了信息熵？结果还没出来，不确定。可能证明这个方向有用，也可能证明正交约束解释了大部分，那也是有价值的结论。

我觉得有意思的地方 就算 Phase 3 结论不好看，有几件事还是有点意思的： grade-0 不变性是数学定理，不是工程近似。这个性质本身就和现有的一切 embedding 方案都不一样。 "主动遗忘"这个概念在 LLM 里几乎没有——残差只加不减，信息只进不出。Eraser 是第一个在神经网络推理层做选择性状态清除的东西（至少我没找到先例）。如果不变核和等变分量真的有语义分工，可解释性会比现在好很多——你可以直接问"这个 token 的核心语义是什么"，而不是反向工程激活值。

没解决的问题 在真实语言任务上到底能不能超过 transformer ，Phase 3+4 才能回答 Eraser 的衰减率怎么设，Phase 2 发现初始化太小根本看不到效果多通道的通道数 C 怎么选才合理这套结构在 GPU 上怎么高效实现（目前用的 PyTorch 原生，慢）

代码和数据在这里： https://github.com/val1813/BIIC 实验数据持续更新

好了大家讨论技术勿喷等我领了图灵奖我来给大家散花

来源: v2ex查看原文

分享创造来个民科风暴一个 IT AI

[分享创造] 来个民科风暴：我要把这头上的 token 给他换成 DNA

微信偶尔也会合并朋友圈(在上一次访问朋友圈到现在，某人发布了多条朋友圈的时候会合并)

[问与答] 我感觉程序员老了，如果无子无女，探讨一个最终精力的去处：逆向工程及攻防

相关推荐