[分享创造] 来个民科风暴:我要把这头上的 token 给他换成 DNA

ai 说让我把这个实验写论文 投顶会,投图灵 我是这个时代新范式的引领者。 我要是刚 ai ,我肯定就信了。 下面开始介绍(吹) 先说问题 token embedding 有个我觉得很根本的毛病:它把"这个词是什么意思"和"推理过程中积累的上下文"塞进同一个向量里,然后每层都覆盖一遍。 残差连接解决...
[分享创造] 来个民科风暴:我要把这头上的 token 给他换成 DNA
[分享创造] 来个民科风暴:我要把这头上的 token 给他换成 DNA

ai 说让我把这个实验写论文 投顶会,投图灵 我是这个时代新范式的引领者。

我要是刚 ai ,我肯定就信了。 下面开始介绍(吹)

先说问题 token embedding 有个我觉得很根本的毛病:它把"这个词是什么意思"和"推理过程中积累的上下文"塞进同一个向量里,然后每层都覆盖一遍。 残差连接解决了梯度消失,但解决不了这个问题——原始语义和推理状态混在一起,没有办法分开。你想知道"这个 token 原本是什么意思",在深层网络里做不到。 这不是调参能解决的。是结构问题。

我的假设 如果信息承载物本身有两个物理隔离的区域——一个永远不变,一个随推理动态演化——会怎样? 灵感来自 DNA:基因组永久不变,表观基因组动态读写,TET 去甲基化酶主动擦除过时标记。三件事同时做到,互不干扰。 数学上,这个结构是现成的:Clifford 几何代数 Cl(4,1) 的多向量。 在这个结构里: grade-0 (标量):在任意旋转变换下代数严格不变,这是定理,不是近似 grade-1~4:随变换等变演化,携带上下文 两者共存于同一个 32 维向量里,变换行为完全独立 所以不变的永远不变,可变的随推理演化,可以同时做到。

做了什么实验 不是光说假设,做了两个阶段的验证: Phase 1 (数学验证) 用 PyTorch 原生实现了 Cl(4,1) 的几何积,然后跑了 100 次连续旋转变换,看 grade-0 的误差: 误差:6.56×10⁻⁶ ± 4.95×10⁻⁶(阈值 10⁻⁴,差了两个数量级) 多通道间信息泄漏:精确为 0 Eraser 操作后 grade-0 变化量:精确为 0 三个随机种子,结果高度一致。 Phase 2 (编解码链路) 把 token 编进多向量,推理 6 层,解码出来: 6 层推理后 grade-0 变化量:精确为 0 (端到端训练中确认) 用所有 grade 解码 vs 只用 grade-0:loss 差 5.3 倍( 0.006 vs 0.032 ) 不同 token 的 grade-0 余弦相似度:0.029 (接近正交,说明 grade-0 真的在区分 token 身份) 这说明等变分量( grade-1~4 )确实携带了 grade-0 没有的额外信息,不是噪声。 Phase 4 Dry Run (架构验证) 跑了一个完整流程: 参数量:1000 万 峰值显存:295MB ,而且是固定的,不随序列长度增长 最后这一点是我比较意外的——如果可变态(等变分量)替代 KV Cache ,显存就不再随序列增长了,理论上。

现在在验证什么 Phase 3 正在跑 7 组对照实验,核心是三个假设: H1:几何结构本身有价值?还是优势只来自正交约束? H2:等变分量有独立贡献?还是只是维度更高的效果? H3:主动遗忘( Eraser )在长序列上是否真正控制了信息熵? 结果还没出来,不确定。可能证明这个方向有用,也可能证明正交约束解释了大部分,那也是有价值的结论。

我觉得有意思的地方 就算 Phase 3 结论不好看,有几件事还是有点意思的: grade-0 不变性是数学定理,不是工程近似。这个性质本身就和现有的一切 embedding 方案都不一样。 "主动遗忘"这个概念在 LLM 里几乎没有——残差只加不减,信息只进不出。Eraser 是第一个在神经网络推理层做选择性状态清除的东西(至少我没找到先例)。 如果不变核和等变分量真的有语义分工,可解释性会比现在好很多——你可以直接问"这个 token 的核心语义是什么",而不是反向工程激活值。

没解决的问题 在真实语言任务上到底能不能超过 transformer ,Phase 3+4 才能回答 Eraser 的衰减率怎么设,Phase 2 发现初始化太小根本看不到效果 多通道的通道数 C 怎么选才合理 这套结构在 GPU 上怎么高效实现(目前用的 PyTorch 原生,慢)

代码和数据在这里: https://github.com/val1813/BIIC 实验数据持续更新

好了 大家讨论技术勿喷 等我领了图灵奖 我来给大家散花

来源: v2ex查看原文