这篇论文大概讲ViT 在很多情况下会偷懒地利用背景/上下文 patch 作为分类捷径,导致全局表示对前景对象的聚合不充分
里面提到一个很有意思的现象:lazy aggregation。
我觉得这对 agent harness 很有启发:
如果把视觉里的"背景 patch"换成 agent 系统里的summary、目录结构、文件名、看起来权威的专业词汇,以及各类二手上下文,就会发现 agent 也可能形成类似 捷径:
不认真读取底层证据,而是拿廉价代理信号拼出一个"看起来合理"的全局判断
github.com
GitHub - ChengShiest/LAST-ViT: [CVPR 2026] The official PyTorch implementation of...
[CVPR 2026] The official PyTorch implementation of the "Vision Transformer Needs More Than Registers".
1 个帖子 - 1 位参与者