AI研究周报(九)：稀疏注意力与长上下文

文章目录

随着大模型参数越来越大，一个更现实的问题开始浮出来：就算模型本身足够强，如果它一次只能高成本地处理有限上下文，那么很多真实任务依然会被卡住。最近回看稀疏注意力这一批工作，会感觉它们其实是在回答一个很工程、但也很核心的问题：Transformer 怎么才能看得更远。

为什么长上下文是硬问题

标准自注意力的复杂度会随着序列长度快速上升。序列一长，显存、算力、推理时延都会变得难以接受。这意味着很多看起来理所当然的场景，实际上都很昂贵：

如果不能降低长序列成本，Transformer 的通用性就会受到很大限制。

这类方法的核心思路其实很直观：不是每个 token 都必须看所有 token。可以根据结构设计，只让它关注一部分更重要的位置，比如：

这样做的目标不是完全复制全连接注意力，而是在可接受成本下，保留足够强的建模能力。

很多任务不是短句分类，而是必须处理大量上下文。谁能更便宜地处理长序列，谁就更有机会进入真正复杂的生产环境。

这几年大家容易把注意力放在参数规模和数据规模上，但稀疏注意力说明，计算图设计本身也能决定模型上限。

如果研究界能逐步总结出哪些注意力连接是必要的、哪些是冗余的，那么后面无论是训练系统还是推理系统，都会有更清晰的优化抓手。

不同任务适合的稀疏结构可能不一样。一个结构在长文里有效，不一定在代码或多模态序列里同样有效。

纸面复杂度下降，不代表真实硬件上一定更快。很多稀疏操作在工程实现上反而不如密集矩阵友好。

上下文拉长了，但如果表达能力明显下降，最终依然不一定划算。

我觉得稀疏注意力最大的价值，不是某一篇论文给出了终局答案，而是把“长上下文能力”正式推成了主战场。未来模型能不能真的读长文、记长历史、写长代码，很大程度上取决于这条路线能走多远。