AI研究周报(二)：Vision Transformer 的意义

文章目录

1. ViT 的核心想法
2. 为什么这个思路重要
3. 需要看到的现实问题
4. 我更关心的两个方向
1. 4.1. 更高效的视觉 Transformer
2. 4.2. 视觉与语言的统一预训练
5. 小结

Transformer 在 NLP 里已经证明了自己，但把它直接搬到视觉领域，最开始其实并不让人完全放心。图像毕竟和文本不一样，卷积网络长期以来在视觉任务里几乎是默认答案。

ViT 的核心想法

Vision Transformer 做了一件非常直接的事情：

把一张图切成固定大小的 patch
把每个 patch 当成一个 token
加上位置编码
送进标准 Transformer Encoder

这个做法的冲击在于，它说明了 卷积并不一定是视觉任务不可替代的归纳偏置。

为什么这个思路重要

1. 视觉与语言的建模方式正在统一

如果文本可以被表示成 token 序列，图像也可以被表示成 patch 序列，那么很多过去分裂的建模方式就开始收敛：

NLP 用 Transformer
Vision 也能用 Transformer
多模态就有了更自然的统一接口

这会让未来图文、视频、音频等多模态模型更容易共享同一套主干结构。

2. 全局建模能力更自然

CNN 在处理局部模式上很强，但要建模长距离依赖，往往需要不断堆层或者借助额外模块。

Transformer 的 self-attention 则天然具备全局交互能力，任何 patch 都可以直接和其他 patch 建立联系。

这对于下面这些任务都很重要：

场景理解
关系建模
复杂目标交互
跨区域语义聚合

3. 预训练的重要性更高了

ViT 也提醒了一件事：当我们拿掉卷积的强归纳偏置以后，模型会更加依赖大规模数据预训练。

也就是说，模型更通用了，但也更“吃数据”。

需要看到的现实问题

数据需求高

ViT 在大数据集上效果很好，但在数据量不足时未必比 CNN 更稳。

计算成本高

attention 的代价会随着 token 数量增长得很快，高分辨率输入时尤其明显。

工程生态还不成熟

卷积网络在部署、蒸馏、移动端优化上已经很成熟，而视觉 Transformer 相关工具链还处在早期。

我更关心的两个方向

更高效的视觉 Transformer

未来一定会有人继续做：

分层结构
稀疏注意力
局部窗口注意力
更低成本的 patch 表示

目标很明确：把 Transformer 的表达能力和 CNN 的工程效率结合起来。

视觉与语言的统一预训练

一旦视觉端也全面 token 化，多模态预训练就会更加顺滑。图像、文本甚至视频都可以被表示成统一的序列建模问题。

小结

ViT 的意义不只是把分类精度再抬高一点，而是让大家开始认真思考：

视觉是不是也能走“预训练大模型”路线
多模态模型是不是应该共享统一主干
归纳偏置和通用性之间，最佳平衡点在哪里

从长期看，这篇工作更像是一块路标，它告诉我们：Transformer 不是 NLP 的专属结构，它可能是一种更普适的表示学习框架。

SeniorZhai's blog

苟利国家生死以，起因福祸趋避之