AI研究周报(二):Vision Transformer 的意义
Transformer 在 NLP 里已经证明了自己,但把它直接搬到视觉领域,最开始其实并不让人完全放心。图像毕竟和文本不一样,卷积网络长期以来在视觉任务里几乎是默认答案。
ViT 的核心想法
Vision Transformer 做了一件非常直接的事情:
- 把一张图切成固定大小的 patch
- 把每个 patch 当成一个 token
- 加上位置编码
- 送进标准 Transformer Encoder
这个做法的冲击在于,它说明了 卷积并不一定是视觉任务不可替代的归纳偏置。
为什么这个思路重要
1. 视觉与语言的建模方式正在统一
如果文本可以被表示成 token 序列,图像也可以被表示成 patch 序列,那么很多过去分裂的建模方式就开始收敛:
- NLP 用 Transformer
- Vision 也能用 Transformer
- 多模态就有了更自然的统一接口
这会让未来图文、视频、音频等多模态模型更容易共享同一套主干结构。
2. 全局建模能力更自然
CNN 在处理局部模式上很强,但要建模长距离依赖,往往需要不断堆层或者借助额外模块。
Transformer 的 self-attention 则天然具备全局交互能力,任何 patch 都可以直接和其他 patch 建立联系。
这对于下面这些任务都很重要:
- 场景理解
- 关系建模
- 复杂目标交互
- 跨区域语义聚合
3. 预训练的重要性更高了
ViT 也提醒了一件事:当我们拿掉卷积的强归纳偏置以后,模型会更加依赖大规模数据预训练。
也就是说,模型更通用了,但也更“吃数据”。
需要看到的现实问题
数据需求高
ViT 在大数据集上效果很好,但在数据量不足时未必比 CNN 更稳。
计算成本高
attention 的代价会随着 token 数量增长得很快,高分辨率输入时尤其明显。
工程生态还不成熟
卷积网络在部署、蒸馏、移动端优化上已经很成熟,而视觉 Transformer 相关工具链还处在早期。
我更关心的两个方向
更高效的视觉 Transformer
未来一定会有人继续做:
- 分层结构
- 稀疏注意力
- 局部窗口注意力
- 更低成本的 patch 表示
目标很明确:把 Transformer 的表达能力和 CNN 的工程效率结合起来。
视觉与语言的统一预训练
一旦视觉端也全面 token 化,多模态预训练就会更加顺滑。图像、文本甚至视频都可以被表示成统一的序列建模问题。
小结
ViT 的意义不只是把分类精度再抬高一点,而是让大家开始认真思考:
- 视觉是不是也能走“预训练大模型”路线
- 多模态模型是不是应该共享统一主干
- 归纳偏置和通用性之间,最佳平衡点在哪里
从长期看,这篇工作更像是一块路标,它告诉我们:Transformer 不是 NLP 的专属结构,它可能是一种更普适的表示学习框架。

