AI研究周报(五):CLIP 与跨模态预训练
文章目录
最近重新回看 CLIP 这条路线,会明显感觉到一个变化:图像理解这件事,开始不再只是“把图片分到固定标签里”,而是逐渐转向“把图像放进语言所构成的语义空间里”。
CLIP 在解决什么问题
传统视觉分类模型通常依赖封闭标签集。训练时定义好类别,模型学会在这些类别里做判断。但现实世界并不是一个固定标签列表,很多时候我们更想要的是:
- 用自然语言描述一个概念
- 让模型理解图片和描述是否匹配
- 不重新训练就能扩展到新的类别
CLIP 的关键思路,就是把图像编码器和文本编码器一起训练,让正确的图文对在表示空间里更接近,不匹配的更远。
为什么这件事重要
1. 视觉模型开始拥有“开放词汇”能力
过去模型识别的是预定义类别,现在模型可以借助文本提示去理解更广泛的概念。这会让视觉系统从封闭任务,逐步走向开放世界识别。
2. 多模态预训练第一次展现出很强的通用性
CLIP 的吸引力不只是分类效果,而是它展示了一种更通用的学习方式:
- 图像负责感知
- 文本负责语义锚定
- 对比学习负责把两者对齐
这使得图像模型不再只靠人工标签定义世界,而是直接从海量图文数据中学习语义对应关系。
3. Prompt 在视觉任务里也出现了
以前 prompt 更多出现在 NLP 里,但 CLIP 让“文本模板设计”也进入视觉系统。类别描述怎么写、上下文怎么组织,都会影响结果。
目前看到的局限
数据噪声很大
互联网图文数据规模虽大,但噪声也非常明显。模型学到的语义既丰富,也可能混入偏见和错误关联。
评测方式还不够统一
CLIP 擅长的并不只是传统分类指标,因此如何公平衡量它在开放场景下的能力,仍然需要新的评测方法。
工程落地仍有门槛
虽然概念很优雅,但真正接入业务时,还需要解决文本模板、召回结构、推理效率等问题。
对后续研究的启发
我觉得 CLIP 的意义在于它打开了几个很重要的方向:
- 开放词汇识别
- 图文统一语义空间
- 多模态检索与匹配
- 文本驱动的视觉任务定义
这意味着未来图像模型可能不会只是一个分类器,而更像一个能够听懂语言描述的感知接口。
小结
CLIP 让我印象最深的是,它把视觉模型从“识别像什么”,往“理解它在语言里意味着什么”推进了一步。这个变化不只是精度层面的,而是接口层面的。图像和语言的边界,正在被重新打通。

