AI研究周报(五)：CLIP 与跨模态预训练

文章目录

最近重新回看 CLIP 这条路线，会明显感觉到一个变化：图像理解这件事，开始不再只是“把图片分到固定标签里”，而是逐渐转向“把图像放进语言所构成的语义空间里”。

CLIP 在解决什么问题

传统视觉分类模型通常依赖封闭标签集。训练时定义好类别，模型学会在这些类别里做判断。但现实世界并不是一个固定标签列表，很多时候我们更想要的是：

CLIP 的关键思路，就是把图像编码器和文本编码器一起训练，让正确的图文对在表示空间里更接近，不匹配的更远。

过去模型识别的是预定义类别，现在模型可以借助文本提示去理解更广泛的概念。这会让视觉系统从封闭任务，逐步走向开放世界识别。

CLIP 的吸引力不只是分类效果，而是它展示了一种更通用的学习方式：

这使得图像模型不再只靠人工标签定义世界，而是直接从海量图文数据中学习语义对应关系。

以前 prompt 更多出现在 NLP 里，但 CLIP 让“文本模板设计”也进入视觉系统。类别描述怎么写、上下文怎么组织，都会影响结果。

互联网图文数据规模虽大，但噪声也非常明显。模型学到的语义既丰富，也可能混入偏见和错误关联。

CLIP 擅长的并不只是传统分类指标，因此如何公平衡量它在开放场景下的能力，仍然需要新的评测方法。

虽然概念很优雅，但真正接入业务时，还需要解决文本模板、召回结构、推理效率等问题。

我觉得 CLIP 的意义在于它打开了几个很重要的方向：

这意味着未来图像模型可能不会只是一个分类器，而更像一个能够听懂语言描述的感知接口。

CLIP 让我印象最深的是，它把视觉模型从“识别像什么”，往“理解它在语言里意味着什么”推进了一步。这个变化不只是精度层面的，而是接口层面的。图像和语言的边界，正在被重新打通。