文章目录
  1. 1. CLIP 在解决什么问题
  2. 2. 为什么这件事重要
    1. 2.1. 1. 视觉模型开始拥有“开放词汇”能力
    2. 2.2. 2. 多模态预训练第一次展现出很强的通用性
    3. 2.3. 3. Prompt 在视觉任务里也出现了
  3. 3. 目前看到的局限
    1. 3.1. 数据噪声很大
    2. 3.2. 评测方式还不够统一
    3. 3.3. 工程落地仍有门槛
  4. 4. 对后续研究的启发
  5. 5. 小结

最近重新回看 CLIP 这条路线,会明显感觉到一个变化:图像理解这件事,开始不再只是“把图片分到固定标签里”,而是逐渐转向“把图像放进语言所构成的语义空间里”。

CLIP 在解决什么问题

传统视觉分类模型通常依赖封闭标签集。训练时定义好类别,模型学会在这些类别里做判断。但现实世界并不是一个固定标签列表,很多时候我们更想要的是:

  • 用自然语言描述一个概念
  • 让模型理解图片和描述是否匹配
  • 不重新训练就能扩展到新的类别

CLIP 的关键思路,就是把图像编码器和文本编码器一起训练,让正确的图文对在表示空间里更接近,不匹配的更远。

为什么这件事重要

1. 视觉模型开始拥有“开放词汇”能力

过去模型识别的是预定义类别,现在模型可以借助文本提示去理解更广泛的概念。这会让视觉系统从封闭任务,逐步走向开放世界识别。

2. 多模态预训练第一次展现出很强的通用性

CLIP 的吸引力不只是分类效果,而是它展示了一种更通用的学习方式:

  • 图像负责感知
  • 文本负责语义锚定
  • 对比学习负责把两者对齐

这使得图像模型不再只靠人工标签定义世界,而是直接从海量图文数据中学习语义对应关系。

3. Prompt 在视觉任务里也出现了

以前 prompt 更多出现在 NLP 里,但 CLIP 让“文本模板设计”也进入视觉系统。类别描述怎么写、上下文怎么组织,都会影响结果。

目前看到的局限

数据噪声很大

互联网图文数据规模虽大,但噪声也非常明显。模型学到的语义既丰富,也可能混入偏见和错误关联。

评测方式还不够统一

CLIP 擅长的并不只是传统分类指标,因此如何公平衡量它在开放场景下的能力,仍然需要新的评测方法。

工程落地仍有门槛

虽然概念很优雅,但真正接入业务时,还需要解决文本模板、召回结构、推理效率等问题。

对后续研究的启发

我觉得 CLIP 的意义在于它打开了几个很重要的方向:

  • 开放词汇识别
  • 图文统一语义空间
  • 多模态检索与匹配
  • 文本驱动的视觉任务定义

这意味着未来图像模型可能不会只是一个分类器,而更像一个能够听懂语言描述的感知接口。

小结

CLIP 让我印象最深的是,它把视觉模型从“识别像什么”,往“理解它在语言里意味着什么”推进了一步。这个变化不只是精度层面的,而是接口层面的。图像和语言的边界,正在被重新打通。

文章目录
  1. 1. CLIP 在解决什么问题
  2. 2. 为什么这件事重要
    1. 2.1. 1. 视觉模型开始拥有“开放词汇”能力
    2. 2.2. 2. 多模态预训练第一次展现出很强的通用性
    3. 2.3. 3. Prompt 在视觉任务里也出现了
  3. 3. 目前看到的局限
    1. 3.1. 数据噪声很大
    2. 3.2. 评测方式还不够统一
    3. 3.3. 工程落地仍有门槛
  4. 4. 对后续研究的启发
  5. 5. 小结