文章目录
  1. 1. 为什么自监督学习重要
  2. 2. 几条代表性的路线
    1. 2.1. SimCLR:把对比学习做得足够干净
    2. 2.2. MoCo:用队列把负样本规模做起来
    3. 2.3. BYOL:不靠负样本也能学
  3. 3. 这些工作的共同方向
    1. 3.1. 1. 数据增强本身就是任务定义
    2. 3.2. 2. 表示质量比下游头部更重要
    3. 3.3. 3. 预训练正在从 NLP 扩散到更多模态
  4. 4. 工程上的现实意义
  5. 5. 小结

如果说监督学习依赖昂贵标注,那么自监督学习最吸引人的地方,就是它试图把“数据本身”变成监督信号。最近重新回顾 SimCLR、MoCo、BYOL 这些工作,会发现表示学习的主线已经越来越清晰了。

为什么自监督学习重要

很多真实业务都面临同一个问题:

  • 原始数据很多
  • 高质量标注很少
  • 标注成本高且迭代慢

这时候如果模型只能依赖全监督训练,数据利用率其实非常低。自监督学习的价值就在于:先学一个尽量通用的表示,再把少量标注数据用在真正关键的地方。

几条代表性的路线

SimCLR:把对比学习做得足够干净

SimCLR 的思路很直接:

  • 对同一张图做不同增强
  • 把它们视作正样本对
  • 不同图片之间形成负样本
  • 通过对比损失拉近正样本、拉远负样本

它的贡献之一是把一套看起来复杂的表示学习流程,整理成了比较清晰的最小范式。

MoCo:用队列把负样本规模做起来

MoCo 的关键点是动量编码器和动态字典。它解决的是对比学习里一个很现实的问题:如何稳定地拿到大量高质量负样本

这让训练不必极端依赖超大 batch size,工程上更容易落地。

BYOL:不靠负样本也能学

BYOL 很有意思,因为它让大家开始重新思考:对比学习是否真的一定依赖负样本?

它通过 online / target network 的结构和动量更新机制,在没有显式负样本的情况下仍然学到了有效表示。

这说明表示学习真正关键的可能不只是“拉开谁和谁的距离”,还包括:

  • 结构约束
  • 视角一致性
  • 预测目标设计

这些工作的共同方向

虽然实现细节不同,但这几类方法都在说明一件事:

1. 数据增强本身就是任务定义

自监督里,增强策略不只是数据处理,而是在定义“什么是语义不变性”。

2. 表示质量比下游头部更重要

如果 backbone 学到的特征足够通用,下游只用很简单的线性分类器也能拿到不错结果。

3. 预训练正在从 NLP 扩散到更多模态

语言有语言模型,视觉也正在形成自己的通用预训练路线。未来音频、视频、多模态大概率也会继续沿着这个方向发展。

工程上的现实意义

对于业务团队来说,自监督学习并不只是学术热点,它直接影响:

  • 冷启动阶段的效果
  • 小样本任务的性能上限
  • 标注成本投入策略
  • 模型迁移复用能力

小结

我越来越觉得,自监督学习是 AI 里非常底层的一条主线。它的目标不是替代所有监督学习,而是让模型先把世界的结构学会一部分,再用更少的人类标注去完成具体任务。

从长期看,这种路线和大模型预训练其实是同一个方向:先学通用表示,再做任务适配。

文章目录
  1. 1. 为什么自监督学习重要
  2. 2. 几条代表性的路线
    1. 2.1. SimCLR:把对比学习做得足够干净
    2. 2.2. MoCo:用队列把负样本规模做起来
    3. 2.3. BYOL:不靠负样本也能学
  3. 3. 这些工作的共同方向
    1. 3.1. 1. 数据增强本身就是任务定义
    2. 3.2. 2. 表示质量比下游头部更重要
    3. 3.3. 3. 预训练正在从 NLP 扩散到更多模态
  4. 4. 工程上的现实意义
  5. 5. 小结