AI研究周报(四):自监督学习的新趋势
如果说监督学习依赖昂贵标注,那么自监督学习最吸引人的地方,就是它试图把“数据本身”变成监督信号。最近重新回顾 SimCLR、MoCo、BYOL 这些工作,会发现表示学习的主线已经越来越清晰了。
为什么自监督学习重要
很多真实业务都面临同一个问题:
- 原始数据很多
- 高质量标注很少
- 标注成本高且迭代慢
这时候如果模型只能依赖全监督训练,数据利用率其实非常低。自监督学习的价值就在于:先学一个尽量通用的表示,再把少量标注数据用在真正关键的地方。
几条代表性的路线
SimCLR:把对比学习做得足够干净
SimCLR 的思路很直接:
- 对同一张图做不同增强
- 把它们视作正样本对
- 不同图片之间形成负样本
- 通过对比损失拉近正样本、拉远负样本
它的贡献之一是把一套看起来复杂的表示学习流程,整理成了比较清晰的最小范式。
MoCo:用队列把负样本规模做起来
MoCo 的关键点是动量编码器和动态字典。它解决的是对比学习里一个很现实的问题:如何稳定地拿到大量高质量负样本。
这让训练不必极端依赖超大 batch size,工程上更容易落地。
BYOL:不靠负样本也能学
BYOL 很有意思,因为它让大家开始重新思考:对比学习是否真的一定依赖负样本?
它通过 online / target network 的结构和动量更新机制,在没有显式负样本的情况下仍然学到了有效表示。
这说明表示学习真正关键的可能不只是“拉开谁和谁的距离”,还包括:
- 结构约束
- 视角一致性
- 预测目标设计
这些工作的共同方向
虽然实现细节不同,但这几类方法都在说明一件事:
1. 数据增强本身就是任务定义
自监督里,增强策略不只是数据处理,而是在定义“什么是语义不变性”。
2. 表示质量比下游头部更重要
如果 backbone 学到的特征足够通用,下游只用很简单的线性分类器也能拿到不错结果。
3. 预训练正在从 NLP 扩散到更多模态
语言有语言模型,视觉也正在形成自己的通用预训练路线。未来音频、视频、多模态大概率也会继续沿着这个方向发展。
工程上的现实意义
对于业务团队来说,自监督学习并不只是学术热点,它直接影响:
- 冷启动阶段的效果
- 小样本任务的性能上限
- 标注成本投入策略
- 模型迁移复用能力
小结
我越来越觉得,自监督学习是 AI 里非常底层的一条主线。它的目标不是替代所有监督学习,而是让模型先把世界的结构学会一部分,再用更少的人类标注去完成具体任务。
从长期看,这种路线和大模型预训练其实是同一个方向:先学通用表示,再做任务适配。

