AI研究周报(十二):代码模型开始进入主线
过去我们会把代码生成看作一个有点偏门的方向:自动补全、模板生成、简单翻译。但随着语言模型能力上升,再回头看这条线,会发现它正在从“辅助功能”逐渐走向更核心的位置。代码,天然就是一种结构化语言,而这正好非常适合大模型发挥。
过去我们会把代码生成看作一个有点偏门的方向:自动补全、模板生成、简单翻译。但随着语言模型能力上升,再回头看这条线,会发现它正在从“辅助功能”逐渐走向更核心的位置。代码,天然就是一种结构化语言,而这正好非常适合大模型发挥。
语言模型越大,知识似乎记得越多,但与此同时也会出现另一个问题:参数里“记住”的知识很难随时更新,也不容易追踪来源。最近再看检索结合生成这条思路,会觉得它特别像一个即将爆发的方向——模型不必把一切都死记在参数里,而可以在需要时去查。
最近再回看语言模型的发展,会发现一个趋势已经越来越明显:模型变强之后,问题不再只是“会不会生成”,而是“会生成什么、按谁的偏好生成、如何更稳定地生成”。虽然 RLHF 这个名字还没有真正成为行业主旋律,但“让模型更贴近人类偏好”这件事,其实已经在冒头。
随着大模型参数越来越大,一个更现实的问题开始浮出来:就算模型本身足够强,如果它一次只能高成本地处理有限上下文,那么很多真实任务依然会被卡住。最近回看稀疏注意力这一批工作,会感觉它们其实是在回答一个很工程、但也很核心的问题:Transformer 怎么才能看得更远。
最近看 DALL·E 相关工作,最值得注意的不是“能根据文字生成图片”这句表面描述,而是它把文本生成和图像生成之间的距离进一步拉近了。多模态建模这件事,突然变得不再只是检索和匹配,而是开始触及真正的创造性生成。
生成模型这条线这些年一直很热闹,GAN 曾经是最亮眼的主角,但最近再看 DDPM 一类扩散模型的工作,会感觉到一种不太一样的气质:它不靠极度激进的对抗训练,而是走了一条更稳定、更物理、更逐步逼近数据分布的路线。
这一阵子看 AlphaFold2 的进展,最大的感受不是“又一个 benchmark 被刷了”,而是 AI 开始在一些传统科学难题上展现出真正的突破性价值。蛋白质折叠并不是一个容易被营销化理解的话题,但它的重要性非常实在。
最近重新回看 CLIP 这条路线,会明显感觉到一个变化:图像理解这件事,开始不再只是“把图片分到固定标签里”,而是逐渐转向“把图像放进语言所构成的语义空间里”。
如果说监督学习依赖昂贵标注,那么自监督学习最吸引人的地方,就是它试图把“数据本身”变成监督信号。最近重新回顾 SimCLR、MoCo、BYOL 这些工作,会发现表示学习的主线已经越来越清晰了。
目标检测这个方向长期都在和各种手工设计纠缠:anchor、NMS、正负样本分配、候选框筛选,每一步都有大量经验参数。DETR 的出现,第一次让我觉得这个方向有机会被重新整理。