AI研究周报(十)：RLHF 之前的对齐信号

文章目录

最近再回看语言模型的发展，会发现一个趋势已经越来越明显：模型变强之后，问题不再只是“会不会生成”，而是“会生成什么、按谁的偏好生成、如何更稳定地生成”。虽然 RLHF 这个名字还没有真正成为行业主旋律，但“让模型更贴近人类偏好”这件事，其实已经在冒头。

为什么对齐问题会越来越重要

当模型只是在小范围任务里做分类或补全时，很多输出偏差还能被任务边界掩盖。但一旦模型变成开放式生成系统，问题就会快速放大：

模型越通用，这些问题就越不可能靠后处理彻底解决。

我觉得至少有几类现象已经很说明问题：

模型能学会复现数据分布，但未必学会什么回答更有帮助、更安全、更符合指令。

很多时候，大家通过更细的提示词、更多的上下文约束来控制输出。某种程度上，这说明模型本身还没有足够稳地学会服从期望。

一些开放式任务里，自动指标越来越难充分描述真实体验。人类反馈开始成为不可回避的一环。

以后模型训练不太可能只分成“预训练”和“微调”两层，而是会出现更明确的人类偏好建模环节。

如果目标是让模型学会更符合人类意图的输出，那么什么样的反馈被收集、如何标注、如何定义偏好，都会变成核心问题。

传统 benchmark 可以测能力，但不一定能测“是否更符合人类使用场景”。未来评估会更像一套综合体系，而不只是单个分数。

我现在越来越觉得，大模型的发展不会只沿着“更大、更强”一条轴推进。另一条同样重要的轴，是“更可控、更可靠、更符合人类预期”。今天看似零散的对齐信号，后面很可能会汇成主线。