AI研究周报(十):RLHF 之前的对齐信号
文章目录
最近再回看语言模型的发展,会发现一个趋势已经越来越明显:模型变强之后,问题不再只是“会不会生成”,而是“会生成什么、按谁的偏好生成、如何更稳定地生成”。虽然 RLHF 这个名字还没有真正成为行业主旋律,但“让模型更贴近人类偏好”这件事,其实已经在冒头。
为什么对齐问题会越来越重要
当模型只是在小范围任务里做分类或补全时,很多输出偏差还能被任务边界掩盖。但一旦模型变成开放式生成系统,问题就会快速放大:
- 输出不稳定
- 风格不受控
- 偏见容易暴露
- 错误内容更像真的
模型越通用,这些问题就越不可能靠后处理彻底解决。
早期信号来自哪里
我觉得至少有几类现象已经很说明问题:
1. 纯最大似然训练不等于“人类喜欢”
模型能学会复现数据分布,但未必学会什么回答更有帮助、更安全、更符合指令。
2. Prompt 工程开始承担控制责任
很多时候,大家通过更细的提示词、更多的上下文约束来控制输出。某种程度上,这说明模型本身还没有足够稳地学会服从期望。
3. 人工评估的重要性在上升
一些开放式任务里,自动指标越来越难充分描述真实体验。人类反馈开始成为不可回避的一环。
这件事意味着什么
对齐会成为独立研发方向
以后模型训练不太可能只分成“预训练”和“微调”两层,而是会出现更明确的人类偏好建模环节。
数据质量将比数据量更关键
如果目标是让模型学会更符合人类意图的输出,那么什么样的反馈被收集、如何标注、如何定义偏好,都会变成核心问题。
评估体系也得跟着变
传统 benchmark 可以测能力,但不一定能测“是否更符合人类使用场景”。未来评估会更像一套综合体系,而不只是单个分数。
小结
我现在越来越觉得,大模型的发展不会只沿着“更大、更强”一条轴推进。另一条同样重要的轴,是“更可控、更可靠、更符合人类预期”。今天看似零散的对齐信号,后面很可能会汇成主线。

