文章目录
  1. 1. 为什么对齐问题会越来越重要
  2. 2. 早期信号来自哪里
    1. 2.1. 1. 纯最大似然训练不等于“人类喜欢”
    2. 2.2. 2. Prompt 工程开始承担控制责任
    3. 2.3. 3. 人工评估的重要性在上升
  3. 3. 这件事意味着什么
    1. 3.1. 对齐会成为独立研发方向
    2. 3.2. 数据质量将比数据量更关键
    3. 3.3. 评估体系也得跟着变
  4. 4. 小结

最近再回看语言模型的发展,会发现一个趋势已经越来越明显:模型变强之后,问题不再只是“会不会生成”,而是“会生成什么、按谁的偏好生成、如何更稳定地生成”。虽然 RLHF 这个名字还没有真正成为行业主旋律,但“让模型更贴近人类偏好”这件事,其实已经在冒头。

为什么对齐问题会越来越重要

当模型只是在小范围任务里做分类或补全时,很多输出偏差还能被任务边界掩盖。但一旦模型变成开放式生成系统,问题就会快速放大:

  • 输出不稳定
  • 风格不受控
  • 偏见容易暴露
  • 错误内容更像真的

模型越通用,这些问题就越不可能靠后处理彻底解决。

早期信号来自哪里

我觉得至少有几类现象已经很说明问题:

1. 纯最大似然训练不等于“人类喜欢”

模型能学会复现数据分布,但未必学会什么回答更有帮助、更安全、更符合指令。

2. Prompt 工程开始承担控制责任

很多时候,大家通过更细的提示词、更多的上下文约束来控制输出。某种程度上,这说明模型本身还没有足够稳地学会服从期望。

3. 人工评估的重要性在上升

一些开放式任务里,自动指标越来越难充分描述真实体验。人类反馈开始成为不可回避的一环。

这件事意味着什么

对齐会成为独立研发方向

以后模型训练不太可能只分成“预训练”和“微调”两层,而是会出现更明确的人类偏好建模环节。

数据质量将比数据量更关键

如果目标是让模型学会更符合人类意图的输出,那么什么样的反馈被收集、如何标注、如何定义偏好,都会变成核心问题。

评估体系也得跟着变

传统 benchmark 可以测能力,但不一定能测“是否更符合人类使用场景”。未来评估会更像一套综合体系,而不只是单个分数。

小结

我现在越来越觉得,大模型的发展不会只沿着“更大、更强”一条轴推进。另一条同样重要的轴,是“更可控、更可靠、更符合人类预期”。今天看似零散的对齐信号,后面很可能会汇成主线。

文章目录
  1. 1. 为什么对齐问题会越来越重要
  2. 2. 早期信号来自哪里
    1. 2.1. 1. 纯最大似然训练不等于“人类喜欢”
    2. 2.2. 2. Prompt 工程开始承担控制责任
    3. 2.3. 3. 人工评估的重要性在上升
  3. 3. 这件事意味着什么
    1. 3.1. 对齐会成为独立研发方向
    2. 3.2. 数据质量将比数据量更关键
    3. 3.3. 评估体系也得跟着变
  4. 4. 小结