文章目录
  1. 1. 为什么传统评测开始吃力
  2. 2. 分数依然重要,但不再够用
  3. 3. 评测正在发生的转向
    1. 3.1. 1. 从离线指标转向交互观察
    2. 3.2. 2. 从标准答案转向偏好比较
    3. 3.3. 3. 从通用能力转向场景适配
  4. 4. 评测难题在哪里
    1. 4.1. 主观性更强
    2. 4.2. 成本更高
    3. 4.3. 容易被“刷分”
  5. 5. 小结

最近越看大模型和生成系统的发展,越觉得一个老问题正在变得更棘手:我们到底该怎么评价一个模型好不好?过去 benchmark 分数很好用,因为任务边界清晰、目标明确。但模型越来越开放、越来越通用之后,只看分数显然不够了。

为什么传统评测开始吃力

在分类、检索、翻译等明确任务里,分数非常有效,因为正确答案相对清楚,评价标准也容易统一。但开放式生成不同:

  • 一个问题可能有多个合理答案
  • 好答案不只是“对”,还要“有帮助”
  • 用户在意的往往是整体体验,而不是某个单点指标

这让模型评测越来越像在衡量“交互质量”,而不只是“任务命中率”。

分数依然重要,但不再够用

我并不觉得 benchmark 会失效。它仍然是理解模型能力边界的重要工具。但问题是,它更适合测能力上限,不一定适合测真实使用质量。

举个例子:一个模型在标准任务上分数更高,却可能在真实对话里更啰嗦、更不稳定、更难控制。对用户来说,这些感受非常真实,但很难在单一指标里被完整表达。

评测正在发生的转向

1. 从离线指标转向交互观察

越来越多场景需要看模型连续多轮表现,而不只是一次输入输出。

2. 从标准答案转向偏好比较

有些任务里,与其问“哪一个对”,不如问“用户更喜欢哪一个”。这会让人类偏好评估变得更重要。

3. 从通用能力转向场景适配

未来的评测不会只有一个总分,而会更关注:在某种具体工作流里,这个模型到底有没有帮助。

评测难题在哪里

主观性更强

只要引入用户体验,就难免带来主观差异。

成本更高

人工评测、对比实验、多轮交互测试都比自动打分更贵。

容易被“刷分”

一旦某类评测固定下来,系统就可能被专门优化去迎合指标,而不是真正改善体验。

小结

我越来越相信,未来模型评测会像产品评测,而不只是算法评测。分数当然还会留着,但真正决定系统价值的,可能是用户在真实使用中的感受:是否稳定、是否有帮助、是否值得信任。

文章目录
  1. 1. 为什么传统评测开始吃力
  2. 2. 分数依然重要,但不再够用
  3. 3. 评测正在发生的转向
    1. 3.1. 1. 从离线指标转向交互观察
    2. 3.2. 2. 从标准答案转向偏好比较
    3. 3.3. 3. 从通用能力转向场景适配
  4. 4. 评测难题在哪里
    1. 4.1. 主观性更强
    2. 4.2. 成本更高
    3. 4.3. 容易被“刷分”
  5. 5. 小结