AI研究周报(十五):模型评测从分数走向体验
文章目录
最近越看大模型和生成系统的发展,越觉得一个老问题正在变得更棘手:我们到底该怎么评价一个模型好不好?过去 benchmark 分数很好用,因为任务边界清晰、目标明确。但模型越来越开放、越来越通用之后,只看分数显然不够了。
为什么传统评测开始吃力
在分类、检索、翻译等明确任务里,分数非常有效,因为正确答案相对清楚,评价标准也容易统一。但开放式生成不同:
- 一个问题可能有多个合理答案
- 好答案不只是“对”,还要“有帮助”
- 用户在意的往往是整体体验,而不是某个单点指标
这让模型评测越来越像在衡量“交互质量”,而不只是“任务命中率”。
分数依然重要,但不再够用
我并不觉得 benchmark 会失效。它仍然是理解模型能力边界的重要工具。但问题是,它更适合测能力上限,不一定适合测真实使用质量。
举个例子:一个模型在标准任务上分数更高,却可能在真实对话里更啰嗦、更不稳定、更难控制。对用户来说,这些感受非常真实,但很难在单一指标里被完整表达。
评测正在发生的转向
1. 从离线指标转向交互观察
越来越多场景需要看模型连续多轮表现,而不只是一次输入输出。
2. 从标准答案转向偏好比较
有些任务里,与其问“哪一个对”,不如问“用户更喜欢哪一个”。这会让人类偏好评估变得更重要。
3. 从通用能力转向场景适配
未来的评测不会只有一个总分,而会更关注:在某种具体工作流里,这个模型到底有没有帮助。
评测难题在哪里
主观性更强
只要引入用户体验,就难免带来主观差异。
成本更高
人工评测、对比实验、多轮交互测试都比自动打分更贵。
容易被“刷分”
一旦某类评测固定下来,系统就可能被专门优化去迎合指标,而不是真正改善体验。
小结
我越来越相信,未来模型评测会像产品评测,而不只是算法评测。分数当然还会留着,但真正决定系统价值的,可能是用户在真实使用中的感受:是否稳定、是否有帮助、是否值得信任。

