AI研究周报(十五)：模型评测从分数走向体验

文章目录

最近越看大模型和生成系统的发展，越觉得一个老问题正在变得更棘手：我们到底该怎么评价一个模型好不好？过去 benchmark 分数很好用，因为任务边界清晰、目标明确。但模型越来越开放、越来越通用之后，只看分数显然不够了。

为什么传统评测开始吃力

在分类、检索、翻译等明确任务里，分数非常有效，因为正确答案相对清楚，评价标准也容易统一。但开放式生成不同：

这让模型评测越来越像在衡量“交互质量”，而不只是“任务命中率”。

我并不觉得 benchmark 会失效。它仍然是理解模型能力边界的重要工具。但问题是，它更适合测能力上限，不一定适合测真实使用质量。

举个例子：一个模型在标准任务上分数更高，却可能在真实对话里更啰嗦、更不稳定、更难控制。对用户来说，这些感受非常真实，但很难在单一指标里被完整表达。

越来越多场景需要看模型连续多轮表现，而不只是一次输入输出。

有些任务里，与其问“哪一个对”，不如问“用户更喜欢哪一个”。这会让人类偏好评估变得更重要。

未来的评测不会只有一个总分，而会更关注：在某种具体工作流里，这个模型到底有没有帮助。

只要引入用户体验，就难免带来主观差异。

人工评测、对比实验、多轮交互测试都比自动打分更贵。

一旦某类评测固定下来，系统就可能被专门优化去迎合指标，而不是真正改善体验。

我越来越相信，未来模型评测会像产品评测，而不只是算法评测。分数当然还会留着，但真正决定系统价值的，可能是用户在真实使用中的感受：是否稳定、是否有帮助、是否值得信任。