AI研究周报(一)：大模型缩放与 GPT-3

文章目录

1. GPT-3 带来的直接冲击
2. 几个值得记住的结论
3. 还没有被解决的问题
4. 对后续研究的启发
5. 小结

这段时间重新系统看了一轮大模型研究，最强烈的感受是：模型能力的提升，很多时候不是来自某一个花哨技巧，而是来自规模、数据和训练稳定性的共同作用。

GPT-3 带来的直接冲击

GPT-3 最让人震撼的并不是“参数更多”这句话本身，而是它把 预训练语言模型的上限 往前推了一大截。

过去大家更习惯于这样的范式：

预训练一个通用模型
在下游任务上做 finetune
针对不同任务维护不同模型

而 GPT-3 展现的是另一条路线：通过足够大的模型规模，让模型在 prompt 条件下直接完成任务。也就是说，模型在很多场景下不再必须依赖专门的任务头和复杂的微调流程。

几个值得记住的结论

1. 模型规模本身就是能力来源

从小模型到大模型，收益并不是线性增加的体验，而像是不断跨过某些“能力阈值”。参数上来以后，模型开始表现出：

更强的上下文学习能力
更好的语言流畅度
更自然的任务迁移能力
更强的少样本甚至零样本效果

这意味着工程上不能只盯着网络结构微调，训练规模也是核心变量。

2. Prompt 开始变成新的接口层

以前模型接口更像 input -> classifier，现在越来越像：

给模型任务说明
给几个样例
让它直接续写或完成

这让“怎么写 prompt”从一个临时技巧，逐步变成一种新的系统设计能力。模型能力越强，prompt 的表达空间就越大。

3. Few-shot 让通用模型更像平台

few-shot 的价值在于：

降低下游任务接入门槛
减少任务级训练成本
统一模型服务入口

对于工程团队来说，这种能力意味着未来的 AI 系统可能会从“一个任务一个模型”，逐渐转向“一个大模型服务多个任务”。

还没有被解决的问题

当然，GPT-3 并不是没有问题。

训练成本极高

大模型的训练资源门槛非常高，普通团队很难完整复现。

可控性不足

生成效果虽然惊艳，但稳定性、事实正确性和风格一致性依旧存在问题。

推理成本昂贵

即使训练出来，线上部署和大规模调用也不是小问题。

对后续研究的启发

我觉得 GPT-3 留下的真正问题不是“还能不能更大”，而是：

模型规模和数据规模之间如何更高效地匹配
如何把大模型变成稳定可控的工程系统
是否能通过更好的检索、路由、蒸馏把能力分发到更低成本的模型上

这也是为什么后面越来越多工作会沿着下面几个方向走：

scaling law
模型压缩与蒸馏
prompt / instruction 学习
检索增强
工具调用

小结

GPT-3 让我最深的感受是：语言模型开始从“一个 NLP 模块”，变成“通用智能接口”的雏形。

后面如果继续沿着这个方向演化，AI 系统的重点就不再只是网络结构，而会转向：

数据
规模
推理成本
系统编排
人机交互方式

这条路线，可能会定义未来很多年的 AI 产品形态。

SeniorZhai's blog

苟利国家生死以，起因福祸趋避之