AI研究周报(二十二):多模态交互会倒逼统一表示
过去很长时间里,视觉、语言、语音往往各自发展:图像模型解决图像问题,语言模型解决文本问题,语音系统也有自己独立的一套管线。但随着多模态应用越来越多,一个更底层的需求开始变得明显——系统需要一种更统一的表示方式,才能支撑跨模态理解与交互。
过去很长时间里,视觉、语言、语音往往各自发展:图像模型解决图像问题,语言模型解决文本问题,语音系统也有自己独立的一套管线。但随着多模态应用越来越多,一个更底层的需求开始变得明显——系统需要一种更统一的表示方式,才能支撑跨模态理解与交互。
大家谈到“AI 代理”时,很容易直接想象一个能自主完成复杂任务的通用助手。但如果把视角拉回真实业务,我反而觉得代理能力最先落地的地方,不会是无边界的开放世界,而是那些步骤清晰、上下文稳定、反馈明确的窄流程。
过去很多机器学习系统里,人类的角色主要体现在“标注数据”这一步:人负责给样本打标签,模型负责拟合这些标签。但随着模型能力变强、任务开放度提高,这种关系正在变化。人类反馈不再只是静态监督,而越来越像训练回路的一部分。
这几年看 AI 发展,一个越来越明显的趋势是:除了大公司主导的闭源系统,开放模型和社区生态也在逐步积累势能。虽然在很多关键节点上,领先成果仍然更容易先出现在封闭体系里,但开放生态的价值正在变得越来越清楚。
关于 AI 的未来,经常会听到一个很吸引人的愿景:一个足够聪明的代理,理解目标、拆解任务、调用工具、持续执行,像真正的数字员工一样工作。这个方向当然成立,但如果从落地路径看,我更相信先大规模出现的,不会是全能代理,而是工作流自动化。
大模型讨论里,大家最先关注的通常是训练:参数多大、数据多少、算力多强。但如果把视角放到真正可用的产品层,会发现另一个变量正在变得越来越关键——推理成本。模型不是训练完就结束,真正进入业务后,成本、时延和吞吐会反过来决定产品长什么样。
如果只看论文标题,很容易以为模型进步主要来自更大的网络、更强的算力和更巧妙的训练技巧。但最近越往后看,越能感觉到另一个变量的重要性正在抬头:数据治理。模型能学到什么、会偏向什么、在哪些场景里失真,越来越不是单纯的结构问题,而是数据问题。
最近越看大模型和生成系统的发展,越觉得一个老问题正在变得更棘手:我们到底该怎么评价一个模型好不好?过去 benchmark 分数很好用,因为任务边界清晰、目标明确。但模型越来越开放、越来越通用之后,只看分数显然不够了。
过去我们使用模型,常常像在调一个脾气古怪的系统:得知道任务格式、知道 prompt 怎么写、知道模型在哪些表达上更容易出结果。但最近越来越能感觉到,另一个方向正在出现——不是让人适应模型,而是让模型更自然地理解人的指令。
回头看这一阶段的 AI 进展,会发现一个很明显的变化:图像、文本、语音这些模态,已经不再只是各做各的任务了。越来越多工作开始尝试把不同模态放进同一套学习框架里。这件事表面上像是“能力扩展”,但我觉得本质上是在搭建未来通用模型的基础设施。