过去很长时间里,视觉、语言、语音往往各自发展:图像模型解决图像问题,语言模型解决文本问题,语音系统也有自己独立的一套管线。但随着多模态应用越来越多,一个更底层的需求开始变得明显——系统需要一种更统一的表示方式,才能支撑跨模态理解与交互。

Read More

如果只看论文标题,很容易以为模型进步主要来自更大的网络、更强的算力和更巧妙的训练技巧。但最近越往后看,越能感觉到另一个变量的重要性正在抬头:数据治理。模型能学到什么、会偏向什么、在哪些场景里失真,越来越不是单纯的结构问题,而是数据问题。

Read More

回头看这一阶段的 AI 进展,会发现一个很明显的变化:图像、文本、语音这些模态,已经不再只是各做各的任务了。越来越多工作开始尝试把不同模态放进同一套学习框架里。这件事表面上像是“能力扩展”,但我觉得本质上是在搭建未来通用模型的基础设施。

Read More