文章目录
  1. 1. 为什么数据治理正在变成核心问题
  2. 2. 数据治理具体在治理什么
    1. 2.1. 1. 数据质量
    2. 2.2. 2. 数据分布
    3. 2.3. 3. 数据来源与合法性
    4. 2.4. 4. 数据更新机制
  3. 3. 为什么这会影响模型上限
    1. 3.1. 因为模型最终是在压缩数据世界
    2. 3.2. 因为很多“能力问题”其实是数据问题
    3. 3.3. 因为未来竞争会转向数据系统能力
  4. 4. 小结

如果只看论文标题,很容易以为模型进步主要来自更大的网络、更强的算力和更巧妙的训练技巧。但最近越往后看,越能感觉到另一个变量的重要性正在抬头:数据治理。模型能学到什么、会偏向什么、在哪些场景里失真,越来越不是单纯的结构问题,而是数据问题。

为什么数据治理正在变成核心问题

早期模型规模还不够大时,很多缺陷会被解释成“模型能力不足”。但当模型越来越强之后,很多问题开始显得不像能力不够,而像训练材料本身就有偏差、噪声或结构性缺口。

这意味着,数据不再只是原料,而更像决定模型上限的组成部分。

数据治理具体在治理什么

1. 数据质量

噪声、重复、错误标注、失真内容都会直接影响学习结果。规模放大后,这些问题不会自然消失,只会被更系统地吸收进去。

2. 数据分布

模型看过什么、没看过什么,会深刻影响它对现实世界的理解方式。分布偏差往往比单条错误更难处理。

3. 数据来源与合法性

随着模型应用变广,训练数据的版权、隐私、授权和可追溯性问题也会越来越难回避。

4. 数据更新机制

静态数据集很难长期支撑动态世界。知识变化、语言变化、任务变化都要求数据治理具备持续性。

为什么这会影响模型上限

因为模型最终是在压缩数据世界

再强的训练算法,也只能在给定数据分布中学习。如果数据世界本身结构混乱、覆盖失衡,那么模型再大也很难真正补齐。

因为很多“能力问题”其实是数据问题

有时模型回答差,不一定是推理不行,而是训练时根本没学到足够可靠的对应模式。

因为未来竞争会转向数据系统能力

当基础模型能力逐渐靠近时,谁能更好地构建、清洗、追踪和更新数据,谁就更容易做出更稳的系统。

小结

我觉得后面的 AI 竞争,不会只是模型架构竞赛,也会是数据治理能力竞赛。模型的上限并不只由参数决定,同样也由它被什么数据塑造、又如何被持续修正所决定。

文章目录
  1. 1. 为什么数据治理正在变成核心问题
  2. 2. 数据治理具体在治理什么
    1. 2.1. 1. 数据质量
    2. 2.2. 2. 数据分布
    3. 2.3. 3. 数据来源与合法性
    4. 2.4. 4. 数据更新机制
  3. 3. 为什么这会影响模型上限
    1. 3.1. 因为模型最终是在压缩数据世界
    2. 3.2. 因为很多“能力问题”其实是数据问题
    3. 3.3. 因为未来竞争会转向数据系统能力
  4. 4. 小结