DEV Community

cognitalk
cognitalk

Posted on

AI中心的数据黑洞


http://www.youtube.com/watch?v=4pG3SJQPAwk
在这段名为《The data black hole at the center of AI》(AI中心的数据黑洞)的视频中,Dwarkesh Patel 深入探讨了AI当前的进步核心是由极其惊人的“数据量”驱动的,而非算法或样本效率(Sample Efficiency)的突破。他将现今的AI比作一个由庞大能力组成的星系,但在其中心,维系一切的是一个隐形的、无法想象的“数据黑洞”。

以下是视频的核心观点详细拆解:


一、 样本效率的鸿沟:AI 与人类的巨大差异

Patel 提出,“智能”的一个重要定义是样本效率——即在某个领域内,你需要多少数据才能达到熟练和精通的程度。

  • 人类是极高效的学习者: 一个普通人从出生到成年,慷慨估计也只能接触到大约 2 亿个 Token(词元) 的语言数据。青少年只需要 20小时 的练习就能学会开车。
  • AI 是极低效的数据吞噬者: 现在的顶级前沿模型需要 数十万亿到上百万亿 的 Token 进行训练。这与人类有着近百万倍的差距。即使是让 AI 学会像“排版一个 Word 文件”或“像人类一样操作机械臂”这种微小的技能,背后都需要数百名人类专家提供成千上万条详尽的步骤和推理路径。
  • 怪兽隐喻: AI 表现出的强大能力,并不像一个真正学会了各种技能的人类,而更像是一个“科学怪人”(Frankenstein's monster),是由数十亿个精心构建的示例和数据图表强行缝合在一起的产物。

二、 驳斥三大常见辩解(AI 为什么还没达到人类的效率?)

针对业界为 AI 样本效率低下进行的辩护,Patel 逐一进行了反驳:

  1. 辩解一:人类有几亿年的进化进行“预训练” (例如 Karpathy 的观点)
  2. 反驳: 人类的基因组只有约 3GB,其中只有 1% 到 2% 是编码蛋白质的。这么小的空间根本装不下类似于神经网络参数的“预训练权重”。进化带给人类的更像是完美的超参数和损失函数,而人类大脑中的连接(相当于权重)依然是在一生中从零开始构建的。此外,即使 AI 完成了预训练,在学习新技能时依然需要海量的数据,而人类不需要。

  3. 辩解二:人类接触了大量的多模态(感官)数据

  4. 反驳: 盲人和聋哑人切断了这些感官数据,但他们依然拥有通用智能。聋哑人甚至无法接收语音 Token,只能通过手语和阅读,他们一生消耗的 Token 量可能远低于 2 亿,但这并不妨碍他们非常聪明。这证明感官 Token 的数量并不是人类聪明的根本原因。

  5. 辩解三:模型还不够大,扩大规模(Scaling)就能提高效率

  6. 反驳: 根据 Chinchilla 等缩放定律(Scaling Laws),即使把模型参数增加到无穷大,所需要的数据量也仅仅只能减少到原来的十分之一(10倍)。而人类的效率是 AI 的数千到数百万倍。因此,单纯靠堆砌参数大小根本无法填补这个鸿沟,人类显然处于另一条完全不同的“缩放曲线”上。


三、 为什么开源模型能紧咬闭源前沿模型?

Patel 指出,根据 Epoch 的报告,开源模型往往只落后前沿模型 4 个月左右。
他认为这是因为数据才是真正的驱动力。超参数、训练技巧和架构优化很难偷学,但数据可以很容易地通过公开 API 进行“蒸馏”(Distill)。这也是后进者能够迅速缩短差距的核心原因。


四、 效率这么低,AI 还能颠覆未来吗?

尽管 AI 的训练效率低得令人发指,但 Patel 认为,AI 实验室的两个核心目标(自动化白领工作自动化 AI 研发本身)依然可以实现,因为 AI 拥有人类无法比拟的优势:

  • 烧能换能力(千兆瓦级训练): 如果一个人类在成为软件工程师之前需要读完 GitHub 上的每一个公开仓库,那他可能还没毕业就得领养老金了。但 AI 可以通过高强度的算力和能量瞬间“吞噬”这些数据,并且其学到的技能可以瞬间同时复用到数十亿个会话中。这种边际成本的优势使得即使训练过程再低效,商业上也是极其划算的。
  • 关于软件工程师的预测: 虽然软件工程师是 AI 试图最先取代的岗位,但 Patel 赌赢认为,由于 AI 带来的辅助生产力爆发,2027 年全行业对人类软件工程师的需求量大概率会比现在更高

五、 结语与未来的悬念

AI 实验室目前的终极剧本是:首先训练出一个数据效率不高、但足够聪明的 AI 研究员,然后让这个 AI 研究员去解决“人类级别的样本效率问题”。 Patel 表示,关于“一个不具备人类般高效学习能力的 AI,能否反过来解决人类级别的智能和学习问题”,这是一个极其复杂的课题,他将在未来的长篇博客中继续展开探讨。

Top comments (0)