就在昨天,发生了三件事:

这三件事关联在一起,拼凑出了一些一些即将成为共识的信息。

Scaling Law 的困局

整个大语言模型行业已经很久没有大的进步了。

这是所有人共同的感受。

在模型达到达数千亿参数之后,训练成本和难度上升了很多,但似乎上万亿也并不能带来质变的提升。

Ilya 更是直言,大家已经不知道谈论 Scaling Law 的时候在 Scaling 什么了,而他对 Scaling 有了一些新的思路。

广密说到硅谷逐渐形成的共识就是RL强化学习是接下来的突破点。

而预训练方面,80%的公司会放弃预训练。

也许马斯克的十万卡集群可以大力出奇迹。

Self-play RL 全村的希望

预训练玩不起,强化学习就成了全村的希望。

第一个超出预期的是 Claude Sonnet 3.5,代码能力超越了 GPT-4o,赋能 Cursor ,让 AI Coding 成了最热的话题。在代码能力方面的突破,使用的方法可能就是 RL。

第二个超出预期的是 DeepSeek,起步很晚,但是专注提升模型的推理、代码、数学能力,最近把 Coder 和 Chat 模型合并,代码水平接近 GPT-4o,在国内是断档第一的存在。

这两家公司的共性就是:单点突破。