Scaling Law 的困局、Self-play RL 的希望，以及200美金一斤的草莓

就在昨天，发生了三件事：

这三件事关联在一起，拼凑出了一些一些即将成为共识的信息。

Scaling Law 的困局

整个大语言模型行业已经很久没有大的进步了。

这是所有人共同的感受。

在模型达到达数千亿参数之后，训练成本和难度上升了很多，但似乎上万亿也并不能带来质变的提升。

Ilya 更是直言，大家已经不知道谈论 Scaling Law 的时候在 Scaling 什么了，而他对 Scaling 有了一些新的思路。

广密说到硅谷逐渐形成的共识就是RL强化学习是接下来的突破点。

而预训练方面，80%的公司会放弃预训练。

也许马斯克的十万卡集群可以大力出奇迹。

预训练玩不起，强化学习就成了全村的希望。

第一个超出预期的是 Claude Sonnet 3.5，代码能力超越了 GPT-4o，赋能 Cursor ，让 AI Coding 成了最热的话题。在代码能力方面的突破，使用的方法可能就是 RL。

第二个超出预期的是 DeepSeek，起步很晚，但是专注提升模型的推理、代码、数学能力，最近把 Coder 和 Chat 模型合并，代码水平接近 GPT-4o，在国内是断档第一的存在。

这两家公司的共性就是：单点突破。