还记得两个月前,OpenAI 定义了 AI 的 5 个 Level 吗?今天 AI 行业就正式进入了 Level 2,Level 2 的含义是推理者,模型具备了和人类同水平的问题解决能力。

image.png

会慢思考的模型

OpenAI 发布新模型系列 OpenAI o1,新模型在大多数情况下并不如 GPT-4o 实用,不支持联网搜索、不支持文件、不支持画图,也不支持 system prompt,不支持 tool,不支持 json mode和结构化输出。

但是,新模型会进行系统2思考,通过花费更多时间思考,能够推理复杂任务,并解决科学、编程、数学领域中的难题。

这个系列的第一个模型被成为 OpenAI o1,这个名字有两个要点:

第一,模型名字直接用上了公司的名称,重要性可见一斑。

第二,代号1,代表是个起点,这个系列的第一版,还不完美,问题很多。但是,对于复杂的推理任务而言,这是一个重要的进步,标志着 AI 能力的新高度。

技术报告地址:https://openai.com/index/learning-to-reason-with-llms/

模型能力和限制

官方说明:模型实用了强化学习以用于复杂推理。在回复用户前在模型内部会有很长的 CoT 过程。

OpenAI o1 在数学、Code、科学问题方面都有巨大的飞跃性进步,指标如图:

image.png

反越狱能力,在OpenAI满分100的越狱测试中,GPT-4o的得分是22,o1-preview的得分是84,模型通过内置反越狱规则,将反越狱能力提升了4倍。

模型计费,不按照输出 token 计费,而是按照过程 token 计费,实际 token 成本可能是 4o 价格的上百倍(问题越复杂倍率越高)。不建议在简单任务上使用,纯粹浪费资源。

使用限制,对于 plus 会员,o1-preview 限制在了 30 条/周,o1-mini 限制在了 50 条/周。对于免费会员,目前还未开放,但是会开放试用。对于 200美金的 Pro 会员,很神奇,目前全部封号,但 plus 会员 30条/周 的限制明显是不够的,所以200美金档也许会重新开放。