OpenAI 发布 o1 系列推理模型,旨在真正像人类一样思考
9月13日凌晨,OpenAI 在没有任何预告下正式发布了全新 o1 系列模型。
据悉,这次发布的 o1-preview 是 o1 系列模型的首个尝鲜版,OpenAI 预计会有定期的更新和改进。与此同时,OpenAI 还包括了正在开发中的下一次更新的评估。
包括 o1 在内的系列模型,旨在花更多时间进行思考,能够推理复杂任务,并在科学、编程和数学等领域解决比以往模型更难的问题。
OpenAI 将其比喻成人类。通过训练,这些模型学会优化思考过程,尝试不同的策略,并能够识别自己的错误,真正的像人类一样思考。
OpenAI 透露,o1-preview 是系列推理模型在 ChatGPT 和 API 中的早期预览,OpenAI 还计划继续开发并发布 GPT 系列的模型,同时发布新的 OpenAI o1系列模型。
除了模型更新外,OpenAI 预计还会增加浏览、文件和图片上传等功能,以使其对所有人更有用。
o1 系列及 o1-preview 模型
在 OpenAI 测试中,推理模型在物理、化学和生物等挑战性基准任务中表现得与博士生相当。
在数学和编程方面表现出色。在国际数学奥林匹克(IMO)选拔考试中,GPT-4o 只正确解决了 13% 的问题,而推理模型得分为 83%。编程能力在比赛中达到了Codeforces 竞赛的 89 百分位。
OpenAI 表示,作为早期模型,目前还不具备使 ChatGPT 实用的许多功能,比如浏览信息、上传文件和图片。对于许多常见情况,GPT-4o 在短期内会更为强大。
但对于复杂的推理任务,这代表了 AI 能力的重大进展。OpenAI 将计数器重置为1,并将这一系列命名为OpenAI o1。
安全性
在开发该系列新模型过程中,OpenAI 提出了一种新的安全训练方法,利用它们的推理能力,使其遵循安全和一致性指南。通过在上下文中推理安全规则,模型能够更有效地应用这些规则。
OpenAI 通过测试模型在用户尝试绕过其安全规则(即“越狱”)时的表现来衡量安全性。
在OpenAI 最难的越狱测试中,GPT-4o 得分为22(满分 100 分),而 OpenAI 的o1预览模型得分为 84。
为了匹配这些模型的新能力,OpenAI 加强了OpenAI 的安全工作、内部治理以及与联邦政府的合作。
包括使用OpenAI 的《准备框架》进行严格的测试和评估、世界级的红队测试、以及包括安全与安保委员会在内的董事会级别审查流程。
为了推进对AI安全的承诺,OpenAI 最近与美国和英国 AI 安全机构达成了正式协议。OpenAI 已开始将这些协议落实到位,包括为这些机构提供该模型研究版本的早期访问。
适用人群
OpenAI 表示,这些增强的推理能力可能对解决科学、编程、数学等领域的复杂问题特别有用。
例如,o1可以帮助医疗研究人员标注细胞测序数据,帮助物理学家生成量子光学所需的复杂数学公式,并帮助各领域的开发人员构建和执行多步工作流程。
OpenAI o1-mini
OpenAI 表示,o1系列在准确生成和调试复杂代码方面表现优异。
为了为开发人员提供更高效的解决方案,OpenAI 还发布了OpenAI o1-mini,这是一款更快、更便宜的推理模型,特别适用于编程。
作为较小的模型,o1-mini 的成本比 o1 预览版便宜 80%,是一款适合需要推理但不需要广泛世界知识的应用的强大且具成本效益的模型。
如何使用 OpenAI o1
9 月 12 日起,ChatGPT Plus 和 Team 用户可以在 ChatGPT 中访问 o1 模型。可以手动选择 o1-preview 和 o1-mini 模型,发布时每周的消息限制分别为30条和50条。
目前,OpenAI 正在努力增加这些限制,并使ChatGPT能够自动选择最合适的模型。下周,ChatGPT Enterprise 和 Edu 用户也将能够访问这两个模型。
据悉,开发者可以开始使用 API 原型开发,限速为每分钟20次请求。经过额外测试后,OpenAI 将努力提高这些限制。
当前这些模型 API 不包括函数调用、流式传输、系统消息支持等功能。此外,OpenAI 也计划为所有ChatGPT免费用户提供 o1-mini 访问权限。
Anthropic “第八位联合创始人”:Siri 这类产品不是创业公司机会,AI 在这些电商和社交领域有数十亿美元市场。