昨晚,OpenAI 正式发布了 o1 预览版!这是一系列全新的 AI 模型,旨在通过更深入的思考来提供更精准的响应。
OpenAI 官方解释道:
对于复杂推理任务来说,这是一个重要的进展,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为 1,并将这一系列命名为 OpenAI o1。
简单来说,o1 模型的强大性能甚至让 OpenAI 放弃了过去的 GPT 系列命名,重新启用了全新的 o 系列。OpenAI o1 的发布,标志着 AI 行业正快速向 AGI(通用人工智能)迈进。
o1 模型在数学、代码以及其他理科类问题上表现尤为出色。以下是具体数据对比:
AIME 2024 数学竞赛:GPT-4o 准确率为 13.4%,o1 预览版为 56.7%,而尚未发布的 o1 正式版预计将达到 83.3%。
代码竞赛:GPT-4o 准确率为 11.0%,o1 预览版为 62%,o1 正式版预计为 89%。
博士级科学问题(GPQA Diamond):GPT-4o 准确率为 56.1%,人类专家水平为 69.7%,而 o1 达到了惊人的 78%。
特别是在化学、物理和生物学专业知识的基准 GPQA-diamond 上,o1 的表现全面超越了人类博士专家,成为历史上首个取得这一成就的模型。
建议:文科类问题使用 Claude,理科类问题则推荐 OpenAI 最新的 o1-preview 模型。
需要注意的是,目前 o1 模型在功能上有所限制,但作为早期版本,这一点尚可理解。
o1 模型已逐步向所有 ChatGPT Plus 和 Team 用户开放,目前仅限付费用户使用。具体模型分类如下:
o1:全新大模型天花板,性能过于强大,暂未公开。
o1-preview:o1 的预览版,目前已开放给 ChatGPT 付费用户和 API 用户。
o1-mini:速度更快、性价比更高,适用于需要推理但无需广泛世界知识的任务。
需要注意的是,o1 模型的使用限制较为严格:
o1-preview:每周限用 30 次。
o1-mini:每周限用 50 次。
我通过以下两个问题测试了 o1 模型的表现:
农夫过河问题:
农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河。
奥数题:
在使用 o1 模型时,以下提示词策略可显著提高回答质量:
保持提示简洁直接:模型擅长理解和响应简短、清晰的指令。
避免思路链提示:由于模型内部已进行推理,无需提示“逐步思考”或“解释推理”。
使用分隔符提高清晰度:例如三重引号、XML 标签或章节标题。
限制附加上下文:提供附加上下文时,仅包含最相关信息,避免过度复杂化响应。
就我个人体验来看,o1 模型无疑是最强大的大语言模型。然而,由于其较长的思考时间和严格的每周使用限制,目前可能并不适合日常使用。
但无论如何,o1 模型的潜力不可小觑,它将成为我们迈向 AI 新时代的重要基石。
建议:大家均可尝试,但日常使用仍推荐以 GPT-4o 为主。
目前,o1 模型已全面向 ChatGPT Plus 和 Team 用户开放。对于国内用户,由于 OpenAI 不支持国内银行卡,以下步骤可以帮助您完成升级:
使用 野卡 虚拟信用卡进行支付。
进入 野卡 官网,选择『立即开通』,按提示完成开卡。
使用邀请码 ACCPAY 享受开卡优惠。
按照官方教程,完成 ChatGPT Plus 的升级。
这是目前最便捷的升级方式,整个过程仅需几分钟即可完成。
总结:OpenAI o1 模型代表了 AI 领域的最新突破,虽然目前功能有限,但其潜力不可忽视。建议感兴趣的尽早体验,感受 AI 技术的未来!