北京时间12月6日凌晨2点,科技界的营销高手OpenAI正式开启了他们的“Shipmas”产品发布季。这一活动灵感源自圣诞日历(Christmas Calendar)的传统,OpenAI计划在12个工作日内连续发布新产品和功能更新,为全球科技圈带来每日“圣诞礼物”。
在这次发布会上,OpenAI CEO Sam Altman亲自宣布,公司将在工作日陆续发布新产品和功能更新。发布会当天,OpenAI带来了两大重磅更新:o1模型的满血正式版和ChatGPT Pro订阅计划。这两个更新无疑为近期频繁发布新品的竞争对手送上了一份“圣诞惊喜”。
发布会上,Sam Altman首先介绍了新版o1在处理复杂问题时的表现。与之前相比,o1的重大错误率降低了34%,并且能根据题目的难易程度调节处理时间,困难的题可能需要几分钟,而简单题目仅需几秒。这使得用户等待时间下降超过50%。
在多项测试中,o1的表现令人印象深刻:
数学能力:在国际数学奥林匹克预选赛题目(AIME 2024)中,o1的正确率达到了83%,远超GPT-4o的13%。
编程能力:在CodeForces测试中,o1的正确率从GPT-4o的11%跃升至89%,几乎是从入门级直接跃升到架构师水平。
科学问题:在处理博士级科学问题(GPQA Diamond)时,o1的准确率达到78%,超越了人类专家的69.7%。
此外,o1现已支持多模态识别。在发布会现场,o1成功识别并分析了一套在太空中收集太阳能的系统草图,并准确计算出需要242万平方米的散热片来保证数据中心正常运作。
如果说o1的升级是意料之中,那么月收费200美元的ChatGPT Pro则让人感到震撼。尽管之前有传闻提到OpenAI会推出高价套餐,但这个价格依然让业内人士感到惊讶。
在ChatGPT Pro套餐中,OpenAI提供了最强的o1 pro模式。Sam Altman解释,这一模式在处理非常难的题目时,能够为o1提供更多的算力,使其真正发挥出满血版的实力。
在性能测试中,o1 pro模式的表现如下:
数学能力:在国际数学奥林匹克预选赛题目(AIME 2024)中,正确率达到86%,超过了普通版o1的78%。
科学问题:在处理博士级科学问题时,o1 pro有5%左右的优势。
稳定性:在连续四次都答对同一个问题的严苛测试中,o1 pro在竞赛数学、编程测试和科学问题中分别达到了80%、74.9%和74.2%的可靠率,远超普通版o1,展现出了更高的稳定性和一致性。
ChatGPT Pro版用户还能享受完整的GPT-4o访问权限,无限使用且无需排队。
这只是OpenAI“Shipmas”发布季的第一天。可以预见,接下来的11天里,OpenAI还将带来更多重磅更新。无论是竞争对手谷歌的Gemini 2,还是Anthrophic的新模型,AI圈的竞争将在这个寒冬进入白热化阶段。
在发布会的最后,OpenAI的研究员还讲了一个圣诞冷笑话:圣诞老人试图让他的大型语言模型解决一个数学问题,最终他用了“驯鹿加力学习”(reindeer enforcement learning),实际是“强化学习”(reinforcement)。这个烂谐音梗让Sam Altman都无语了。
2023年的AI圈注定将在这个寒冬里继续搏杀,今天的发布只是一个开始。