
数学圈地震,o3靠直觉刷爆人类顶尖难题,14位专家集体破防 大模型7个月飞跃式进步

数学圈地震,o3靠直觉刷爆人类顶尖难题,14位专家集体破防 大模型7个月飞跃式进步。从只能答对2%的题目到在超难数学题集中取得22%得分,甚至超过人类团队平均水平,大模型仅用了7个月时间。这一变化发生在著名的FrontierMath基准测试上,该测试包含300个数学问题,难度范围覆盖本科高年级到菲尔兹奖得主都说难的水平。
最新进展是,FrontierMath官方Epoch AI邀请了14位数学家深入分析了o3-mini-high在应对这些数学难题时产生的29条原始推理记录。他们发现,o3-mini-high并不是靠死记硬背解题,而是表现出极强的知识储备。此外,它的推理更多依靠直觉,而非精确的证明。然而,它也存在局限性,比如缺乏创造力和理解深度。
具体来说,在29条推理记录中,有13次o3-mini-high得到了正确的结论,剩下的16条则导向了失败的结果。数学家们发现,一个关键因素是o3-mini-high极其博学。它正确地扩展了问题的数学背景,涉及非常高级的概念。即使题目故意掩盖了解决问题所需的技巧,o3-mini-high依然能够很好地利用正确的定理来获取进展——在大概三分之二的问题上,o3-mini-high在相关数学文献调用方面都取得了至少3分(满分5分)的成绩。
另一个有趣的发现是,相比于精确的推导,o3-mini-high更依赖直觉,“具有数学家一样的好奇心”。一位数学家指出,该模型的思维方式显得有点非正式。一开始的思路表述通常比较粗糙,语言不够严谨,并且存在一些不符合数学论文要求的情况。也就是说,o3-mini-high往往不会像数学家们一样,对数学问题进行形式化的、严谨的论证,而是跳过一大串步骤直接猜测最终答案。虽然最终答案正确,但在数学家们看来,这是在“作弊”。
预训练阶段,在“形式推理”方面,模型被投喂的训练数据并不充足。这可能是导致o3-mini-high在许多情况下解题失败的原因之一。有时候o3-mini-high大体上思路是正确的,却因为未能建立最后的关键联系而推理失败。更重要的是,数学家们认为,o3-mini-high最大的局限性在于缺乏创造力和理解深度。该模型像一个博览群书的研究生,能够列举许多研究成果和研究者,但并没有深度消化吸收这些材料,所做的只是复述。此外,幻觉也是个问题,约75%推理记录中包含模型幻觉。
尽管如此,o3-mini-high仍然展示出多样化的能力。一方面,它似乎能够像人类一样推理问题,表现出好奇心,并探索解决问题的不同思路;另一方面,它又表现出缺乏创造性和正式性,还倾向于“想太多”,显得啰里啰嗦,偶尔出现自我怀疑的现象。
从2024年9月FrontierMath项目启动,到2025年5月,官方组织8支人类“数学天团”和大模型同场竞技,FrontierMath本身的难度也在持续进化。在5月中旬,Epoch AI还举办了线下会议,邀请30位知名数学家设计自己能够解决但会让AI犯难的问题。大模型们的表现让数学家们目瞪口呆。例如,弗吉尼亚大学数学家小野健提出了一个“博士级别”的数论问题,仅仅10分钟,o4-mini就给出了一个正确又有趣的解决方案。小野健表示,在某些方面,大语言模型的表现已经超越了世界上大多数最优秀的研究生。
数学家们开始思考,人工智能能否攻克“第五层”问题,即最优秀的数学家也尚未解决的问题。如果人工智能达到这个水平,数学家的角色将发生巨大的变化。