OpenAI-o1 分析实测 | IMO2024 第一题

用 OpenAI-o1-preview 测试了 IMO 2024 的第一题,其解题过程包括两部分:思考和推理

20240914151453

正确答案是全体偶数,o1-preview 的 思考方向正确,推理结果也正确。但证明错误,仅证明了“显然成立”的一侧,而“仅偶数成立”的这侧,重复试了几次都没证对。即使指出关键步骤,仍然无法纠正得出正确证明。

第一题难度最低,大部分选手都拿了满分:

20240914151550

下边是 o1-preview 的回答,关键证明一笔带过。

20240914151659

o1-mini 和 o1-preview 的回答类似,在关键步骤胡说八道,试图蒙混过关:
20240914151715

另外,我们对比测试了 DeepSeek 和 GPT-4o,都得到了 α 取全体整数的错误回答。

总的来说:虽然 o1 最终答案对了,但证明不完整。

实际上,大部分中学生都能猜出问题答案,竞赛真正困难的地方在证明。相比之下,今年的 IMO 竞赛 AlphaProof 成功解决了第 1、2、6 题的证明,这一点更加出色。不过,AlphaProof 需要先给答案,再推导证明,或许二者可以结合一下。

相关文章: