AI评测新标杆！GPT-5等前沿模型惨遭“零分”，博士级推理能力究竟还有多远？

2025-08-15 / 教程 / 93浏览

文章目录

在AI领域，各种评测基准层出不穷，但鲜有能让顶尖模型集体“折戟”的。近期，一个名为 FormulaOne 的全新AI评测基准横空出世，其结果令人大跌眼镜：包括 GPT-5、Grok4、o3Pro 在内的多款前沿AI模型，在测试中竟然都获得了零分！

这个由专注于超智能研究的机构 AAI 推出的基准，旨在挑战现有AI模型的极限。这一惊人的结果，不仅在科研界引发了广泛讨论，更让我们不得不重新审视：这些被誉为“最强大脑”的AI，距离真正的博士级推理能力，究竟还有多远？

FormulaOne基准包含了 220个新颖的图结构动态规划问题。这些问题难度分为三个级别：中等、深层和科研级别。其涉及的领域包括拓扑、几何和组合问题，对模型的推理与逻辑推演能力提出了极高的要求，难度堪称博士级挑战。

这些问题背后的核心原理，依赖于一个名为 Courcelle 的算法元定理。该定理指出，对于每个类似树的图，任何可用逻辑定义的问题都可以通过动态规划来解决。这要求AI模型必须理解一种被称为树分解的结构，并能通过动态规划算法逐步求解，这远超了传统语言模型的能力范围。

评测结果清晰地揭示了顶尖AI模型的真实能力边界：

浅层难度问题： 在相对简单的题目上，这些模型表现尚可，成功率在 50% 到 70% 之间。这说明它们对这类基础问题有初步的理解和解决能力。
深层难度问题： 随着问题难度的增加，模型的成功率急剧下降。Grok4、Gemini-Pro 等模型最多只能解出 1% 的题目，而 GPT-5Pro 的表现稍好，也仅解出了 4个问题。
最深层难度问题： 在这个难度级别上，所有参与评测的模型全部失败，成功率是零。面对真正的“博士级”挑战，AI模型集体陷入了困境。