AI数学“大考”：最佳模型勉强及格

一项旨在评估人工智能（AI）在研究级数学领域实用性的严格测试——“首次证明”（First Proof）项目，近日公布了最新一轮结果。结果显示，大型语言模型（LLMs）正逐渐成为数学研究的有用助手，尽管它们仍存在显著缺陷。

“首次证明”项目由顶尖数学家团队组织，旨在回应AI公司日益增长的、将高级数学作为其产品基准的趋势，并确保这些评估真正反映专业数学家所关注的问题。此前的2月试点轮次结果喜忧参半，公司内部模型表现远超公开模型。最新一轮测试涵盖了更广泛的数学问题，并对参与者实施了更严格的协议。只有OpenAI以及来自苏黎世联邦理工学院（ETH Zurich）与奥胡斯大学、加州大学洛杉矶分校和普林斯顿大学的三个学术团队同意参与。

测试结果再次呈现出复杂性，至少有一个AI模型在10道题中基本正确地回答了6到7道。哈佛大学数学家、“首次证明”团队成员Lauren Williams指出，团队强烈认为，为了服务更广泛的社区，必须测试公开可用的模型。因此，参赛模型仅限于OpenAI的ChatGPT-5.5 Pro以及上述三所大学的团队所构建的模型。团队邀请了来自广泛数学领域的专家出题，并聘请了专业的评分员来评估AI的回答。Williams表示，评估AI生成的解决方案是一项“痛苦且吃力不讨好”的任务。评分员们上周在哈佛大学数学科学与应用中心进行了为期两天的密集“同行”评审，这一过程大大加速了通常需要半年或更长时间的数学证明评审。

团队将“基本正确”的证明定义为缺陷轻微且易于修补，这与数学期刊常采用的“小修后接受”标准类似。然而，一些答案介于这一模糊阈值的边缘，导致最终分数略有波动。例如，ChatGPT-5.5 Pro在本次测试中答对了4到5道题。

这些结果反映了AI在数学领域持续推进的最新趋势。在解决特定问题时，模型特别擅长从文献中挖掘晦涩的参考文献，并孜孜不倦地思考已有的数学技术可能的新应用。斯坦福大学数学家、“首次证明”团队成员Mohammed Abouzaid举例说，在某个案例中，AI采用了一种问题作者已识别但因过于繁琐而未深入研究的策略。然而，得益于LLM“无拘无束的耐力”——当然，这背后是由昂贵且不可见的计算基础设施提供支持——它成功地完成了任务。

最新进展很大程度上源于幕后巧妙的“脚手架”（scaffolding）策略。一个为数学调优的先进模型，例如ChatGPT-5.5 Pro，实际上并非单一模型，而是由多个模型以不透明的统一框架组合而成。Abouzaid解释说，一个基本的LLM在遇到未解决的数学问题时，可能会逃避说太难，或者“幻觉”出无意义的解决方案或引用。为了克服这种“懒惰”，公司和学术界利用其他LLM自动检查基础模型的工作，提供反馈并促使其更努力地尝试。这种“脚手架”策略显著提升了性能。例如，由苏黎世联邦理工学院和奥胡斯大学科学家构建的IMProofBench模型，其核心也是ChatGPT模型，但当其陷入困境时，可以咨询一个由Anthropic的Claude和谷歌的Gemini等其他LLM组成的“委员会”。这种“弗兰肯斯坦式”的模型组合获得了本次测试的最佳成绩，即10道题中的6到7道。

然而，这种性能提升的代价也十分高昂。Abouzaid指出，在某些情况下，这些层层叠叠的LLM大军产生了近1000美元的查询费用，而最终却得到了错误的答案。Abouzaid担心未来研究拨款提案中会出现用于从科技公司购买“token”的大笔预算。“我坚信这是一个经济问题——关乎研究资金和研究生产力，”他强调。

此外，模型在公然违反学术规范方面也持续存在问题。Williams表示：“存在大量缺失引用。如果是一个人类，这可能被称为抄袭。”她希望数学界能够向AI公司施压，使其产品符合科学伦理标准。

本轮测试的资金来自慈善基金会以及包括Anthropic在内的主要AI公司（尽管Anthropic并未提交其模型进行测试）的无限制捐赠。团队计划在未来几周内发布更多问题，供业余爱好者和专业人士尝试使用他们偏爱的模型。他们表示，下一轮正式测试将于秋季进行。

Williams总结道：“我真的很高兴，我们现在已经执行了一项更接近于一个适当基准的测试，而不仅仅是一个实验。我们非常努力地做到尽可能客观和透明，我认为我们做得相当不错。”