南京大学团队开发自我奖励式AI数学推理模型

发布时间：2025-08-08 01:26:09

　　这项由南京大学国家重点软件技术实验室的张世茂、黄淑瑾等研究者与微软亚洲研究院的刘晓、龚业云等专家合作完成的研究，发表于2025年3月的arXiv预印本论文库。有兴趣深入了解的读者可以通过论文编号arXiv:2503.03746v1访问完整研究内容。

　　过去，训练人工智能解决数学问题就像请家教一样，需要人类老师不断给出评价和指导。然而，人类能力终究有限，这就像再好的家教也无法培养出超越自己水平的学生。如今，南京大学和微软的研究团队提出了一个革命性想法：让AI既当学生又当老师，通过自我奖励的方式不断提升数学推理能力。

　　想象一个学生在做数学题时，不仅要算出答案，还要像老师一样检查每一个步骤是否正确。这就是过程式自我奖励语言模型的核心思想。传统的AI训练方法只看最终答案对错，但这项研究让AI关注解题的每一个中间步骤，就像一位严格的数学老师会逐步检查学生的解题过程一样。

　　研究团队发现，现有的自我奖励方法在数学推理任务上表现不佳，甚至可能越训练越差。这就像一个学生用错误的学习方法，越努力反而越糟糕。问题的根源在于：第一，对于需要多步推理的复杂数学问题，传统方法无法提供精确的奖励信号；第二，给复杂数学解答打分比让AI进行两两比较更加困难，一致性也更差。

　　这项研究的核心创新在于重新设计了AI的学习方式。传统方法就像让学生做完整套试卷后只告诉他总分，而新方法则像配备了一位贴身家教，对每个解题步骤都给出即时反馈。

　　具体来说，研究团队让AI掌握两项核心技能。首先是逐步数学推理能力，当面对复杂问题时，AI需要像人类学生一样一步步思考，将解题过程分解为多个清晰的步骤，每个步骤都以第n步：的格式输出。其次是逐步判断能力，AI需要像数学老师一样，能够评估给定推理步骤的质量，判断某个步骤是否正确或更优。

　　为了让AI获得这两项技能，研究团队精心构建了两套训练数据。第一套是指令微调数据，他们从NuminaMATH数据集中提取了28889个样本，使用OpenAI的o1模型将原本的解答逐步分解为标准格式。第二套是评估微调数据，由于没有现成的逐步判断数据集，研究团队先训练了一个过程奖励模型，通过蒙特卡洛树搜索生成候选步骤，再用GPT-o1生成详细的判断和解释。

　　整个训练过程就像培养一位既会解题又会改卷的全能数学老师。AI首先通过基础训练掌握这两项技能，然后进入自我提升的循环：生成多个候选的下一步推理，对这些候选步骤进行两两比较判断，选出最好和最差的步骤形成偏好对，最后通过直接偏好优化技术来改进模型。

　　研究团队设计的推理过程就像一场精密的棋局。对于每个推理步骤，AI会生成多个候选方案，就像棋手会考虑多种走法一样。然后，AI会对这些候选方案进行两两比较，通过投票机制选出最优和最差的选项。

　　这个过程可以用一个简单的公式来描述：对于第l步的第i个候选方案，AI会将其与所有其他候选方案比较，获得一个综合评分。评分最高的方案被选为最佳步骤，评分最低的成为最差步骤，两者组成训练用的偏好对。

　　特别值得注意的是，如果所有候选步骤的评分相同，说明AI无法区分好坏，这时系统会放弃当前步骤，回退到上一步重新开始。这种反悔机制确保了训练数据的质量，就像一位谨慎的学生发现解题思路有问题时会主动回头重新思考。

　　通过这种逐步的偏好优化，AI不仅学会了生成正确的最终答案，更重要的是学会了生成正确的中间推理步骤。这就像培养学生不仅要得出正确结果，更要掌握正确的思维过程。

　　研究团队设计的训练流程是一个完整的循环系统。从基础模型M0开始，首先通过监督微调得到M1，这个模型已经具备了基本的逐步推理和判断能力。然后，M1开始生成自己的训练数据，通过逐步搜索和自我判断创建偏好对，再用这些数据训练得到M2。

　　这个过程会不断重复，每一代模型都比前一代更强。研究团队进行了四轮迭代，最终得到M4模型。整个过程就像一个学生通过不断的自我练习和反思逐步提高，每次都在前一次的基础上取得进步。

　　值得注意的是，随着迭代的进行，AI生成的推理步骤呈现出有趣的变化趋势：步骤数量逐渐减少，但每个步骤的长度逐渐增加。这表明AI学会了生成更高质量、更详细的单步推理，用更少但更精确的步骤达到最终答案。这就像一个学生从最初的小步快跑逐渐成长为大步流星的高手。

　　研究团队在多个数学推理基准测试上验证了方法的有效性。他们选择了Qwen2.5-Math系列模型作为基础，分别测试了7B和72B参数规模的版本。测试涵盖了从基础的GSM8k和MATH数据集，到更具挑战性的高考2023英文版、奥林匹克数学竞赛、AIME2024和AMC2023等多个基准。

　　实验结果令人振奋。以72B模型为例，经过四轮自我奖励训练后，模型在所有测试基准上都显示出稳定的性能提升。特别是在一些复杂任务上，提升幅度尤为显著。比如在AIME2024测试中，准确率从13.3%提升到23.3%，在AMC2023中从45.0%提升到57.5%。

　　更重要的是，研究团队的方法在各个基准测试上都超越了传统的自我奖励方法。通过对比从M1到M4的性能变化，可以清楚地看到过程式自我奖励方法带来了更稳定、更显著的改进。这种优势在7B和72B两个不同规模的模型上都得到了验证，说明方法具有良好的通用性。

　　研究团队还发现，较大的模型（72B）比较小的模型（7B）获得了更稳定的改进效果。这可能是因为大模型具有更强的数学推理和判断能力，能够更好地利用自我奖励机制。

　　除了数学推理能力的提升，研究团队还深入分析了AI作为判官的表现。他们构建了500个测试样本来评估AI进行逐步判断的准确性。结果显示，在经过少量评估微调数据的初始化后，AI就能达到很高的判断准确率：7B模型达到92.8%，72B模型更是高达95.6%。

　　有趣的是，虽然在后续迭代中没有加入新的判断训练数据，AI的判断能力依然保持在较高水平。研究团队观察到一个一致的模式：判断准确率先上升，然后略有下降，最后再次上升。这个现象可以这样理解：最初AI通过评估数据获得强判断能力，随后在数学训练中略有波动，但随着数学能力的整体提升，判断能力也相应改善。

　　这种现象说明了数学推理能力和判断能力之间的相互促进关系。一个数学能力更强的AI，自然也能更准确地判断推理步骤的质量，形成了良性循环。

　　研究团队通过数据可视化分析发现了训练过程中的有趣现象。他们使用BERT嵌入和t-SNE降维技术分析了不同类型数据的分布情况。结果显示，评估微调数据和指令微调数据在分布上并不重叠，这使得AI能够清晰地区分两种不同的任务模式，避免了相互干扰。

　　同时，模型生成的偏好对数据与指令微调数据的分布有所不同，但与评估数据相对独立。这种分布特性有助于AI在迭代过程中同时提升数学推理和判断能力，而不会因为训练数据的混杂而产生负面影响。

　　在推理模式方面，研究团队发现了一个清晰的趋势：随着迭代进行，AI生成的推理步骤数量逐渐减少，但每个步骤的平均长度不断增加。这表明AI学会了生成更高质量、更详细的单步推理，能够在更少的步骤中完成更复杂的思考过程。

　　这种变化反映了AI推理能力的质的提升。就像一个经验丰富的数学家能够用简洁而深刻的方式解决复杂问题，而初学者则需要更多的小步骤。

　　研究团队还验证了训练后的AI在测试时扩展能力方面的表现。测试时扩展是指AI在推理过程中进行搜索和选择，类似于人类在考试时会仔细思考和检查。

　　实验结果显示，经过过程式自我奖励训练的AI在测试时扩展方面表现优异。与直接生成答案相比，通过搜索和选择能够获得更好的性能。更重要的是，从M1到M4的迭代过程中，AI的测试时扩展能力也在不断提升，这与其数学推理和判断能力的提升是一致的。

　　这个结果证明了AI不仅在训练时学会了更好的推理模式，在实际应用时也能够有效利用额外的计算资源来获得更准确的结果。这为AI在实际数学问题解决中的应用提供了更多可能性。

　　尽管取得了显著成果，研究团队也诚实地指出了当前方法的局限性。首先，初始化模型M1的基础能力直接影响后续过程式自我奖励的效果。如果基础模型的数学推理和判断能力较弱，后续的自我训练效果也会受到限制。这意味着需要更高质量的初始化数据来确保良好的起点。

　　其次，由于计算资源限制，当前研究只进行了四轮迭代实验。更多轮次的迭代是否能带来进一步提升，以及性能提升何时会达到瓶颈，这些问题还需要更深入的研究。

　　此外，研究主要聚焦于数学推理任务。这种过程式自我奖励方法是否能够推广到其他需要多步推理的任务，如科学推理、逻辑推理等，也是值得探索的方向。

　　展望未来，这项研究为AI的自主学习和能力提升开辟了新的道路。通过让AI学会自我监督和自我改进，我们可能最终实现超越人类专家水平的AI系统。这不仅在数学领域有重要意义，在科学研究、工程设计等需要复杂推理的领域都可能产生深远影响。

　　说到底，这项研究最大的意义在于展示了AI自主学习的巨大潜力。通过让AI既当学生又当老师，研究团队成功打破了传统训练方法的瓶颈，实现了性能的持续提升。这就像培养了一个永不疲倦、不断自我完善的学习者。

　　归根结底，这种过程式自我奖励的思想可能会彻底改变我们训练AI的方式。不再需要大量的人工标注和外部监督，AI可以通过自我反思和改进达到更高的水平。这对普通人意味着什么呢？未来我们可能会看到更智能的AI助手，它们不仅能解决复杂的数学问题，还能在解题过程中提供清晰的步骤说明，真正成为人类学习和工作的得力伙伴。

　　当然，这项研究也提出了一个有趣的哲学问题：当AI学会了自我教育和自我评判，它们是否已经具备了某种形式的智慧？虽然我们还无法给出确定答案，但可以肯定的是，这种技术将为教育、科研和日常问题解决带来革命性变化。

　　对于那些对AI技术发展感兴趣的读者，这项研究提供了一个精彩的案例，展示了如何通过巧妙的设计让机器实现自我超越。有兴趣深入了解技术细节的朋友，可以通过arXiv:2503.03746v1查阅完整的研究论文。

　　Q1：什么是过程式自我奖励，它与传统AI训练有什么不同？ A：过程式自我奖励是让AI像老师一样检查自己每个解题步骤的方法。传统训练只看最终答案对错，而这种方法关注解题过程中的每一步，AI会生成多个候选步骤，然后自己判断哪个更好，用这些判断结果来改进自己，实现持续的自我提升。

　　Q2：AI会不会真的超越人类数学家？ A：目前还没有，但这项研究显示了这种可能性。通过自我奖励训练，AI在多个数学竞赛基准上都获得了显著提升，有些甚至接近人类专家水平。不过AI还缺乏创造性思维和直觉，完全超越人类数学家还需要更多突破。

　　Q3：普通人能用到这种技术吗？ A：虽然这项技术还处于研究阶段，但未来很可能出现在智能教育软件、在线学习平台中。你可能会用到能够逐步解释数学题、检查解题过程的AI家教，它们不仅给出答案，还能像真正的老师一样指出每一步的对错和原因。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　Nature重磅：逆转阿尔茨海默病！补充金属锂，恢复记忆丧失，让大脑回到更年轻、更健康状态

　　寿宴缺席致分手！C罗2.3亿身价，伊莲娜620%估值涨，10年谁更耀眼

　　王俊杰谈郭士强：网上的传言都不是真的，骂我更能证明对我们年轻队员有要求

　　外网热议GEN击败T1：T1夏季赛输给GEN？提前恭喜T1将在S15夺冠了

　　iQOO Z10 Turbo+发布：8000mAh电池配天玑9400+ 售价2199元起

上一篇：通义Qwen3新推理模型发布：思考、数学代码能力大幅提升

下一篇：杭州市临安人长久食品有限公司（山核桃）

返回列表

公司动态

南京大学团队开发自我奖励式AI数学推理模型

友情链接