全国加盟服务热线
400-123-4567
首页
关于我们
公司动态
合作项目
常见问题
门店展示
加盟支持
加盟流程
人才招聘
加盟申请
联系我们

诚信为本:市场永远在变,诚信永远不变。

公司动态

当前位置: 首页 > 公司动态

南京大学团队开发自我奖励式AI数学推理模型

发布时间:2025-08-08 01:26:09

  

南京大学团队开发自我奖励式AI数学推理模型

  这项由南京大学国家重点软件技术实验室的张世茂、黄淑瑾等研究者与微软亚洲研究院的刘晓、龚业云等专家合作完成的研究,发表于2025年3月的arXiv预印本论文库。有兴趣深入了解的读者可以通过论文编号arXiv:2503.03746v1访问完整研究内容。

  过去,训练人工智能解决数学问题就像请家教一样,需要人类老师不断给出评价和指导。然而,人类能力终究有限,这就像再好的家教也无法培养出超越自己水平的学生。如今,南京大学和微软的研究团队提出了一个革命性想法:让AI既当学生又当老师,通过自我奖励的方式不断提升数学推理能力。

  想象一个学生在做数学题时,不仅要算出答案,还要像老师一样检查每一个步骤是否正确。这就是过程式自我奖励语言模型的核心思想。传统的AI训练方法只看最终答案对错,但这项研究让AI关注解题的每一个中间步骤,就像一位严格的数学老师会逐步检查学生的解题过程一样。

  研究团队发现,现有的自我奖励方法在数学推理任务上表现不佳,甚至可能越训练越差。这就像一个学生用错误的学习方法,越努力反而越糟糕。问题的根源在于:第一,对于需要多步推理的复杂数学问题,传统方法无法提供精确的奖励信号;第二,给复杂数学解答打分比让AI进行两两比较更加困难,一致性也更差。

  这项研究的核心创新在于重新设计了AI的学习方式。传统方法就像让学生做完整套试卷后只告诉他总分,而新方法则像配备了一位贴身家教,对每个解题步骤都给出即时反馈。

  具体来说,研究团队让AI掌握两项核心技能。首先是逐步数学推理能力,当面对复杂问题时,AI需要像人类学生一样一步步思考,将解题过程分解为多个清晰的步骤,每个步骤都以第n步:的格式输出。其次是逐步判断能力,AI需要像数学老师一样,能够评估给定推理步骤的质量,判断某个步骤是否正确或更优。

  为了让AI获得这两项技能,研究团队精心构建了两套训练数据。第一套是指令微调数据,他们从NuminaMATH数据集中提取了28889个样本,使用OpenAI的o1模型将原本的解答逐步分解为标准格式。第二套是评估微调数据,由于没有现成的逐步判断数据集,研究团队先训练了一个过程奖励模型,通过蒙特卡洛树搜索生成候选步骤,再用GPT-o1生成详细的判断和解释。

  整个训练过程就像培养一位既会解题又会改卷的全能数学老师。AI首先通过基础训练掌握这两项技能,然后进入自我提升的循环:生成多个候选的下一步推理,对这些候选步骤进行两两比较判断,选出最好和最差的步骤形成偏好对,最后通过直接偏好优化技术来改进模型。

  研究团队设计的推理过程就像一场精密的棋局。对于每个推理步骤,AI会生成多个候选方案,就像棋手会考虑多种走法一样。然后,AI会对这些候选方案进行两两比较,通过投票机制选出最优和最差的选项。

  这个过程可以用一个简单的公式来描述:对于第l步的第i个候选方案,AI会将其与所有其他候选方案比较,获得一个综合评分。评分最高的方案被选为最佳步骤,评分最低的成为最差步骤,两者组成训练用的偏好对。

  特别值得注意的是,如果所有候选步骤的评分相同,说明AI无法区分好坏,这时系统会放弃当前步骤,回退到上一步重新开始。这种反悔机制确保了训练数据的质量,就像一位谨慎的学生发现解题思路有问题时会主动回头重新思考。

  通过这种逐步的偏好优化,AI不仅学会了生成正确的最终答案,更重要的是学会了生成正确的中间推理步骤。这就像培养学生不仅要得出正确结果,更要掌握正确的思维过程。

  研究团队设计的训练流程是一个完整的循环系统。从基础模型M0开始,首先通过监督微调得到M1,这个模型已经具备了基本的逐步推理和判断能力。然后,M1开始生成自己的训练数据,通过逐步搜索和自我判断创建偏好对,再用这些数据训练得到M2。

  这个过程会不断重复,每一代模型都比前一代更强。研究团队进行了四轮迭代,最终得到M4模型。整个过程就像一个学生通过不断的自我练习和反思逐步提高,每次都在前一次的基础上取得进步。

  值得注意的是,随着迭代的进行,AI生成的推理步骤呈现出有趣的变化趋势:步骤数量逐渐减少,但每个步骤的长度逐渐增加。这表明AI学会了生成更高质量、更详细的单步推理,用更少但更精确的步骤达到最终答案。这就像一个学生从最初的小步快跑逐渐成长为大步流星的高手。

  研究团队在多个数学推理基准测试上验证了方法的有效性。他们选择了Qwen2.5-Math系列模型作为基础,分别测试了7B和72B参数规模的版本。测试涵盖了从基础的GSM8k和MATH数据集,到更具挑战性的高考2023英文版、奥林匹克数学竞赛、AIME2024和AMC2023等多个基准。

  实验结果令人振奋。以72B模型为例,经过四轮自我奖励训练后,模型在所有测试基准上都显示出稳定的性能提升。特别是在一些复杂任务上,提升幅度尤为显著。比如在AIME2024测试中,准确率从13.3%提升到23.3%,在AMC2023中从45.0%提升到57.5%。

  更重要的是,研究团队的方法在各个基准测试上都超越了传统的自我奖励方法。通过对比从M1到M4的性能变化,可以清楚地看到过程式自我奖励方法带来了更稳定、更显著的改进。这种优势在7B和72B两个不同规模的模型上都得到了验证,说明方法具有良好的通用性。

  研究团队还发现,较大的模型(72B)比较小的模型(7B)获得了更稳定的改进效果。这可能是因为大模型具有更强的数学推理和判断能力,能够更好地利用自我奖励机制。

  除了数学推理能力的提升,研究团队还深入分析了AI作为判官的表现。他们构建了500个测试样本来评估AI进行逐步判断的准确性。结果显示,在经过少量评估微调数据的初始化后,AI就能达到很高的判断准确率:7B模型达到92.8%,72B模型更是高达95.6%。

  有趣的是,虽然在后续迭代中没有加入新的判断训练数据,AI的判断能力依然保持在较高水平。研究团队观察到一个一致的模式:判断准确率先上升,然后略有下降,最后再次上升。这个现象可以这样理解:最初AI通过评估数据获得强判断能力,随后在数学训练中略有波动,但随着数学能力的整体提升,判断能力也相应改善。

  这种现象说明了数学推理能力和判断能力之间的相互促进关系。一个数学能力更强的AI,自然也能更准确地判断推理步骤的质量,形成了良性循环。

  研究团队通过数据可视化分析发现了训练过程中的有趣现象。他们使用BERT嵌入和t-SNE降维技术分析了不同类型数据的分布情况。结果显示,评估微调数据和指令微调数据在分布上并不重叠,这使得AI能够清晰地区分两种不同的任务模式,避免了相互干扰。

  同时,模型生成的偏好对数据与指令微调数据的分布有所不同,但与评估数据相对独立。这种分布特性有助于AI在迭代过程中同时提升数学推理和判断能力,而不会因为训练数据的混杂而产生负面影响。

  在推理模式方面,研究团队发现了一个清晰的趋势:随着迭代进行,AI生成的推理步骤数量逐渐减少,但每个步骤的平均长度不断增加。这表明AI学会了生成更高质量、更详细的单步推理,能够在更少的步骤中完成更复杂的思考过程。

  这种变化反映了AI推理能力的质的提升。就像一个经验丰富的数学家能够用简洁而深刻的方式解决复杂问题,而初学者则需要更多的小步骤。

  研究团队还验证了训练后的AI在测试时扩展能力方面的表现。测试时扩展是指AI在推理过程中进行搜索和选择,类似于人类在考试时会仔细思考和检查。

  实验结果显示,经过过程式自我奖励训练的AI在测试时扩展方面表现优异。与直接生成答案相比,通过搜索和选择能够获得更好的性能。更重要的是,从M1到M4的迭代过程中,AI的测试时扩展能力也在不断提升,这与其数学推理和判断能力的提升是一致的。

  这个结果证明了AI不仅在训练时学会了更好的推理模式,在实际应用时也能够有效利用额外的计算资源来获得更准确的结果。这为AI在实际数学问题解决中的应用提供了更多可能性。

  尽管取得了显著成果,研究团队也诚实地指出了当前方法的局限性。首先,初始化模型M1的基础能力直接影响后续过程式自我奖励的效果。如果基础模型的数学推理和判断能力较弱,后续的自我训练效果也会受到限制。这意味着需要更高质量的初始化数据来确保良好的起点。

  其次,由于计算资源限制,当前研究只进行了四轮迭代实验。更多轮次的迭代是否能带来进一步提升,以及性能提升何时会达到瓶颈,这些问题还需要更深入的研究。

  此外,研究主要聚焦于数学推理任务。这种过程式自我奖励方法是否能够推广到其他需要多步推理的任务,如科学推理、逻辑推理等,也是值得探索的方向。

  展望未来,这项研究为AI的自主学习和能力提升开辟了新的道路。通过让AI学会自我监督和自我改进,我们可能最终实现超越人类专家水平的AI系统。这不仅在数学领域有重要意义,在科学研究、工程设计等需要复杂推理的领域都可能产生深远影响。

  说到底,这项研究最大的意义在于展示了AI自主学习的巨大潜力。通过让AI既当学生又当老师,研究团队成功打破了传统训练方法的瓶颈,实现了性能的持续提升。这就像培养了一个永不疲倦、不断自我完善的学习者。

  归根结底,这种过程式自我奖励的思想可能会彻底改变我们训练AI的方式。不再需要大量的人工标注和外部监督,AI可以通过自我反思和改进达到更高的水平。这对普通人意味着什么呢?未来我们可能会看到更智能的AI助手,它们不仅能解决复杂的数学问题,还能在解题过程中提供清晰的步骤说明,真正成为人类学习和工作的得力伙伴。

  当然,这项研究也提出了一个有趣的哲学问题:当AI学会了自我教育和自我评判,它们是否已经具备了某种形式的智慧?虽然我们还无法给出确定答案,但可以肯定的是,这种技术将为教育、科研和日常问题解决带来革命性变化。

  对于那些对AI技术发展感兴趣的读者,这项研究提供了一个精彩的案例,展示了如何通过巧妙的设计让机器实现自我超越。有兴趣深入了解技术细节的朋友,可以通过arXiv:2503.03746v1查阅完整的研究论文。

  Q1:什么是过程式自我奖励,它与传统AI训练有什么不同? A:过程式自我奖励是让AI像老师一样检查自己每个解题步骤的方法。传统训练只看最终答案对错,而这种方法关注解题过程中的每一步,AI会生成多个候选步骤,然后自己判断哪个更好,用这些判断结果来改进自己,实现持续的自我提升。

  Q2:AI会不会真的超越人类数学家? A:目前还没有,但这项研究显示了这种可能性。通过自我奖励训练,AI在多个数学竞赛基准上都获得了显著提升,有些甚至接近人类专家水平。不过AI还缺乏创造性思维和直觉,完全超越人类数学家还需要更多突破。

  Q3:普通人能用到这种技术吗? A:虽然这项技术还处于研究阶段,但未来很可能出现在智能教育软件、在线学习平台中。你可能会用到能够逐步解释数学题、检查解题过程的AI家教,它们不仅给出答案,还能像真正的老师一样指出每一步的对错和原因。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  Nature重磅:逆转阿尔茨海默病!补充金属锂,恢复记忆丧失,让大脑回到更年轻、更健康状态

  寿宴缺席致分手!C罗2.3亿身价,伊莲娜620%估值涨,10年谁更耀眼

  王俊杰谈郭士强:网上的传言都不是真的,骂我更能证明对我们年轻队员有要求

  外网热议GEN击败T1:T1夏季赛输给GEN?提前恭喜T1将在S15夺冠了

  iQOO Z10 Turbo+发布:8000mAh电池配天玑9400+ 售价2199元起

首页 关于我们 公司动态 合作项目 常见问题 门店展示 加盟支持 加盟流程 人才招聘 加盟申请 联系我们
版权所有:
ICP备案编号:琼ICP备xxxxxxxx号