阿里云通义开源最强过(guò)程奖励PRM模型 七B尺寸比GPT-四o更能(néng)发现推理错误
本站一月一六日消息,今日,阿里云通义开源全新的(de)数学推理过(guò)程奖励模型Qwen二.五-Math-PRM,七二B及七B尺寸模型性能(néng)均大(dà)幅超越同类开源过(guò)程奖励模型。
据了解,在(zài)识别推理错误步骤能(néng)力上(shàng),Qwen二.五-Math-PRM以(yǐ)七B的(de)小尺寸超越了GPT-四o。同时(shí),通义团队还开源了首个(gè)步骤级的(de)评估标准 ProcessBench,此项评估标准填补了大(dà)模型推理过(guò)程错误评估的(de)空白。
据了解,为(wéi / wèi)更好(hao)衡量模型识别数学推理中(zhōng)错误步骤的(de)能(néng)力,通义团队提出(chū)的(de)全新评估标准ProcessBench。该基准由三四00个(gè)数学问题测试案例组成,其中(zhōng)还包含奥赛难度的(de)题目,每个(gè)案例都有(yǒu)人(rén)类专家(jiā)标注的(de)逐步推理过(guò)程,可(kě)综合全面评估模型识别错误步骤能(néng)力。这(zhè)一评估标准也(yě)已开源。
此外,在(zài)ProcessBench上(shàng)对(duì)错误步骤的(de)识别能(néng)力的(de)评估中(zhōng),七二B及七B尺寸的(de)Qwen二.五-Math-PRM均显示出(chū)显著的(de)优势,七B版本的(de)PRM模型不(bù)但超越同尺寸开源PRM模型,甚至超越了闭源GPT-四o-0八0六。这(zhè)证明了过(guò)程奖励模型(PRM)能(néng)够显著提高推理的(de)可(kě)靠性,为(wéi / wèi)未来(lái)开发推理过(guò)程监督技术开辟了新的(de)途径。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。