阿里云通义开源最强过（guò）程奖励PRM模型七B尺寸比GPT-四o更能（néng）发现推理错误

sss001 7小时前阅读数 2 #丑闻热瓜

本站一月一六日消息，今日，阿里云通义开源全新的（de）数学推理过（guò）程奖励模型Qwen二.五-Math-PRM，七二B及七B尺寸模型性能（néng）均大（dà）幅超越同类开源过（guò）程奖励模型。

据了解，在（zài）识别推理错误步骤能（néng）力上（shàng），Qwen二.五-Math-PRM以（yǐ）七B的（de）小尺寸超越了GPT-四o。同时（shí），通义团队还开源了首个（gè）步骤级的（de）评估标准 ProcessBench，此项评估标准填补了大（dà）模型推理过（guò）程错误评估的（de）空白。

据了解，为（wéi / wèi）更好（hao）衡量模型识别数学推理中（zhōng）错误步骤的（de）能（néng）力，通义团队提出（chū）的（de）全新评估标准ProcessBench。该基准由三四00个（gè）数学问题测试案例组成，其中（zhōng）还包含奥赛难度的（de）题目，每个（gè）案例都有（yǒu）人（rén）类专家（jiā）标注的（de）逐步推理过（guò）程，可（kě）综合全面评估模型识别错误步骤能（néng）力。这（zhè）一评估标准也（yě）已开源。

此外，在（zài）ProcessBench上（shàng）对（duì）错误步骤的（de）识别能（néng）力的（de）评估中（zhōng），七二B及七B尺寸的（de）Qwen二.五-Math-PRM均显示出（chū）显著的（de）优势，七B版本的（de）PRM模型不（bù）但超越同尺寸开源PRM模型，甚至超越了闭源GPT-四o-0八0六。这（zhè）证明了过（guò）程奖励模型（PRM）能（néng）够显著提高推理的（de）可（kě）靠性，为（wéi / wèi）未来（lái）开发推理过（guò）程监督技术开辟了新的（de）途径。

版权说明

上一篇：美国（guó）空姐发机舱内跳舞视频被开除：此前刚结束试用期下一篇：四川康定官方通报：未发现餐饮店提炼和（hé）使用餐厨废弃物

发表评论:取消回复

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

阿里云通义开源最强过（guò）程奖励PRM模型 七B尺寸比GPT-四o更能（néng）发现推理错误

作者文章

阿里云通义开源最强过（guò）程奖励PRM模型七B尺寸比GPT-四o更能（néng）发现推理错误