OpenAI直播最后（hòu）一天（tiān）放出（chū）“王炸”：下（xià）一代推理模型o三亮相

sss001 3天前阅读数 11 #丑闻热瓜

OpenAI将其最为（wéi / wèi）重要（yào）的（de）尖端产品，放在（zài）了为（wéi / wèi）期一二天（tiān）的（de）技术分享直播活动的（de）最后（hòu）一天（tiān）！

周五，OpenAI发布了下（xià）一代的（de）推理模型o三，这（zhè）是（ shì）今年（nián）早些时（shí）候发布的（de）o一推理模型的（de）升级版本。更准确地（dì）说（shuō），o三是（ shì）一个（gè）模型系列——就（jiù）像o一一样，同时（shí）有（yǒu）o三和（hé）o三-mini两个（gè）版本，后（hòu）者是（ shì）一款更小的（de）精简版模型，针对（duì）特定任务进行（xíng）了微调。

OpenAI声称，至少在（zài）某些条件下（xià），o三模型可（kě）以（yǐ）接近实现AGI。

AGI是（ shì）“通用人（rén）工智能（néng）”(artificial general intelligence)的（de）缩写，泛指能（néng）完成人（rén）类所能（néng）完成的（de）任何任务的（de）人（rén）工智能（néng）。OpenAI对（duì）此有（yǒu）着自（zì）己的（de）定义：“在（zài）最具经济价值的（de）工作上（shàng）胜过（guò）人（rén）类的（de）高度自（zì）主系统”。

实现AGI将是（ shì）一个（gè）大（dà）胆的（de）宣言。对（duì）于（yú）OpenAI来（lái）说（shuō），其背后（hòu）也（yě）将具有（yǒu）现实意义。根据OpenAI与其亲密合作伙伴和（hé）投资方微软的（de）协议条款，一旦OpenAI达到（）AGI，就（jiù）没有（yǒu）义务再让微软使用其最先进的（de）技术(即那（nà）些符合OpenAI AGI定义的（de）技术)。

OpenAI首席执行（xíng）官山姆·奥尔特曼(Sam Altman)介绍称，OpenAI计划在（zài）一月底前正式推出（chū）o三 mini，之（zhī）后（hòu）推出（chū）完整版的（de）o三。该公司期待更强大（dà）的（de）大（dà）型语言模型可（kě）以（yǐ）超越现有（yǒu）模型，吸引新的（de）投资和（hé）用户。

OpenAI在（zài）一篇博客文章中（zhōng）表示，o一模型已经能（néng）够推理复杂的（de）任务，与以（yǐ）前的（de）科学、编码和（hé）数学模型相比，它能（néng）解决更具挑战性的（de）问题。而（ér）OpenAI新推出（chū）的（de）o三和（hé）o三 mini模型目前正在（zài）进行（xíng）内部安全测试，它们（men）将比之（zhī）前推出（chū）的（de）o一模型更加强大（dà）。

OpenAI两年（nián）前发布了ChatGPT，拉开了AI军备竞赛的（de）序幕。ChatGPT是（ shì）一款聊天（tiān）机器人（rén），最初由版本为（wéi / wèi）GPT-三.五的（de）大（dà）型语言模型驱动。OpenAI 随后（hòu）在（zài）二0二三年（nián）推出（chū）了GPT-四，并称其更准确、更具创造性。最近，OpenAI又推出（chū）了其首个（gè）推理模型o一。

该公司发言人（rén）表示，OpenAI决定不（bù）将下（xià）一代新模型命名为（wéi / wèi）o二，“是（ shì）出（chū）于（yú）对（duì）同名英国（guó）电信运营商o二的（de）尊重”。奥尔特曼当天（tiān）在（zài）直播中（zhōng）也（yě）调侃称，“按照OpenAI非常非常不（bù）擅长命名的（de）伟大（dà）传统，它将被命名为（wéi / wèi）o三。”

o三有（yǒu）多强大（dà）？

那（nà）么，o三具体的（de）表现究竟能（néng）有（yǒu）多强大（dà）呢？

根据OpenAI的（de）介绍，o三模型在（zài）ARC-AGI基准上（shàng）获得了破纪录的（de）分数。ARC-AGI由Keras之（zhī）父Fran ? ois Chollet开发，主要（yào）是（ shì）通过（guò）图形逻辑推理来（lái）测试模型的（de）推理能（néng）力。以（yǐ）一00%为（wéi / wèi）最高分的（de）ARC-AGI评估结果显示，在（zài）低计算场景中（zhōng），o三得分为（wéi / wèi）七五.七%，而（ér）在（zài）高计算测试中（zhōng），它达到（）了八七.五%。

这（zhè）标志着，o三的（de）最佳成绩超过（guò）了标志着达到（）人（rén）类水平的（de）门槛八五%。作为（wéi / wèi）对（duì）比，目前开放的（de）o一模型的（de）得分仅在（zài）二五%到（）三二%之（zhī）间。o三的（de）表现几乎是（ shì）o一的（de）逾三倍。

在（zài）其他（tā）基准测试中（zhōng），o三也（yě）明显脱颖而（ér）出（chū）。

在（zài）衡量编程能（néng）力的（de）Codeforces Elo评分中（zhōng），o三取得了二七二七的（de）Elo评分，而（ér）o一评分仅为（wéi / wèi）一八九一。事（shì）实上（shàng），o三 mini在（zài）中（zhōng）等推理时（shí）间模式的（de）表现也（yě）已足以（yǐ）超越o一。

在（zài）OpenAI于（yú）八月推出（chū）的（de）SWE-bench Verified代码生（nián）成评估基准中（zhōng），o三的（de）准确率为（wéi / wèi）七一.七%，比o一高出（chū）了二二.八个（gè）百分点。

o三还在（zài）二0二四年（nián）美国（guó）AIME数学竞赛中（zhōng）取得了九六.七%准确率的（de）高分，只缺了一道（dào）题，并在（zài）GPQA Diamond(一套研究生（nián）水平的（de）生（nián）物、物理和（hé）化学试题)中（zhōng）取得了八七.七%准确率的（de）高分。

尤为（wéi / wèi）值得一提的（de）是（ shì），o三在（zài）EpochAI的（de）“FrontierMath”基准测试中（zhōng）创造了新纪录，解决了二五.二%的（de）问题——在（zài）该项测试中（zhōng）没有（yǒu）其他（tā）模型能（néng）超过（guò）二%。

Epoch AI此前联合六一0余位全世界的（de）数学家（jiā），其中（zhōng）包括教授、IMO命题人（rén）、菲尔兹奖获得者，共同推出（chū）了全新的（de）数学基准FrontierMath。这（zhè）些数学问题从奥赛难度到（）当今的（de）数学前沿，包含了目前数学研究的（de）所有（yǒu）主要（yào）分支——从数论和（hé）实数分析中（zhōng）的（de）计算密集型问题到（）代数几何和（hé）群论中（zhōng）的（de）抽象问题。

行（xíng）业竞争与风险

毫无疑问，o三模型在（zài）上（shàng）述测试中（zhōng）的（de）表现，足以（yǐ）令人（rén）感到（）惊艳。无论在（zài）软件工程、编写代码，还是（ shì）竞赛数学、掌握人（rén）类博士级别的（de）自（zì）然科学知识能（néng）力方面，o三都明显高出（chū）o一一筹。

OpenAI总裁Greg Brockman表示，“我（wǒ）们（men）最新的（de）推理模型o三是（ shì）一个（gè）突破，在（zài）我（wǒ）们（men）最困难的（de）基准上（shàng）有（yǒu）了阶跃函数的（de）改进。我（wǒ）们（men）现在（zài）开始安全测试和（hé）红队演练。”

而（ér）迈向类人（rén）智能（néng）的（de）大（dà）跨步突破，显然也（yě）会（huì）引发一些人（rén）士对（duì）AI安全性的（de）担心。

风险可（kě）能（néng）确实存在（zài）。人（rén）工智能（néng）安全测试人（rén）员发现，与传统的（de）“非推理”模型相比，o一的（de）推理能（néng）力便已使其试图欺骗人（rén）类用户的（de）比例更高，而（ér）在（zài）这（zhè）方面，Meta、Anthropic和（hé）谷歌的（de）领先人（rén）工智能（néng）模型也（yě）是（ shì）如此。

o三试图欺骗用户的（de）比例可（kě）能（néng）比它的（de）前身更高；一旦未来（lái）OpenAI的（de）红队测试结果出（chū）炉，人（rén）们（men）或许便能（néng）知道（dào）具体情况。奥尔特曼对（duì）此也（yě）表示，在（zài）OpenAI发布新的（de）推理模型之（zhī）前，他（tā）更希望有（yǒu）一个（gè）联邦测试框架来（lái）指导监控和（hé）降低这（zhè）些模型的（de）风险。

在（zài）公开发布o三模型之（zhī）前，OpenAI也（yě）将开放外部研究人（rén）员测试o三模型的（de）申请流程，申请将于（yú）一月一0日截止。

近期，在（zài）OpenAI首批推理模型o一发布之（zhī）后（hòu），一些该公司的（de）主要（yào）竞争对（duì）手也（yě）已纷纷推出（chū）了推理模型。在（zài）本月早些时（shí）候，谷歌就（jiù）发布了其旗舰模型Gemini的（de）新版本，据称其速度是（ shì）上（shàng）一代模型的（de）两倍，可（kě）以（yǐ）“思考、记忆、计划，甚至代表你（nǐ）采取行（xíng）动”。Meta首席执行（xíng）官马克·扎克伯格最近也（yě）透露，计划于（yú）明年（nián）推出（chū）Llama 四。

这（zhè）些动向表明人（rén）工智能（néng）领域的（de）竞争目前正日益激烈，各方都在（zài）努力创造能（néng）够解决复杂问题的（de）更为（wéi / wèi）智能（néng）的（de）模型。

而（ér）OpenAI周五o三模型的（de）最新亮相，也（yě）为（wéi / wèi）其为（wéi / wèi）期一二天（tiān）的（de）直播产品发布会（huì）画上（shàng）了圆满句号。在（zài）早前的（de）直播中（zhōng），这（zhè）家（jiā）初创公司推出（chū）了更昂贵的（de）新ChatGPT Pro订阅选项(每月二00美元)，并正式对（duì）外推出（chū）了AI视频生（nián）成模型Sora Turbo以（yǐ）及其他（tā）新产品。ChatGPT搜索功能（néng）也（yě）全面升级，新增地（dì）图集成、实时（shí）搜索等功能（néng），向所有（yǒu）用户开放。

版权说明

上一篇：神了！谷歌街景意外拍下（xià）凶手藏尸现场下一篇：遇见你（nǐ）丨“小石头成长记”“银发夫妻”共赴热爱……重温二0二四这（zhè）些感动瞬间

发表评论:取消回复

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

OpenAI直播最后（hòu）一天（tiān）放出（chū）“王炸”：下（xià）一代推理模型o三亮相

作者文章