首页 公众号手机端

OpenAI直播最后(hòu)一天(tiān)放出(chū)“王炸”:下(xià)一代推理模型o三亮相

sss001 3天前 阅读数 11 #丑闻热瓜

OpenAI将其最为(wéi / wèi)重要(yào)的(de)尖端产品,放在(zài)了为(wéi / wèi)期一二天(tiān)的(de)技术分享直播活动的(de)最后(hòu)一天(tiān)!

周五,OpenAI发布了下(xià)一代的(de)推理模型o三,这(zhè)是( shì)今年(nián)早些时(shí)候发布的(de)o一推理模型的(de)升级版本。更准确地(dì)说(shuō),o三是( shì)一个(gè)模型系列——就(jiù)像o一一样,同时(shí)有(yǒu)o三和(hé)o三-mini两个(gè)版本,后(hòu)者是( shì)一款更小的(de)精简版模型,针对(duì)特定任务进行(xíng)了微调。

OpenAI声称,至少在(zài)某些条件下(xià),o三模型可(kě)以(yǐ)接近实现AGI。

AGI是( shì)“通用人(rén)工智能(néng)”(artificial general intelligence)的(de)缩写,泛指能(néng)完成人(rén)类所能(néng)完成的(de)任何任务的(de)人(rén)工智能(néng)。OpenAI对(duì)此有(yǒu)着自(zì)己的(de)定义:“在(zài)最具经济价值的(de)工作上(shàng)胜过(guò)人(rén)类的(de)高度自(zì)主系统”。

实现AGI将是( shì)一个(gè)大(dà)胆的(de)宣言。对(duì)于(yú)OpenAI来(lái)说(shuō),其背后(hòu)也(yě)将具有(yǒu)现实意义。根据OpenAI与其亲密合作伙伴和(hé)投资方微软的(de)协议条款,一旦OpenAI达到()AGI,就(jiù)没有(yǒu)义务再让微软使用其最先进的(de)技术(即那(nà)些符合OpenAI AGI定义的(de)技术)。

OpenAI首席执行(xíng)官山姆·奥尔特曼(Sam Altman)介绍称,OpenAI计划在(zài)一月底前正式推出(chū)o三 mini,之(zhī)后(hòu)推出(chū)完整版的(de)o三。该公司期待更强大(dà)的(de)大(dà)型语言模型可(kě)以(yǐ)超越现有(yǒu)模型,吸引新的(de)投资和(hé)用户。

OpenAI在(zài)一篇博客文章中(zhōng)表示,o一模型已经能(néng)够推理复杂的(de)任务,与以(yǐ)前的(de)科学、编码和(hé)数学模型相比,它能(néng)解决更具挑战性的(de)问题。而(ér)OpenAI新推出(chū)的(de)o三和(hé)o三 mini模型目前正在(zài)进行(xíng)内部安全测试,它们(men)将比之(zhī)前推出(chū)的(de)o一模型更加强大(dà)。

OpenAI两年(nián)前发布了ChatGPT,拉开了AI军备竞赛的(de)序幕。ChatGPT是( shì)一款聊天(tiān)机器人(rén),最初由版本为(wéi / wèi)GPT-三.五的(de)大(dà)型语言模型驱动。OpenAI 随后(hòu)在(zài)二0二三年(nián)推出(chū)了GPT-四,并称其更准确、更具创造性。最近,OpenAI又推出(chū)了其首个(gè)推理模型o一。

该公司发言人(rén)表示,OpenAI决定不(bù)将下(xià)一代新模型命名为(wéi / wèi)o二,“是( shì)出(chū)于(yú)对(duì)同名英国(guó)电信运营商o二的(de)尊重”。奥尔特曼当天(tiān)在(zài)直播中(zhōng)也(yě)调侃称,“按照OpenAI非常非常不(bù)擅长命名的(de)伟大(dà)传统,它将被命名为(wéi / wèi)o三。”

o三有(yǒu)多强大(dà)?

那(nà)么,o三具体的(de)表现究竟能(néng)有(yǒu)多强大(dà)呢?

根据OpenAI的(de)介绍,o三模型在(zài)ARC-AGI基准上(shàng)获得了破纪录的(de)分数。ARC-AGI由Keras之(zhī)父Fran ? ois Chollet开发,主要(yào)是( shì)通过(guò)图形逻辑推理来(lái)测试模型的(de)推理能(néng)力。以(yǐ)一00%为(wéi / wèi)最高分的(de)ARC-AGI评估结果显示,在(zài)低计算场景中(zhōng),o三得分为(wéi / wèi)七五.七%,而(ér)在(zài)高计算测试中(zhōng),它达到()了八七.五%。

这(zhè)标志着,o三的(de)最佳成绩超过(guò)了标志着达到()人(rén)类水平的(de)门槛八五%。作为(wéi / wèi)对(duì)比,目前开放的(de)o一模型的(de)得分仅在(zài)二五%到()三二%之(zhī)间。o三的(de)表现几乎是( shì)o一的(de)逾三倍。

在(zài)其他(tā)基准测试中(zhōng),o三也(yě)明显脱颖而(ér)出(chū)。

在(zài)衡量编程能(néng)力的(de)Codeforces Elo评分中(zhōng),o三取得了二七二七的(de)Elo评分,而(ér)o一评分仅为(wéi / wèi)一八九一。事(shì)实上(shàng),o三 mini在(zài)中(zhōng)等推理时(shí)间模式的(de)表现也(yě)已足以(yǐ)超越o一。

在(zài)OpenAI于(yú)八月推出(chū)的(de)SWE-bench Verified代码生(nián)成评估基准中(zhōng),o三的(de)准确率为(wéi / wèi)七一.七%,比o一高出(chū)了二二.八个(gè)百分点。

o三还在(zài)二0二四年(nián)美国(guó)AIME数学竞赛中(zhōng)取得了九六.七%准确率的(de)高分,只缺了一道(dào)题,并在(zài)GPQA Diamond(一套研究生(nián)水平的(de)生(nián)物、物理和(hé)化学试题)中(zhōng)取得了八七.七%准确率的(de)高分。

尤为(wéi / wèi)值得一提的(de)是( shì),o三在(zài)EpochAI的(de)“FrontierMath”基准测试中(zhōng)创造了新纪录,解决了二五.二%的(de)问题——在(zài)该项测试中(zhōng)没有(yǒu)其他(tā)模型能(néng)超过(guò)二%。

Epoch AI此前联合六一0余位全世界的(de)数学家(jiā),其中(zhōng)包括教授、IMO命题人(rén)、菲尔兹奖获得者,共同推出(chū)了全新的(de)数学基准FrontierMath。这(zhè)些数学问题从奥赛难度到()当今的(de)数学前沿,包含了目前数学研究的(de)所有(yǒu)主要(yào)分支——从数论和(hé)实数分析中(zhōng)的(de)计算密集型问题到()代数几何和(hé)群论中(zhōng)的(de)抽象问题。

行(xíng)业竞争与风险

毫无疑问,o三模型在(zài)上(shàng)述测试中(zhōng)的(de)表现,足以(yǐ)令人(rén)感到()惊艳。无论在(zài)软件工程、编写代码,还是( shì)竞赛数学、掌握人(rén)类博士级别的(de)自(zì)然科学知识能(néng)力方面,o三都明显高出(chū)o一一筹。

OpenAI总裁Greg Brockman表示,“我(wǒ)们(men)最新的(de)推理模型o三是( shì)一个(gè)突破,在(zài)我(wǒ)们(men)最困难的(de)基准上(shàng)有(yǒu)了阶跃函数的(de)改进。我(wǒ)们(men)现在(zài)开始安全测试和(hé)红队演练。”

而(ér)迈向类人(rén)智能(néng)的(de)大(dà)跨步突破,显然也(yě)会(huì)引发一些人(rén)士对(duì)AI安全性的(de)担心。

风险可(kě)能(néng)确实存在(zài)。人(rén)工智能(néng)安全测试人(rén)员发现,与传统的(de)“非推理”模型相比,o一的(de)推理能(néng)力便已使其试图欺骗人(rén)类用户的(de)比例更高,而(ér)在(zài)这(zhè)方面,Meta、Anthropic和(hé)谷歌的(de)领先人(rén)工智能(néng)模型也(yě)是( shì)如此。

o三试图欺骗用户的(de)比例可(kě)能(néng)比它的(de)前身更高;一旦未来(lái)OpenAI的(de)红队测试结果出(chū)炉,人(rén)们(men)或许便能(néng)知道(dào)具体情况。奥尔特曼对(duì)此也(yě)表示,在(zài)OpenAI发布新的(de)推理模型之(zhī)前,他(tā)更希望有(yǒu)一个(gè)联邦测试框架来(lái)指导监控和(hé)降低这(zhè)些模型的(de)风险。

在(zài)公开发布o三模型之(zhī)前,OpenAI也(yě)将开放外部研究人(rén)员测试o三模型的(de)申请流程,申请将于(yú)一月一0日截止。

近期,在(zài)OpenAI首批推理模型o一发布之(zhī)后(hòu),一些该公司的(de)主要(yào)竞争对(duì)手也(yě)已纷纷推出(chū)了推理模型。在(zài)本月早些时(shí)候,谷歌就(jiù)发布了其旗舰模型Gemini的(de)新版本,据称其速度是( shì)上(shàng)一代模型的(de)两倍,可(kě)以(yǐ)“思考、记忆、计划,甚至代表你(nǐ)采取行(xíng)动”。Meta首席执行(xíng)官马克·扎克伯格最近也(yě)透露,计划于(yú)明年(nián)推出(chū)Llama 四。

这(zhè)些动向表明人(rén)工智能(néng)领域的(de)竞争目前正日益激烈,各方都在(zài)努力创造能(néng)够解决复杂问题的(de)更为(wéi / wèi)智能(néng)的(de)模型。

而(ér)OpenAI周五o三模型的(de)最新亮相,也(yě)为(wéi / wèi)其为(wéi / wèi)期一二天(tiān)的(de)直播产品发布会(huì)画上(shàng)了圆满句号。在(zài)早前的(de)直播中(zhōng),这(zhè)家(jiā)初创公司推出(chū)了更昂贵的(de)新ChatGPT Pro订阅选项(每月二00美元),并正式对(duì)外推出(chū)了AI视频生(nián)成模型Sora Turbo以(yǐ)及其他(tā)新产品。ChatGPT搜索功能(néng)也(yě)全面升级,新增地(dì)图集成、实时(shí)搜索等功能(néng),向所有(yǒu)用户开放。

版权说明

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门