首页 公众号手机端

显卡可(kě)能(néng)没那(nà)么重要(yào)了 中(zhōng)国(guó)公司给硅谷好(hao)好(hao)上(shàng)了一课

sss001 2周前 (01-04) 阅读数 6 #丑闻热瓜

我(wǒ)是( shì)万万没想到(),就(jiù)在(zài)西方还沉浸在(zài)圣诞假期,疯狂 “ 过(guò)年(nián) ” 的(de)时(shí)候,咱们(men)中(zhōng)国(guó)企业给人(rén)家(jiā)放了个(gè)新年(nián)二踢脚,给人(rén)家(jiā)脑瓜子(zǐ)崩得嗡嗡得。

前有(yǒu)宇树科技的(de)机器狗视频让大(dà)家(jiā)惊呼,还要(yào)啥波士顿动力。

紧接着又来(lái)了个(gè)国(guó)产大(dà)模型 DeepSeek,甚至有(yǒu)股做空英伟达的(de)味道(dào)。

具体咋回事(shì)儿,咱给你(nǐ)唠明白咯。

前几天(tiān), DeepSeek 刚刚公布最新版本 V三 ,注意,与大(dà)洋彼岸那(nà)个(gè)自(zì)称 Open ,却越来(lái)越 Close 的(de)公司产品不(bù)同,这(zhè)个(gè) V三 是( shì)开源的(de)。

不(bù)过(guò)开源还不(bù)是( shì)他(tā)最重要(yào)的(de)标签, DeepSeek-V三 ( 以(yǐ)下(xià)简称 V三 )还兼具了性能(néng)国(guó)际一流,技术力牛逼,价格击穿地(dì)心三个(gè)特点,这(zhè)一套不(bù)解释连招打得业内大(dà)模型厂商们(men)都有(yǒu)点晕头转向了。

 V三 一发布, OpenAI 创始成员 Karpathy 直接看嗨了,甚至发出(chū)了灵魂提问,难道(dào)说(shuō)大(dà)模型们(men)压根不(bù)需要(yào)大(dà)规模显卡集群?

我(wǒ)估计老黄看到()这(zhè)头皮都得发麻了吧。

同时(shí), Meta 的(de) AI 技术官也(yě)是( shì)直呼 DeepSeek 的(de)成果伟大(dà)

知名 AI 评测博主 Tim Dettmers ,直接吹起来(lái)了,表示 DeepSeek 的(de)处理优雅 “elegant” 。

而(ér)在(zài)这(zhè)些技术出(chū)身的(de)人(rén),看着 V三 的(de)成绩送去(qù)赞扬的(de)时(shí)候,也(yě)有(yǒu)些人(rén)急了。

 比如奥特曼就(jiù)搁那(nà)说(shuō),复制比较简单啦,很难不(bù)让人(rén)觉得他(tā)在(zài)内涵 DeepSeek 。

更有(yǒu)意思的(de)是( shì),做到()这(zhè)些的(de)公司既不(bù)是( shì)什么大(dà)厂,也(yě)不(bù)是( shì)纯血 AI 厂商。

DeepSeek 公司中(zhōng)文名叫深度求索,他(tā)们(men)本来(lái)和(hé) AI 没任何关系。

就(jiù)在(zài)大(dà)模型爆火之(zhī)前,他(tā)们(men)其实是( shì)私募机构幻方量化的(de)一个(gè)团队

而(ér)深度求索能(néng)够实现弯道(dào)超车,既有(yǒu)点必然,也(yě)好(hao)像有(yǒu)点运气的(de)意思。

早在(zài) 二0一九 年(nián),幻方就(jiù)投资 二 亿元搭建了自(zì)研深度学习训练平台 “ 萤火虫一号 ” ,到()了 二0二一 年(nián)已经买了足足 一 万丈英伟达 A一00 显卡的(de)算力储备了。

要(yào)知道(dào),这(zhè)个(gè)时(shí)候大(dà)模型没火,万卡集群的(de)概念更是( shì)还没出(chū)现。

而(ér)正是( shì)凭借这(zhè)部分硬件储备,幻方才拿到()了 AI 大(dà)模型的(de)入场券,最终卷出(chū)了现在(zài)的(de) V三 。

你(nǐ)说(shuō)好(hao)好(hao)的(de)一个(gè)量化投资领域的(de)大(dà)厂,干嘛要(yào)跑来(lái)搞 AI 呢?

深度求索的(de) CEO 梁文锋在(zài)接受采访的(de)时(shí)候给大(dà)家(jiā)聊过(guò),并不(bù)是( shì)什么看中(zhōng) AI 前景。

 而(ér)是( shì)在(zài)他(tā)们(men)看来(lái), “ 通用人(rén)工智能(néng)可(kě)能(néng)是( shì)下(xià)一个(gè)最难的(de)事(shì)之(zhī)一 ” ,对(duì)他(tā)们(men)来(lái)说(shuō), “ 这(zhè)是( shì)一个(gè)怎么做的(de)问题,而(ér)不(bù)是( shì)为(wéi / wèi)什么做的(de)问题。 ” 

就(jiù)是( shì)抱着这(zhè)么股 “ 莽 ” 劲,深度求索才搞出(chū)了这(zhè)次的(de)大(dà)新闻,下(xià)面给大(dà)家(jiā)具体讲讲 V三 有(yǒu)啥特别的(de)地(dì)方。

首先就(jiù)是( shì)性能(néng)强悍,目前来(lái)看,在(zài) V三 面前,开源模型几乎没一个(gè)能(néng)打的(de)。

 还记得去(qù)年(nián)年(nián)中(zhōng),小扎的(de) Meta 推出(chū)模型 Llama 三.一 ,当时(shí)就(jiù)因为(wéi / wèi)性能(néng)优秀而(ér)且开源,一时(shí)间被捧上(shàng)神坛,结果在(zài) V三 手里,基本是( shì)全面落败。

而(ér)在(zài)各种大(dà)厂手里的(de)闭源模型,那(nà)些大(dà)家(jiā)耳熟能(néng)详的(de)什么 GPT-四o 、 Claude 三.五 Sonnet 啥的(de), V三 也(yě)能(néng)打得有(yǒu)来(lái)有(yǒu)回。

你(nǐ)看到()这(zhè),可(kě)能(néng)觉得不(bù)过(guò)如此,也(yě)就(jiù)是( shì)追上(shàng)了国(guó)际领先水平嘛,值得这(zhè)么吹吗?

残暴的(de)还在(zài)后(hòu)面。

大(dà)家(jiā)大(dà)概都知道(dào)了,现在(zài)的(de)大(dà)模型就(jiù)是( shì)一个(gè)通过(guò)大(dà)量算力,让模型吃各种数据的(de)炼丹过(guò)程。

在(zài)这(zhè)个(gè)炼丹期,需要(yào)的(de)是( shì)大(dà)量算力和(hé)时(shí)间往里砸。

所以(yǐ)在(zài)圈子(zǐ)里有(yǒu)了一个(gè)新的(de)计量单位 “GPU 时(shí) ” ,也(yě)就(jiù)是( shì)用了多少块 GPU 花了多少个(gè)小时(shí)的(de)训练时(shí)间。

GPU 时(shí)越高,意味着花费的(de)时(shí)间、金钱成本就(jiù)越高,反之(zhī)就(jiù)物美价廉了。

前面说(shuō)的(de)此前开源模型王者, Llama 三.一 四0五B ,训练周期花费了 三0八0 万 GPU 时(shí)。

可(kě)性能(néng)更强的(de) V三 ,只花了不(bù)到() 二八0 万 GPU 时(shí)

以(yǐ)钱来(lái)换算, DeepSeek 搞出(chū) V三 版本,大(dà)概只花了 四000 多万人(rén)民币。

而(ér) Llama 三.一 四0五B 的(de)训练期间, Meta 光是( shì)在(zài)老黄那(nà)买了 一六000 多个(gè) GPU ,保守估计至少都花了一0几亿人(rén)民币。

 至于(yú)另外的(de)那(nà)几家(jiā)闭源模型,动辄都是( shì)几一0亿上(shàng)百亿大(dà)撒币的(de)。

你(nǐ)别以(yǐ)为(wéi / wèi) DeepSeek 靠的(de)是( shì)什么歪门邪道(dào),人(rén)家(jiā)是( shì)正儿八经的(de)有(yǒu)技术傍身的(de)。

为(wéi / wèi)了搞清楚 DeepSeek 的(de)技术咋样,咱们(men)特地(dì)联系了语核科技创始人(rén)兼 CTO 池光耀,他(tā)们(men)主力发展企业向的(de) agent 数字人(rén),早就(jiù)是( shì) DeepSeek 的(de)铁粉了。

池光耀告诉我(wǒ)们(men),这(zhè)次 V三 的(de)更新主要(yào)是( shì) 三 个(gè)方面的(de)优化,分别是( shì)通信和(hé)显存优化推理专家(jiā)的(de)负载均衡以(yǐ)及FP八 混合精度训练

各个(gè)部分怎么实现的(de)咱也(yě)就(jiù)不(bù)多说(shuō)了,总体来(lái)说(shuō),大(dà)的(de)整体结构没啥变化,更多的(de)像是( shì)咱们(men)搞基建的(de)那(nà)一套传统艺能(néng),把工程做得更高效、更合理了。

首先, V三 通过(guò)通信和(hé)显存优化,极大(dà)幅度减少了资源空闲率,提升了利用效率。

而(ér)推理专家(jiā)( 具备推理能(néng)力的(de) AI 系统或算法,能(néng)够通过(guò)数据分析得出(chū)结论 )的(de)负载均衡就(jiù)更巧妙了,一般的(de)大(dà)模型,每次启动,必须把所有(yǒu)专家(jiā)都等比例放进工位( 显存 ),但真正回答用户问题时(shí),一0几个(gè)专家(jiā)里面只用到()一两个(gè),剩下(xià)的(de)专家(jiā)占着工位( 显存 )摸鱼,也(yě)干不(bù)了别的(de)事(shì)情。

 而(ér) DeepSeek 把专家(jiā)分成热门和(hé)冷门两种,热门的(de)专家(jiā),复制一份放进显存,处理热门问题;冷门的(de)专家(jiā)也(yě)不(bù)摸鱼,总是( shì)能(néng)被分配到()问题。

FP八 混合精度训练则是( shì)在(zài)之(zhī)前被很多团队尝试无果的(de)方向上(shàng)拓展了新的(de)一步,通过(guò)降低训练精度以(yǐ)降低训练时(shí)算力开销,但却神奇地(dì)保持了回答质量基本不(bù)变。

也(yě)正是( shì)这(zhè)些技术上(shàng)的(de)革新,才得到()了大(dà)模型圈的(de)一致好(hao)评。

通过(guò)一直以(yǐ)来(lái)的(de)技术更新迭代, DeepSeek 收获的(de)回报也(yě)是( shì)相当惊人(rén)的(de)。

他(tā)们(men) V三 版本推出(chū)后(hòu),他(tā)们(men)的(de)价格已经是( shì)低到()百万次几毛钱、几块钱

他(tā)们(men)甚至还在(zài)搞了个(gè)新品促销活动,到()明年(nián) 二 月 八 号之(zhī)前,在(zài)原来(lái)低价的(de)基础上(shàng)再打折。

而(ér)一开始提到()同样开源的(de) Claude 三.五 Sonnet ,每百万输入输出(chū),至少都得要(yào)几一0块以(yǐ)上(shàng)。。。

更要(yào)命的(de)是( shì),这(zhè)对(duì) DeepSeek 来(lái)说(shuō)已经是( shì)常规套路了。

早在(zài)去(qù)年(nián)初,DeepSeek V二 模型发布后(hòu),就(jiù)靠着一手低价,被大(dà)家(jiā)叫做了AI 界拼多多。

他(tā)们(men)还进一步引发了国(guó)内大(dà)模型公司的(de)价格战,诸如智谱、字节、阿里、百度、腾讯等大(dà)厂纷纷降价。

池光耀也(yě)告诉我(wǒ)们(men),他(tā)们(men)公司早在(zài)去(qù)年(nián) 六 、 七 月份就(jiù)开始用上(shàng)了 DeepSeek ,当时(shí)也(yě)有(yǒu)国(guó)内其他(tā)一些大(dà)模型厂商来(lái)找过(guò)他(tā)们(men)。

 但和(hé) DeepSeek 价格差不(bù)多的(de),模型 “ 又太笨了,跟 DeepSeek 不(bù)在(zài)一个(gè)维度 ” ;如果模型能(néng)力和(hé) DeepSeek 差不(bù)多,那(nà)个(gè)价格 “ 基本都是( shì) 一0 倍以(yǐ)上(shàng) ” 。

更夸张的(de)是( shì),由于(yú)技术 “ 遥遥领先 ” 带来(lái)的(de)降本增效,哪怕 DeepSeek 卖得这(zhè)么便宜,根据他(tā)们(men)创始人(rén)梁文峰所说(shuō),他(tā)们(men)公司还是( shì)赚钱的(de)。。。是( shì)不(bù)是( shì)有(yǒu)种隔壁比亚迪搞 九九八 ,照样财报飘红的(de)味道(dào)了。

不(bù)过(guò)对(duì)于(yú)我(wǒ)们(men)普通用户来(lái)说(shuō), DeepSeek 似乎也(yě)有(yǒu)点偏门了。

因为(wéi / wèi)他(tā)的(de)强项主要(yào)是( shì)在(zài)推理、数学、代码方向,而(ér)多模态和(hé)一些娱乐化的(de)领域不(bù)是( shì)他(tā)们(men)的(de)长处。

而(ér)且眼下(xià),尽管 DeepSeek 说(shuō)自(zì)己还是( shì)赚钱的(de),但他(tā)们(men)团队上(shàng)上(shàng)下(xià)下(xià)都有(yǒu)股极客味,所以(yǐ)他(tā)们(men)的(de)商业化比起其他(tā)厂商就(jiù)有(yǒu)点弱了。

但不(bù)管怎么说(shuō), DeepSeek 的(de)成功也(yě)证明了,在(zài) AI 这(zhè)个(gè)赛道(dào)还存在(zài)的(de)更多的(de)可(kě)能(néng)。

按以(yǐ)前的(de)理解,想玩转 AI 后(hòu)面没有(yǒu)个(gè)金主爸爸砸钱买显卡,压根就(jiù)玩不(bù)转。

但现在(zài)看起来(lái),掌握了算力并不(bù)一定就(jiù)是( shì)掌握了一切。

我(wǒ)们(men)不(bù)妨期待下(xià)未来(lái),更多的(de)优化出(chū)现,让更多的(de)小公司、初创企业都能(néng)进入 AI 领域,差评君总感觉,那(nà)才是( shì)真正的(de) AI 浪潮才对(duì)。

版权说明

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门