显卡可（kě）能（néng）没那（nà）么重要（yào）了中（zhōng）国（guó）公司给硅谷好（hao）好（hao）上（shàng）了一课

sss001 2周前 (01-04) 阅读数 6 #丑闻热瓜

我（wǒ）是（ shì）万万没想到（），就（jiù）在（zài）西方还沉浸在（zài）圣诞假期，疯狂 “ 过（guò）年（nián） ” 的（de）时（shí）候，咱们（men）中（zhōng）国（guó）企业给人（rén）家（jiā）放了个（gè）新年（nián）二踢脚，给人（rén）家（jiā）脑瓜子（zǐ）崩得嗡嗡得。

前有（yǒu）宇树科技的（de）机器狗视频让大（dà）家（jiā）惊呼，还要（yào）啥波士顿动力。

紧接着又来（lái）了个（gè）国（guó）产大（dà）模型 DeepSeek，甚至有（yǒu）股做空英伟达的（de）味道（dào）。

具体咋回事（shì）儿，咱给你（nǐ）唠明白咯。

前几天（tiān）， DeepSeek 刚刚公布最新版本 V三，注意，与大（dà）洋彼岸那（nà）个（gè）自（zì）称 Open ，却越来（lái）越 Close 的（de）公司产品不（bù）同，这（zhè）个（gè） V三是（ shì）开源的（de）。

不（bù）过（guò）开源还不（bù）是（ shì）他（tā）最重要（yào）的（de）标签， DeepSeek-V三（以（yǐ）下（xià）简称 V三）还兼具了性能（néng）国（guó）际一流，技术力牛逼，价格击穿地（dì）心三个（gè）特点，这（zhè）一套不（bù）解释连招打得业内大（dà）模型厂商们（men）都有（yǒu）点晕头转向了。

V三一发布， OpenAI 创始成员 Karpathy 直接看嗨了，甚至发出（chū）了灵魂提问，难道（dào）说（shuō）大（dà）模型们（men）压根不（bù）需要（yào）大（dà）规模显卡集群？

我（wǒ）估计老黄看到（）这（zhè）头皮都得发麻了吧。

同时（shí）， Meta 的（de） AI 技术官也（yě）是（ shì）直呼 DeepSeek 的（de）成果伟大（dà）。

知名 AI 评测博主 Tim Dettmers ，直接吹起来（lái）了，表示 DeepSeek 的（de）处理优雅 “elegant” 。

而（ér）在（zài）这（zhè）些技术出（chū）身的（de）人（rén），看着 V三的（de）成绩送去（qù）赞扬的（de）时（shí）候，也（yě）有（yǒu）些人（rén）急了。

比如奥特曼就（jiù）搁那（nà）说（shuō），复制比较简单啦，很难不（bù）让人（rén）觉得他（tā）在（zài）内涵 DeepSeek 。

更有（yǒu）意思的（de）是（ shì），做到（）这（zhè）些的（de）公司既不（bù）是（ shì）什么大（dà）厂，也（yě）不（bù）是（ shì）纯血 AI 厂商。

DeepSeek 公司中（zhōng）文名叫深度求索，他（tā）们（men）本来（lái）和（hé） AI 没任何关系。

就（jiù）在（zài）大（dà）模型爆火之（zhī）前，他（tā）们（men）其实是（ shì）私募机构幻方量化的（de）一个（gè）团队。

而（ér）深度求索能（néng）够实现弯道（dào）超车，既有（yǒu）点必然，也（yě）好（hao）像有（yǒu）点运气的（de）意思。

早在（zài）二0一九年（nián），幻方就（jiù）投资二亿元搭建了自（zì）研深度学习训练平台 “ 萤火虫一号 ” ，到（）了二0二一年（nián）已经买了足足一万丈英伟达 A一00 显卡的（de）算力储备了。

要（yào）知道（dào），这（zhè）个（gè）时（shí）候大（dà）模型没火，万卡集群的（de）概念更是（ shì）还没出（chū）现。

而（ér）正是（ shì）凭借这（zhè）部分硬件储备，幻方才拿到（）了 AI 大（dà）模型的（de）入场券，最终卷出（chū）了现在（zài）的（de） V三。

你（nǐ）说（shuō）好（hao）好（hao）的（de）一个（gè）量化投资领域的（de）大（dà）厂，干嘛要（yào）跑来（lái）搞 AI 呢？

深度求索的（de） CEO 梁文锋在（zài）接受采访的（de）时（shí）候给大（dà）家（jiā）聊过（guò），并不（bù）是（ shì）什么看中（zhōng） AI 前景。

而（ér）是（ shì）在（zài）他（tā）们（men）看来（lái）， “ 通用人（rén）工智能（néng）可（kě）能（néng）是（ shì）下（xià）一个（gè）最难的（de）事（shì）之（zhī）一 ” ，对（duì）他（tā）们（men）来（lái）说（shuō）， “ 这（zhè）是（ shì）一个（gè）怎么做的（de）问题，而（ér）不（bù）是（ shì）为（wéi / wèi）什么做的（de）问题。 ”

就（jiù）是（ shì）抱着这（zhè）么股 “ 莽 ” 劲，深度求索才搞出（chū）了这（zhè）次的（de）大（dà）新闻，下（xià）面给大（dà）家（jiā）具体讲讲 V三有（yǒu）啥特别的（de）地（dì）方。

首先就（jiù）是（ shì）性能（néng）强悍，目前来（lái）看，在（zài） V三面前，开源模型几乎没一个（gè）能（néng）打的（de）。

还记得去（qù）年（nián）年（nián）中（zhōng），小扎的（de） Meta 推出（chū）模型 Llama 三.一，当时（shí）就（jiù）因为（wéi / wèi）性能（néng）优秀而（ér）且开源，一时（shí）间被捧上（shàng）神坛，结果在（zài） V三手里，基本是（ shì）全面落败。

而（ér）在（zài）各种大（dà）厂手里的（de）闭源模型，那（nà）些大（dà）家（jiā）耳熟能（néng）详的（de）什么 GPT-四o 、 Claude 三.五 Sonnet 啥的（de）， V三也（yě）能（néng）打得有（yǒu）来（lái）有（yǒu）回。

你（nǐ）看到（）这（zhè），可（kě）能（néng）觉得不（bù）过（guò）如此，也（yě）就（jiù）是（ shì）追上（shàng）了国（guó）际领先水平嘛，值得这（zhè）么吹吗？

残暴的（de）还在（zài）后（hòu）面。

大（dà）家（jiā）大（dà）概都知道（dào）了，现在（zài）的（de）大（dà）模型就（jiù）是（ shì）一个（gè）通过（guò）大（dà）量算力，让模型吃各种数据的（de）炼丹过（guò）程。

在（zài）这（zhè）个（gè）炼丹期，需要（yào）的（de）是（ shì）大（dà）量算力和（hé）时（shí）间往里砸。

所以（yǐ）在（zài）圈子（zǐ）里有（yǒu）了一个（gè）新的（de）计量单位 “GPU 时（shí） ” ，也（yě）就（jiù）是（ shì）用了多少块 GPU 花了多少个（gè）小时（shí）的（de）训练时（shí）间。

GPU 时（shí）越高，意味着花费的（de）时（shí）间、金钱成本就（jiù）越高，反之（zhī）就（jiù）物美价廉了。

前面说（shuō）的（de）此前开源模型王者， Llama 三.一四0五B ，训练周期花费了三0八0 万 GPU 时（shí）。

可（kě）性能（néng）更强的（de） V三，只花了不（bù）到（）二八0 万 GPU 时（shí）。

以（yǐ）钱来（lái）换算， DeepSeek 搞出（chū） V三版本，大（dà）概只花了四000 多万人（rén）民币。

而（ér） Llama 三.一四0五B 的（de）训练期间， Meta 光是（ shì）在（zài）老黄那（nà）买了一六000 多个（gè） GPU ，保守估计至少都花了一0几亿人（rén）民币。

至于（yú）另外的（de）那（nà）几家（jiā）闭源模型，动辄都是（ shì）几一0亿上（shàng）百亿大（dà）撒币的（de）。

你（nǐ）别以（yǐ）为（wéi / wèi） DeepSeek 靠的（de）是（ shì）什么歪门邪道（dào），人（rén）家（jiā）是（ shì）正儿八经的（de）有（yǒu）技术傍身的（de）。

为（wéi / wèi）了搞清楚 DeepSeek 的（de）技术咋样，咱们（men）特地（dì）联系了语核科技创始人（rén）兼 CTO 池光耀，他（tā）们（men）主力发展企业向的（de） agent 数字人（rén），早就（jiù）是（ shì） DeepSeek 的（de）铁粉了。

池光耀告诉我（wǒ）们（men），这（zhè）次 V三的（de）更新主要（yào）是（ shì）三个（gè）方面的（de）优化，分别是（ shì）通信和（hé）显存优化、推理专家（jiā）的（de）负载均衡以（yǐ）及FP八混合精度训练。

各个（gè）部分怎么实现的（de）咱也（yě）就（jiù）不（bù）多说（shuō）了，总体来（lái）说（shuō），大（dà）的（de）整体结构没啥变化，更多的（de）像是（ shì）咱们（men）搞基建的（de）那（nà）一套传统艺能（néng），把工程做得更高效、更合理了。

首先， V三通过（guò）通信和（hé）显存优化，极大（dà）幅度减少了资源空闲率，提升了利用效率。

而（ér）推理专家（jiā）（具备推理能（néng）力的（de） AI 系统或算法，能（néng）够通过（guò）数据分析得出（chū）结论）的（de）负载均衡就（jiù）更巧妙了，一般的（de）大（dà）模型，每次启动，必须把所有（yǒu）专家（jiā）都等比例放进工位（显存），但真正回答用户问题时（shí），一0几个（gè）专家（jiā）里面只用到（）一两个（gè），剩下（xià）的（de）专家（jiā）占着工位（显存）摸鱼，也（yě）干不（bù）了别的（de）事（shì）情。

而（ér） DeepSeek 把专家（jiā）分成热门和（hé）冷门两种，热门的（de）专家（jiā），复制一份放进显存，处理热门问题；冷门的（de）专家（jiā）也（yě）不（bù）摸鱼，总是（ shì）能（néng）被分配到（）问题。

FP八混合精度训练则是（ shì）在（zài）之（zhī）前被很多团队尝试无果的（de）方向上（shàng）拓展了新的（de）一步，通过（guò）降低训练精度以（yǐ）降低训练时（shí）算力开销，但却神奇地（dì）保持了回答质量基本不（bù）变。

也（yě）正是（ shì）这（zhè）些技术上（shàng）的（de）革新，才得到（）了大（dà）模型圈的（de）一致好（hao）评。

通过（guò）一直以（yǐ）来（lái）的（de）技术更新迭代， DeepSeek 收获的（de）回报也（yě）是（ shì）相当惊人（rén）的（de）。

他（tā）们（men） V三版本推出（chū）后（hòu），他（tā）们（men）的（de）价格已经是（ shì）低到（）百万次几毛钱、几块钱。

他（tā）们（men）甚至还在（zài）搞了个（gè）新品促销活动，到（）明年（nián）二月八号之（zhī）前，在（zài）原来（lái）低价的（de）基础上（shàng）再打折。

而（ér）一开始提到（）同样开源的（de） Claude 三.五 Sonnet ，每百万输入输出（chū），至少都得要（yào）几一0块以（yǐ）上（shàng）。。。

更要（yào）命的（de）是（ shì），这（zhè）对（duì） DeepSeek 来（lái）说（shuō）已经是（ shì）常规套路了。

早在（zài）去（qù）年（nián）初，DeepSeek V二模型发布后（hòu），就（jiù）靠着一手低价，被大（dà）家（jiā）叫做了AI 界拼多多。

他（tā）们（men）还进一步引发了国（guó）内大（dà）模型公司的（de）价格战，诸如智谱、字节、阿里、百度、腾讯等大（dà）厂纷纷降价。

池光耀也（yě）告诉我（wǒ）们（men），他（tā）们（men）公司早在（zài）去（qù）年（nián）六、七月份就（jiù）开始用上（shàng）了 DeepSeek ，当时（shí）也（yě）有（yǒu）国（guó）内其他（tā）一些大（dà）模型厂商来（lái）找过（guò）他（tā）们（men）。

但和（hé） DeepSeek 价格差不（bù）多的（de），模型 “ 又太笨了，跟 DeepSeek 不（bù）在（zài）一个（gè）维度 ” ；如果模型能（néng）力和（hé） DeepSeek 差不（bù）多，那（nà）个（gè）价格 “ 基本都是（ shì）一0 倍以（yǐ）上（shàng） ” 。

更夸张的（de）是（ shì），由于（yú）技术 “ 遥遥领先 ” 带来（lái）的（de）降本增效，哪怕 DeepSeek 卖得这（zhè）么便宜，根据他（tā）们（men）创始人（rén）梁文峰所说（shuō），他（tā）们（men）公司还是（ shì）赚钱的（de）。。。是（ shì）不（bù）是（ shì）有（yǒu）种隔壁比亚迪搞九九八，照样财报飘红的（de）味道（dào）了。

不（bù）过（guò）对（duì）于（yú）我（wǒ）们（men）普通用户来（lái）说（shuō）， DeepSeek 似乎也（yě）有（yǒu）点偏门了。

因为（wéi / wèi）他（tā）的（de）强项主要（yào）是（ shì）在（zài）推理、数学、代码方向，而（ér）多模态和（hé）一些娱乐化的（de）领域不（bù）是（ shì）他（tā）们（men）的（de）长处。

而（ér）且眼下（xià），尽管 DeepSeek 说（shuō）自（zì）己还是（ shì）赚钱的（de），但他（tā）们（men）团队上（shàng）上（shàng）下（xià）下（xià）都有（yǒu）股极客味，所以（yǐ）他（tā）们（men）的（de）商业化比起其他（tā）厂商就（jiù）有（yǒu）点弱了。

但不（bù）管怎么说（shuō）， DeepSeek 的（de）成功也（yě）证明了，在（zài） AI 这（zhè）个（gè）赛道（dào）还存在（zài）的（de）更多的（de）可（kě）能（néng）。

按以（yǐ）前的（de）理解，想玩转 AI 后（hòu）面没有（yǒu）个（gè）金主爸爸砸钱买显卡，压根就（jiù）玩不（bù）转。

但现在（zài）看起来（lái），掌握了算力并不（bù）一定就（jiù）是（ shì）掌握了一切。

我（wǒ）们（men）不（bù）妨期待下（xià）未来（lái），更多的（de）优化出（chū）现，让更多的（de）小公司、初创企业都能（néng）进入 AI 领域，差评君总感觉，那（nà）才是（ shì）真正的（de） AI 浪潮才对（duì）。

版权说明

上一篇：四五0km/h全球最快高铁列车！CR四五0预计二年（nián）内可（kě）完成所有（yǒu）试验下一篇：探索每个（gè）人（rén）向往的（de）美好（hao）生（nián）活：从桃花源的（de）恬静到（）简单的（de）人（rén）际关系