谷歌DeepMind推出（chū）Mixture of Depths

sss001 2个月前 (11-16) 阅读数 20 #未命名

[CommentView]

日前有（yǒu）消息显示，谷歌DeepMind方面发布的（de）Mixture-of-Depths（MoD），改变了以（yǐ）往Transformer架构的（de）计算模式。

据了解，通过（guò）动态分配大（dà）模型中（zhōng）的（de）FLOPs（运算次数或计算资源），优化不（bù）同层次模型深度中（zhōng）的（de）分配，限制给定层的（de）自（zì）注意力和（hé）MLP计算的（de）token数量，MoD可（kě）跳过（guò）一些不（bù）必要（yào）计算，迫使神经网络学会（huì）主要（yào）关注真正重要（yào）的（de）信息，实现只给需要（yào）准确预测的（de）token分配更多计算资源，从而（ér）显著提高训练效率和（hé）推理速度。

例如，虽然预测下（xià）一个（gè）句子（zǐ）的（de）内容很难，但预测句子（zǐ）结束的（de）标点符号很简单，如果给两者分配同样的（de）计算资源，那（nà）么后（hòu）者明显会（huì）浪费资源、而（ér）MoD则可（kě）避免这（zhè）种情况。

据谷歌方面发布的（de）相关测试结果显示，在（zài）等效计算量和（hé）训练时（shí）间上（shàng），MoD每次向前传播所需的（de）计算量更小，而（ér）且后（hòu）训练采样过（guò）程中（zhōng）步进速度提高五0%。

据了解，谷歌研究团队还探讨了MoD和（hé）MoE结合的（de）可（kě）能（néng）性MoDE，而（ér）且结果表明而（ér）这（zhè）一结合能（néng）提供更好（hao）的（de）性能（néng）和（hé）更快的（de）推理速度。

此外值得一提的（de）是（ shì），为（wéi / wèi）解决AI幻觉问题，不（bù）久前谷歌DeepMind还与斯坦福大（dà）学联合开了一款AI事（shì）实核查工具“搜索增强事（shì）实评估器”（Search-Augmented Factuality Evaluator，SAFE）。

据了解，SAFE可（kě）通过（guò）四个（gè）步骤对（duì）AI聊天（tiān）机器人（rén）生（nián）成的（de）回复进行（xíng）分析、处理和（hé）评估，以（yǐ）验证其准确性和（hé）真实性。具体而（ér）言，SAFE首先会（huì）将回复分割成多个（gè）单个（gè）待核查内容、对（duì）上（shàng）述内容进行（xíng）修正，然后（hòu）再与谷歌搜索结果进行（xíng）比较。随后（hòu），SAFE还会（huì）检查各个（gè）事（shì）实与原始问题的（de）相关性。

为（wéi / wèi）评估SAFE性能（néng），谷歌方面的（de）研究人（rén）员还创建了包含约一六000个（gè）事（shì）实的（de）数据集LongFact，并在（zài）包括Claude、Gemini、GPT、PaLM-二在（zài）内的（de）一三个（gè）大（dà）语言模型上（shàng）测试了这（zhè）一工具。结果显示，在（zài）对（duì）一00个（gè）有（yǒu）争议事（shì）实进行（xíng）的（de）重点分析中（zhōng），SAFE的（de）判定在（zài）进一步审查下（xià）正确率达到（）七六% 。与此同时（shí），SAFE还具备显著的（de）经济性优势，即其成本比人（rén）工注释便宜二0多倍。

稿源：新浪网

顶一下（xià） ▲() 踩一下（xià） ▼()

[/CommentView]

版权说明

上一篇：暴雪网易官宣回归：二00万人（rén）预约《魔兽世界》下一篇：OpenAI放开限制，无需注册可（kě）使用ChatGPT

发表评论:取消回复

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

谷歌DeepMind推出（chū）Mixture of Depths

作者文章