首页 公众号手机端

谷歌DeepMind推出(chū)Mixture of Depths

sss001 2个月前 (11-16) 阅读数 20 #未命名
[CommentView]

日前有(yǒu)消息显示,谷歌DeepMind方面发布的(de)Mixture-of-Depths(MoD),改变了以(yǐ)往Transformer架构的(de)计算模式。

据了解,通过(guò)动态分配大(dà)模型中(zhōng)的(de)FLOPs(运算次数或计算资源),优化不(bù)同层次模型深度中(zhōng)的(de)分配,限制给定层的(de)自(zì)注意力和(hé)MLP计算的(de)token数量,MoD可(kě)跳过(guò)一些不(bù)必要(yào)计算,迫使神经网络学会(huì)主要(yào)关注真正重要(yào)的(de)信息, 实现只给需要(yào)准确预测的(de)token分配更多计算资源,从而(ér)显著提高训练效率和(hé)推理速度。

例如,虽然预测下(xià)一个(gè)句子(zǐ)的(de)内容很难,但预测句子(zǐ)结束的(de)标点符号很简单,如果给两者分配同样的(de)计算资源,那(nà)么后(hòu)者明显会(huì)浪费资源、而(ér)MoD则可(kě)避免这(zhè)种情况。

据谷歌方面发布的(de)相关测试结果显示,在(zài)等效计算量和(hé)训练时(shí)间上(shàng),MoD每次向前传播所需的(de)计算量更小,而(ér)且后(hòu)训练采样过(guò)程中(zhōng)步进速度提高五0%。

据了解,谷歌研究团队还探讨了MoD和(hé)MoE结合的(de)可(kě)能(néng)性MoDE,而(ér)且结果表明而(ér)这(zhè)一结合能(néng)提供更好(hao)的(de)性能(néng)和(hé)更快的(de)推理速度。

此外值得一提的(de)是( shì),为(wéi / wèi)解决AI幻觉问题,不(bù)久前谷歌DeepMind还与斯坦福大(dà)学联合开了一款AI事(shì)实核查工具“搜索增强事(shì)实评估器”(Search-Augmented Factuality Evaluator,SAFE)。

据了解,SAFE可(kě)通过(guò)四个(gè)步骤对(duì)AI聊天(tiān)机器人(rén)生(nián)成的(de)回复进行(xíng)分析、处理和(hé)评估,以(yǐ)验证其准确性和(hé)真实性。具体而(ér)言,SAFE首先会(huì)将回复分割成多个(gè)单个(gè)待核查内容、对(duì)上(shàng)述内容进行(xíng)修正,然后(hòu)再与谷歌搜索结果进行(xíng)比较。随后(hòu),SAFE还会(huì)检查各个(gè)事(shì)实与原始问题的(de)相关性。

为(wéi / wèi)评估SAFE性能(néng),谷歌方面的(de)研究人(rén)员还创建了包含约一六000个(gè)事(shì)实的(de)数据集LongFact,并在(zài)包括Claude、Gemini、GPT、PaLM-二在(zài)内的(de)一三个(gè)大(dà)语言模型上(shàng)测试了这(zhè)一工具。结果显示,在(zài)对(duì)一00个(gè)有(yǒu)争议事(shì)实进行(xíng)的(de)重点分析中(zhōng),SAFE的(de)判定在(zài)进一步审查下(xià)正确率达到()七六% 。与此同时(shí),SAFE还具备显著的(de)经济性优势,即其成本比人(rén)工注释便宜二0多倍。

稿源:新浪网

顶一下(xià) ▲()   踩一下(xià) ▼()
[/CommentView]
版权说明

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门