在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

阿里未來(lái)生活實(shí)驗(yàn)室新突破:專家分化學(xué)習(xí)讓MoE模型專家“各顯神通”

   發(fā)布時(shí)間:2026-03-01 03:00 作者:周偉

在大模型技術(shù)飛速發(fā)展的當(dāng)下,混合專家模型(MoE)已成為眾多頂尖模型的核心架構(gòu)。從備受矚目的GPT - 5到性能卓越的DeepSeek - V3,MoE的身影無(wú)處不在。然而,一個(gè)關(guān)鍵問(wèn)題逐漸浮現(xiàn):模型中的眾多“專家”是否都在有效發(fā)揮各自的專業(yè)能力,還是存在大量重復(fù)工作?

在MoE預(yù)訓(xùn)練過(guò)程中,原本期望不同專家能“各司其職”,但實(shí)際情況卻是專家們出現(xiàn)了“同質(zhì)化”現(xiàn)象,即不同專家處理任務(wù)的方式和結(jié)果趨于一致。這一現(xiàn)象被學(xué)術(shù)界稱為“專家同質(zhì)化”,它直接導(dǎo)致MoE模型參數(shù)利用不充分,限制了模型的擴(kuò)展能力。阿里巴巴研究團(tuán)隊(duì)深入探究后發(fā)現(xiàn),MoE預(yù)訓(xùn)練過(guò)程中的信息缺失是造成這一問(wèn)題的根源。

為解決這一難題,阿里巴巴研究團(tuán)隊(duì)提出了一種創(chuàng)新的專家分化學(xué)習(xí)策略。該策略巧妙利用預(yù)訓(xùn)練數(shù)據(jù)中天然存在的“領(lǐng)域標(biāo)簽”,設(shè)計(jì)出全新的輔助損失函數(shù)。此函數(shù)通過(guò)鼓勵(lì)不同領(lǐng)域的Token在路由統(tǒng)計(jì)信息上呈現(xiàn)差異,引導(dǎo)專家發(fā)展出真正的專業(yè)能力,從而有效避免專家同質(zhì)化。

傳統(tǒng)MoE訓(xùn)練中,負(fù)載均衡損失雖能提高總的路由多樣性,但存在明顯缺陷。它只關(guān)注所有專家是否都被使用,而不考慮具體使用情況,如同公司發(fā)獎(jiǎng)金只看重員工是否忙碌,而不關(guān)注工作是否重復(fù)。這種“盲目”的提升方式,使得模型傾向于通過(guò)增加域內(nèi)多樣性來(lái)應(yīng)付,而非增加域間多樣性,導(dǎo)致專家無(wú)法真正分化。

阿里巴巴團(tuán)隊(duì)提出的專家分化學(xué)習(xí)策略,核心在于一種名為專家分化損失(LED)的訓(xùn)練目標(biāo)函數(shù)。其設(shè)計(jì)基于一個(gè)關(guān)鍵的數(shù)學(xué)原理——多樣性分解定理,即總多樣性等于域間多樣性加上域內(nèi)多樣性。LED的目標(biāo)是精準(zhǔn)鎖定并最大化域間多樣性,通過(guò)最大化不同領(lǐng)域之間的“排斥力”,將總多樣性的額度分配給“域間差異”,迫使專家實(shí)現(xiàn)功能分化。

為驗(yàn)證分化學(xué)習(xí)的效果,研究團(tuán)隊(duì)構(gòu)建了兩種不同粒度的領(lǐng)域標(biāo)簽體系進(jìn)行實(shí)驗(yàn)。一種是粗粒度的3 - Class體系,簡(jiǎn)單分為英文、中文、數(shù)學(xué);另一種是細(xì)粒度的49 - Class體系,利用分類器將數(shù)據(jù)細(xì)分為49個(gè)具體主題,如物理、歷史、計(jì)算機(jī)科學(xué)等。實(shí)驗(yàn)結(jié)果顯示,使用49類細(xì)粒度標(biāo)簽訓(xùn)練的模型性能顯著優(yōu)于使用3類標(biāo)簽的模型,表明給專家的分工指令越具體,MoE模型涌現(xiàn)出的專業(yè)能力越強(qiáng)。

在3B、8B、15B三種規(guī)模的模型上,研究團(tuán)隊(duì)進(jìn)行了長(zhǎng)達(dá)100B Tokens的從零預(yù)訓(xùn)練。在預(yù)訓(xùn)練階段最重要的訓(xùn)練損失對(duì)比中,專家分化學(xué)習(xí)在語(yǔ)言建模損失上展現(xiàn)出穩(wěn)定且顯著的訓(xùn)練收益。在MMLU、C - eval、CMMLU、ARC等7個(gè)主流基準(zhǔn)測(cè)試中,搭載專家分化學(xué)習(xí)的模型全面超越標(biāo)準(zhǔn)MoE基線。特別是在15B模型上,細(xì)粒度策略帶來(lái)的平均分提升超過(guò)1個(gè)百分點(diǎn),這在預(yù)訓(xùn)練領(lǐng)域通常意味著數(shù)百億Token的訓(xùn)練差距。

為直觀展示專家分化效果,研究團(tuán)隊(duì)繪制了三角單純形圖。圖中三角形三個(gè)頂點(diǎn)分別代表“數(shù)學(xué)”“中文”“英文”三個(gè)純粹領(lǐng)域。左圖(基線模型)中,所有點(diǎn)都集中在三角形中間,說(shuō)明無(wú)論輸入何種領(lǐng)域,激活的專家都差不多,專家為“通用工”;右圖(采用專家分化學(xué)習(xí)的模型)中,點(diǎn)明顯向三角形頂點(diǎn)發(fā)散,緊貼邊緣,證明處理不同領(lǐng)域的專家已完全分化,實(shí)現(xiàn)了真正的專精特新。

值得一提的是,LED計(jì)算十分輕量級(jí),僅涉及Router輸出的低維向量運(yùn)算。實(shí)驗(yàn)數(shù)據(jù)顯示,相比標(biāo)準(zhǔn)MoE,新方法的訓(xùn)練吞吐量幾乎沒(méi)有下降,且額外推理成本為零。這一成果表明,通過(guò)重新思考MoE中“專家”的定義,利用數(shù)據(jù)中的“領(lǐng)域結(jié)構(gòu)”作為監(jiān)督信號(hào),能有效挖掘MoE潛力,為預(yù)訓(xùn)練技術(shù)發(fā)展提供了新思路。

 
 
更多>同類內(nèi)容
全站最新
熱門(mén)內(nèi)容