天堂执法者亚洲帅哥,午夜国产精品福利网站

阿里未來(lái)生活實(shí)驗(yàn)室新突破：專家分化學(xué)習(xí)讓MoE模型專家“各顯神通”

發(fā)布時(shí)間：2026-03-01 03:00 來(lái)源：快訊作者：周偉

在大模型技術(shù)飛速發(fā)展的當(dāng)下，混合專家模型（MoE）已成為眾多頂尖模型的核心架構(gòu)。從備受矚目的GPT - 5到性能卓越的DeepSeek - V3，MoE的身影無(wú)處不在。然而，一個(gè)關(guān)鍵問(wèn)題逐漸浮現(xiàn)：模型中的眾多“專家”是否都在有效發(fā)揮各自的專業(yè)能力，還是存在大量重復(fù)工作？

在MoE預(yù)訓(xùn)練過(guò)程中，原本期望不同專家能“各司其職”，但實(shí)際情況卻是專家們出現(xiàn)了“同質(zhì)化”現(xiàn)象，即不同專家處理任務(wù)的方式和結(jié)果趨于一致。這一現(xiàn)象被學(xué)術(shù)界稱為“專家同質(zhì)化”，它直接導(dǎo)致MoE模型參數(shù)利用不充分，限制了模型的擴(kuò)展能力。阿里巴巴研究團(tuán)隊(duì)深入探究后發(fā)現(xiàn)，MoE預(yù)訓(xùn)練過(guò)程中的信息缺失是造成這一問(wèn)題的根源。

為解決這一難題，阿里巴巴研究團(tuán)隊(duì)提出了一種創(chuàng)新的專家分化學(xué)習(xí)策略。該策略巧妙利用預(yù)訓(xùn)練數(shù)據(jù)中天然存在的“領(lǐng)域標(biāo)簽”，設(shè)計(jì)出全新的輔助損失函數(shù)。此函數(shù)通過(guò)鼓勵(lì)不同領(lǐng)域的Token在路由統(tǒng)計(jì)信息上呈現(xiàn)差異，引導(dǎo)專家發(fā)展出真正的專業(yè)能力，從而有效避免專家同質(zhì)化。

傳統(tǒng)MoE訓(xùn)練中，負(fù)載均衡損失雖能提高總的路由多樣性，但存在明顯缺陷。它只關(guān)注所有專家是否都被使用，而不考慮具體使用情況，如同公司發(fā)獎(jiǎng)金只看重員工是否忙碌，而不關(guān)注工作是否重復(fù)。這種“盲目”的提升方式，使得模型傾向于通過(guò)增加域內(nèi)多樣性來(lái)應(yīng)付，而非增加域間多樣性，導(dǎo)致專家無(wú)法真正分化。

阿里巴巴團(tuán)隊(duì)提出的專家分化學(xué)習(xí)策略，核心在于一種名為專家分化損失（LED）的訓(xùn)練目標(biāo)函數(shù)。其設(shè)計(jì)基于一個(gè)關(guān)鍵的數(shù)學(xué)原理——多樣性分解定理，即總多樣性等于域間多樣性加上域內(nèi)多樣性。LED的目標(biāo)是精準(zhǔn)鎖定并最大化域間多樣性，通過(guò)最大化不同領(lǐng)域之間的“排斥力”，將總多樣性的額度分配給“域間差異”，迫使專家實(shí)現(xiàn)功能分化。

為驗(yàn)證分化學(xué)習(xí)的效果，研究團(tuán)隊(duì)構(gòu)建了兩種不同粒度的領(lǐng)域標(biāo)簽體系進(jìn)行實(shí)驗(yàn)。一種是粗粒度的3 - Class體系，簡(jiǎn)單分為英文、中文、數(shù)學(xué)；另一種是細(xì)粒度的49 - Class體系，利用分類器將數(shù)據(jù)細(xì)分為49個(gè)具體主題，如物理、歷史、計(jì)算機(jī)科學(xué)等。實(shí)驗(yàn)結(jié)果顯示，使用49類細(xì)粒度標(biāo)簽訓(xùn)練的模型性能顯著優(yōu)于使用3類標(biāo)簽的模型，表明給專家的分工指令越具體，MoE模型涌現(xiàn)出的專業(yè)能力越強(qiáng)。

在3B、8B、15B三種規(guī)模的模型上，研究團(tuán)隊(duì)進(jìn)行了長(zhǎng)達(dá)100B Tokens的從零預(yù)訓(xùn)練。在預(yù)訓(xùn)練階段最重要的訓(xùn)練損失對(duì)比中，專家分化學(xué)習(xí)在語(yǔ)言建模損失上展現(xiàn)出穩(wěn)定且顯著的訓(xùn)練收益。在MMLU、C - eval、CMMLU、ARC等7個(gè)主流基準(zhǔn)測(cè)試中，搭載專家分化學(xué)習(xí)的模型全面超越標(biāo)準(zhǔn)MoE基線。特別是在15B模型上，細(xì)粒度策略帶來(lái)的平均分提升超過(guò)1個(gè)百分點(diǎn)，這在預(yù)訓(xùn)練領(lǐng)域通常意味著數(shù)百億Token的訓(xùn)練差距。

為直觀展示專家分化效果，研究團(tuán)隊(duì)繪制了三角單純形圖。圖中三角形三個(gè)頂點(diǎn)分別代表“數(shù)學(xué)”“中文”“英文”三個(gè)純粹領(lǐng)域。左圖（基線模型）中，所有點(diǎn)都集中在三角形中間，說(shuō)明無(wú)論輸入何種領(lǐng)域，激活的專家都差不多，專家為“通用工”；右圖（采用專家分化學(xué)習(xí)的模型）中，點(diǎn)明顯向三角形頂點(diǎn)發(fā)散，緊貼邊緣，證明處理不同領(lǐng)域的專家已完全分化，實(shí)現(xiàn)了真正的專精特新。

值得一提的是，LED計(jì)算十分輕量級(jí)，僅涉及Router輸出的低維向量運(yùn)算。實(shí)驗(yàn)數(shù)據(jù)顯示，相比標(biāo)準(zhǔn)MoE，新方法的訓(xùn)練吞吐量幾乎沒(méi)有下降，且額外推理成本為零。這一成果表明，通過(guò)重新思考MoE中“專家”的定義，利用數(shù)據(jù)中的“領(lǐng)域結(jié)構(gòu)”作為監(jiān)督信號(hào)，能有效挖掘MoE潛力，為預(yù)訓(xùn)練技術(shù)發(fā)展提供了新思路。

更多>同類內(nèi)容