在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

華中科技大學(xué)與字節(jié)跳動(dòng)攜手:深度混合注意力機(jī)制為AI發(fā)展注入新動(dòng)力

   發(fā)布時(shí)間:2026-03-26 05:42 作者:楊凌霄

在人工智能領(lǐng)域,大型語言模型的發(fā)展正面臨一個(gè)關(guān)鍵挑戰(zhàn):隨著網(wǎng)絡(luò)層數(shù)的不斷增加,模型在處理早期信息時(shí)會(huì)出現(xiàn)明顯的衰減現(xiàn)象,就像人類在長(zhǎng)對(duì)話中逐漸遺忘開頭的重要內(nèi)容。針對(duì)這一難題,華中科技大學(xué)電子信息與通信學(xué)院與字節(jié)跳動(dòng)Seed團(tuán)隊(duì)聯(lián)合研發(fā)出一種創(chuàng)新的深度混合注意力機(jī)制(MoDA),為構(gòu)建更強(qiáng)大的AI系統(tǒng)提供了新的技術(shù)路徑。

研究團(tuán)隊(duì)深入分析了現(xiàn)有解決方案的局限性。傳統(tǒng)的殘差連接方法雖然能夠幫助訓(xùn)練更深層的網(wǎng)絡(luò),但會(huì)將所有歷史信息壓縮成單一的記憶線索,導(dǎo)致重要信息在傳遞過程中逐漸丟失。而密集連接方法雖然能夠完整保留歷史信息,卻需要承受內(nèi)存和計(jì)算開銷呈平方級(jí)增長(zhǎng)的代價(jià),這在大型模型中難以實(shí)際應(yīng)用。針對(duì)這些痛點(diǎn),MoDA機(jī)制創(chuàng)造性地讓每個(gè)網(wǎng)絡(luò)層既能處理當(dāng)前序列信息,又能有選擇地回顧之前所有層的關(guān)鍵信息。

MoDA的核心創(chuàng)新在于將序列級(jí)注意力和深度級(jí)注意力融合到統(tǒng)一的softmax操作中。具體實(shí)現(xiàn)上,每個(gè)注意力頭不僅關(guān)注當(dāng)前層的序列鍵值對(duì),還能訪問所有前置層的深度鍵值對(duì)。這種設(shè)計(jì)使模型能夠根據(jù)任務(wù)需求,自適應(yīng)地分配注意力權(quán)重到序列信息和深度信息上。研究團(tuán)隊(duì)通過精心設(shè)計(jì)的掩碼機(jī)制,確保了信息訪問的因果性約束,同時(shí)開發(fā)了輕量級(jí)的鍵值投影方法,使深度流中既包含注意力層信息,也包含前饋網(wǎng)絡(luò)層信息。

在效率優(yōu)化方面,研究團(tuán)隊(duì)取得了顯著突破。他們提出的塊感知深度鍵值布局將查詢分成塊,每個(gè)塊只訪問對(duì)應(yīng)的局部深度鍵值區(qū)域,大幅減少了不必要內(nèi)存?zhèn)鬏敗Mㄟ^分組查詢注意力特性設(shè)計(jì)的組感知計(jì)算方法,進(jìn)一步將有效深度利用率提升至新水平。這些創(chuàng)新使MoDA在64K序列長(zhǎng)度下的運(yùn)行效率達(dá)到FlashAttention-2的97.3%,同時(shí)將參數(shù)復(fù)雜度優(yōu)化至最低水平。

實(shí)驗(yàn)數(shù)據(jù)顯示,MoDA在多個(gè)評(píng)估維度上表現(xiàn)出色。在1.5B參數(shù)規(guī)模的模型測(cè)試中,相比基線模型在10個(gè)驗(yàn)證基準(zhǔn)上平均困惑度降低0.2,在10個(gè)下游任務(wù)上平均性能提升2.11%,而計(jì)算開銷僅增加3.7%。注意力可視化分析揭示,模型確實(shí)在深度鍵值塊上分配了持續(xù)的注意力權(quán)重,特別是在中間層和后期層。不同類型的注意力頭展現(xiàn)出互補(bǔ)的工作模式,共同處理局部序列依賴和全局深度信息。

研究還發(fā)現(xiàn),MoDA在不同深度配置下均能穩(wěn)定提升性能。在48層深層模型測(cè)試中,后歸一化配置從深度鍵值中獲得的收益比預(yù)歸一化配置更大,驗(yàn)證損失改善達(dá)0.0409。效率優(yōu)化實(shí)驗(yàn)表明,三種核心實(shí)現(xiàn)策略的結(jié)合相比基礎(chǔ)實(shí)現(xiàn)實(shí)現(xiàn)了約1458倍的端到端加速,充分證明了硬件感知設(shè)計(jì)的重要性。

針對(duì)工業(yè)化部署挑戰(zhàn),研究團(tuán)隊(duì)提出了有界深度鍵值槽緩存的創(chuàng)新思路。該方案使用固定大小的深度鍵值槽緩沖區(qū),通過動(dòng)態(tài)選擇或滑動(dòng)窗口策略管理深度記憶,將內(nèi)存和帶寬開銷從深度依賴擴(kuò)展轉(zhuǎn)變?yōu)椴垡蕾嚁U(kuò)展。這種設(shè)計(jì)不僅為融合內(nèi)核實(shí)現(xiàn)提供了穩(wěn)定的張量形狀,還為超大規(guī)模模型訓(xùn)練中的內(nèi)存管理提供了新的解決方案。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容