阿里巴巴與新加坡國家人工智能計(jì)劃聯(lián)合推出的東南亞多語言大模型Qwen-SEA-LION-v4,近日在東南亞語言模型評(píng)估基準(zhǔn)SEA-HELM開源榜單(參數(shù)量2000億以下組別)中斬獲榜首。這款由中新科研團(tuán)隊(duì)共同研發(fā)的模型,標(biāo)志著區(qū)域性語言處理技術(shù)取得突破性進(jìn)展。
東南亞地區(qū)語言生態(tài)復(fù)雜,現(xiàn)存語言超過1200種,日常交流中多語言混用現(xiàn)象普遍。傳統(tǒng)AI模型多以英語為核心構(gòu)建,難以適應(yīng)本地化需求,導(dǎo)致區(qū)域AI應(yīng)用長期面臨技術(shù)壁壘。此次合作研發(fā)的Qwen-SEA-LION-v4,正是為破解這一難題而生。該模型以阿里巴巴"通義千問"開源框架為基礎(chǔ),通過針對(duì)性優(yōu)化大幅提升了對(duì)東南亞小語種的處理能力。
技術(shù)團(tuán)隊(duì)在模型構(gòu)建過程中采取雙階段策略:預(yù)訓(xùn)練階段覆蓋119種語言數(shù)據(jù),重點(diǎn)強(qiáng)化對(duì)緬甸語、馬來語、泰米爾語等區(qū)域性語言的語義理解;后訓(xùn)練階段則通過增加跨語言任務(wù)權(quán)重,使模型能夠準(zhǔn)確識(shí)別混合輸入中的不同語言成分。這種設(shè)計(jì)使模型在處理包含多種語言的復(fù)雜文本時(shí),展現(xiàn)出顯著優(yōu)于傳統(tǒng)模型的性能表現(xiàn)。
目前該模型已通過新加坡人工智能計(jì)劃官網(wǎng)及國際開源社區(qū)HuggingFace向全球開放下載。研發(fā)團(tuán)隊(duì)表示,模型開源將加速區(qū)域AI生態(tài)建設(shè),為東南亞數(shù)字經(jīng)濟(jì)發(fā)展提供底層技術(shù)支撐。此次突破不僅驗(yàn)證了中新科技合作的有效性,也為多語言環(huán)境下的AI應(yīng)用提供了新的技術(shù)范式。




















