近日,新加坡國家人工智能計(jì)劃聯(lián)合阿里巴巴推出了一款面向東南亞市場的多語言大模型——Qwen-SEA-LION-v4。該模型以阿里巴巴開源的“通義千問”框架為基礎(chǔ),通過針對性優(yōu)化,成功突破了東南亞地區(qū)語言多樣性帶來的技術(shù)瓶頸,成為全球首個(gè)在該領(lǐng)域?qū)崿F(xiàn)突破的AI解決方案。
東南亞地區(qū)語言生態(tài)復(fù)雜,現(xiàn)存超過1200種語言,日常交流中常出現(xiàn)多語言混用現(xiàn)象。然而,現(xiàn)有主流AI模型多以英語為核心開發(fā),難以適配東南亞本土需求,導(dǎo)致該地區(qū)長期面臨“AI服務(wù)斷層”問題。此次中新聯(lián)合研發(fā)的模型通過技術(shù)革新,首次在“東南亞語言模型全面評估基準(zhǔn)”(SEA-HELM)的2000億參數(shù)量以下開源模型榜單中奪得榜首,標(biāo)志著區(qū)域性AI技術(shù)實(shí)現(xiàn)重大突破。
研發(fā)團(tuán)隊(duì)透露,Qwen-SEA-LION-v4的預(yù)訓(xùn)練階段已覆蓋119種語言,特別針對東南亞小語種進(jìn)行數(shù)據(jù)增強(qiáng)。在后訓(xùn)練階段,團(tuán)隊(duì)通過增加跨語言任務(wù)權(quán)重,使模型具備處理混合語言輸入的能力。例如,在輸入包含馬來語、泰語和英語的復(fù)雜語句時(shí),模型仍能準(zhǔn)確理解語義并生成符合語境的回應(yīng)。
為推動技術(shù)普惠,該模型已通過AISingapore官網(wǎng)及HuggingFace開源社區(qū)向全球開放下載。開發(fā)者可基于模型進(jìn)行二次開發(fā),應(yīng)用于教育、醫(yī)療、政務(wù)等多個(gè)場景。此前,東南亞地區(qū)因語言障礙導(dǎo)致AI應(yīng)用成本高昂,此次開源有望降低本地化服務(wù)門檻,加速區(qū)域數(shù)字化轉(zhuǎn)型進(jìn)程。




















