在第五屆字節(jié)跳動獎學(xué)金頒獎典禮上,字節(jié)跳動技術(shù)副總裁楊震原分享了公司自2014年以來在技術(shù)領(lǐng)域的探索歷程。作為一位資深技術(shù)愛好者,楊震原自2014年加入字節(jié)跳動后,從搭建推薦系統(tǒng)起步,至今已參與公司多項重大技術(shù)突破,帶領(lǐng)團隊在多個前沿領(lǐng)域取得顯著成果。
2014年,字節(jié)跳動在推薦系統(tǒng)領(lǐng)域設(shè)定了一個極具挑戰(zhàn)性的目標:實現(xiàn)萬億級特征規(guī)模。當時,工業(yè)界最大規(guī)模的機器學(xué)習(xí)系統(tǒng)主要用于搜索廣告,而將這套技術(shù)應(yīng)用于推薦系統(tǒng)面臨諸多難題。團隊不僅需要攻克系統(tǒng)建模和算法優(yōu)化等工程難題,還要處理存儲和計算等基礎(chǔ)設(shè)施問題。通過引入FM類算法并構(gòu)建streaming training系統(tǒng),團隊最終實現(xiàn)了目標,并發(fā)現(xiàn)淺層神經(jīng)網(wǎng)絡(luò)在推薦場景中仍具有顯著優(yōu)勢。
2020年,字節(jié)跳動將目光投向科學(xué)計算領(lǐng)域。團隊認為,除了線上應(yīng)用,現(xiàn)實世界和科學(xué)計算能夠產(chǎn)生大量有價值的數(shù)據(jù)。在第一性原理計算方面,公司持續(xù)投入研發(fā)神經(jīng)網(wǎng)絡(luò)量子蒙特卡洛方法(NNQMC),通過神經(jīng)網(wǎng)絡(luò)表示波函數(shù)并優(yōu)化計算過程,在仿真精度上達到行業(yè)領(lǐng)先水平。最新成果Scaling Laws with LAVA顯示,增加參數(shù)數(shù)量可持續(xù)提升仿真精度,為實用化突破帶來可能。
在分子動力學(xué)領(lǐng)域,團隊通過GPU加速密度泛函分析(DFT)計算,實現(xiàn)1個GPU相當于500至1000個CPU核心的加速效果,大幅降低算力成本。開發(fā)的Bamboo-MLFF和ByteFF力場模型在預(yù)測分子和固體體系性質(zhì)方面表現(xiàn)優(yōu)異,其中ByteFF-Pol在無實驗數(shù)據(jù)條件下預(yù)測電解液性質(zhì)達到行業(yè)最高精度。這些技術(shù)已與比亞迪合作,推動AI for Science在電池材料領(lǐng)域的工業(yè)應(yīng)用。
2021年,字節(jié)跳動收購Pico團隊后,在XR領(lǐng)域展開雙路線探索:一方面優(yōu)化現(xiàn)有產(chǎn)品形態(tài)并加強內(nèi)容運營,另一方面投入基礎(chǔ)技術(shù)研發(fā)以提升核心體驗。2023年,公司決定減少內(nèi)容投入,轉(zhuǎn)而加大技術(shù)研發(fā)投入。在顯示技術(shù)方面,團隊與供應(yīng)商定制MicroOLED屏幕,結(jié)合微透鏡技術(shù)實現(xiàn)單眼4K分辨率,同時保持設(shè)備輕便性。針對MR技術(shù)的眩暈問題,全鏈路自研專用芯片,將系統(tǒng)延遲控制在12毫秒左右,達到行業(yè)領(lǐng)先水平。
大模型領(lǐng)域,字節(jié)跳動自2022年開始重點布局,推出豆包AI對話助手和火山引擎大模型服務(wù)。技術(shù)層面,公司建設(shè)的大規(guī)模穩(wěn)定訓(xùn)練系統(tǒng)MegaSacle使浮點運算利用率超過55%,顯著優(yōu)于主流開源框架。通過優(yōu)化模型結(jié)構(gòu)和自研服務(wù)器,公司成功降低大模型應(yīng)用成本,火山引擎在中國MaaS市場占據(jù)領(lǐng)先地位。當前研究重點包括提升模型持續(xù)學(xué)習(xí)能力,使其能夠像人類一樣通過交互不斷優(yōu)化,以及增強模型與物理世界的交互能力,縮小在內(nèi)容理解和界面操作等方面與人類的差距。



















