在人工智能與機(jī)器人領(lǐng)域,陳佳玉的名字正逐漸被更多人熟知。這位兼具學(xué)術(shù)與產(chǎn)業(yè)雙重背景的年輕研究者,本科畢業(yè)于北京大學(xué)工學(xué)院,早期聚焦自動(dòng)駕駛技術(shù)研究,博士后階段在卡內(nèi)基梅隆大學(xué)將強(qiáng)化學(xué)習(xí)應(yīng)用于核聚變反應(yīng)堆控制,如今以博導(dǎo)和原力無(wú)限資深研究科學(xué)家的身份,將研究重心轉(zhuǎn)向通用家用機(jī)器人領(lǐng)域。
陳佳玉的科研軌跡始終圍繞復(fù)雜系統(tǒng)智能控制展開(kāi)。從自動(dòng)駕駛的感知與決策,到強(qiáng)化學(xué)習(xí)理論與算法設(shè)計(jì),再到核聚變等離子體控制,看似跨度極大的研究方向背后,實(shí)則貫穿著強(qiáng)化學(xué)習(xí)這一核心線(xiàn)索。“強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過(guò)程具有類(lèi)人特性,且涉及控制理論、統(tǒng)計(jì)學(xué)等多學(xué)科交叉,這種綜合性和挑戰(zhàn)性吸引著我持續(xù)深耕。”陳佳玉解釋道。他強(qiáng)調(diào),當(dāng)前研究更注重從實(shí)際需求出發(fā),而非單純追求技術(shù)難度,但發(fā)展類(lèi)人智能的終極目標(biāo)決定了強(qiáng)化學(xué)習(xí)仍是值得探索的前沿方向。
在陳佳玉看來(lái),核聚變控制與機(jī)器人操作在數(shù)學(xué)本質(zhì)上具有共通性。無(wú)論是通過(guò)真實(shí)數(shù)據(jù)交互還是模擬器建模,兩者均可抽象為馬爾可夫決策過(guò)程,需定義觀(guān)測(cè)、動(dòng)作及評(píng)價(jià)標(biāo)準(zhǔn)三個(gè)核心要素。這類(lèi)高維非線(xiàn)性連續(xù)控制問(wèn)題,正是強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)領(lǐng)域。“我的博士導(dǎo)師擅長(zhǎng)用數(shù)學(xué)原理剖析問(wèn)題本質(zhì),博后導(dǎo)師則精通工程迭代方法,現(xiàn)在的研究正是兩者結(jié)合的產(chǎn)物。”他以正在推進(jìn)的持續(xù)性強(qiáng)化學(xué)習(xí)項(xiàng)目為例,該項(xiàng)目旨在讓AI具備持續(xù)學(xué)習(xí)新任務(wù)且不遺忘舊知識(shí)的能力,既需要理論突破,也依賴(lài)工程實(shí)踐。
2025年,陳佳玉開(kāi)啟“雙棲”模式:在香港大學(xué)擔(dān)任教職的同時(shí),加入創(chuàng)業(yè)公司原力無(wú)限。這種選擇源于現(xiàn)實(shí)考量——學(xué)術(shù)研究面臨資金、場(chǎng)地、算力三重困境,而產(chǎn)業(yè)界能提供更充足的資源支持。原力無(wú)限構(gòu)建的商業(yè)技術(shù)閉環(huán)、高效的執(zhí)行文化,以及與陳佳玉團(tuán)隊(duì)在“一腦多身”通用物理世界模型上的技術(shù)共識(shí),成為雙方合作的關(guān)鍵因素。“通用機(jī)器人是人工智能領(lǐng)域的終極挑戰(zhàn),它需要整合計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、強(qiáng)化學(xué)習(xí)等多領(lǐng)域技術(shù)。”陳佳玉指出,家庭場(chǎng)景對(duì)通用性的需求,使其成為最具潛力的落地方向。
針對(duì)初創(chuàng)公司與科技巨頭的競(jìng)爭(zhēng),陳佳玉認(rèn)為,初創(chuàng)企業(yè)需聚焦特定場(chǎng)景,走專(zhuān)業(yè)化道路。“大廠(chǎng)在基礎(chǔ)模型和算力上具有優(yōu)勢(shì),初創(chuàng)公司必須找到差異化路徑,通過(guò)快速落地和實(shí)用主義策略建立競(jìng)爭(zhēng)力。”他預(yù)測(cè),短期來(lái)看,人形機(jī)器人將優(yōu)先在B端工廠(chǎng)場(chǎng)景應(yīng)用,但長(zhǎng)期機(jī)會(huì)在于C端家庭市場(chǎng)。“家庭用戶(hù)需要的是能完成多種任務(wù)的通用機(jī)器人,而非多個(gè)專(zhuān)用設(shè)備。”
在技術(shù)路徑選擇上,陳佳玉團(tuán)隊(duì)正攻關(guān)兩大方向:持續(xù)性強(qiáng)化學(xué)習(xí)與以智能體為中心的世界模型。后者區(qū)別于當(dāng)前主流的第三人稱(chēng)視角世界模型,強(qiáng)調(diào)構(gòu)建指揮智能體行為的因果模型。“例如,機(jī)器人拿杯子時(shí),世界模型應(yīng)讓其理解‘拿緊杯子是為了防止掉落’,而非簡(jiǎn)單模仿動(dòng)作序列。”這種因果建模能力,將幫助機(jī)器人實(shí)現(xiàn)跨任務(wù)知識(shí)遷移。
對(duì)于行業(yè)普遍關(guān)注的泛化性問(wèn)題,陳佳玉持謹(jǐn)慎態(tài)度。他認(rèn)為,當(dāng)前許多研究宣稱(chēng)的泛化能力缺乏理論保障,屬于偶然性成功,而持續(xù)學(xué)習(xí)技術(shù)則被嚴(yán)重低估。“如何讓AI在學(xué)習(xí)新任務(wù)時(shí)不遺忘舊知識(shí),這是Richard Sutton等學(xué)者近期重點(diǎn)討論的難題。”他透露,團(tuán)隊(duì)正通過(guò)數(shù)據(jù)工廠(chǎng)采集初始數(shù)據(jù),并計(jì)劃通過(guò)部署機(jī)器人獲取真實(shí)用戶(hù)數(shù)據(jù),構(gòu)建“數(shù)據(jù)飛輪”正反饋機(jī)制。
面對(duì)“少年天才”的標(biāo)簽,陳佳玉更關(guān)注實(shí)際貢獻(xiàn):“標(biāo)簽不重要,重要的是能否解決重要問(wèn)題。”他建議年輕研究者:首先明確定義研究問(wèn)題,確保其具有足夠價(jià)值;其次積極整合資源,包括算力、設(shè)備和落地場(chǎng)景;最后通過(guò)拆解頂尖學(xué)者的研究體系,構(gòu)建自己的認(rèn)知框架。“不要盲目追隨熱點(diǎn),要建立獨(dú)立思考能力,從體系推導(dǎo)出真正值得研究的問(wèn)題。”





















