每日經(jīng)濟(jì)新聞 2026-01-20 20:27:17
每經(jīng)記者|李卓 每經(jīng)編輯|余婷婷
行業(yè)屬性:大模型、具身智能估值/融資輪次:未公開(kāi)披露核心競(jìng)爭(zhēng)力:人類“第一視角”數(shù)據(jù)未來(lái)關(guān)鍵詞:通用性、物理智能
如果總分10分,2025年中國(guó)的具身智能“通用性”能夠打幾分?“說(shuō)得難聽(tīng)一點(diǎn),其實(shí)我覺(jué)得應(yīng)該是零分。”陳凱幾乎沒(méi)有遲疑,給出了這個(gè)回答。“有這么夸張嗎?”《每日經(jīng)濟(jì)新聞》記者追問(wèn)。陳凱沉思了幾秒后補(bǔ)充道:“客觀來(lái)看,目前整體水平在1分左右。”
作為一名“走出實(shí)驗(yàn)室”的科學(xué)家,2025年陳凱的最新身份是深度機(jī)智(北京)科技有限公司(以下簡(jiǎn)稱深度機(jī)智)創(chuàng)始人。在此之前,他在人工智能領(lǐng)域深耕15年,在國(guó)際上率先將人工智能模型分布式訓(xùn)練規(guī)模擴(kuò)展至百卡以上,相關(guān)成果發(fā)表于Nature子刊、TASLP、NeurIPS、ICLR等國(guó)際頂級(jí)會(huì)議和期刊。
陳凱還身兼北京中關(guān)村學(xué)院導(dǎo)師、中關(guān)村人工智能研究院研究員、具身智能方向負(fù)責(zé)人,肩負(fù)著博士生的培養(yǎng)職責(zé)。他與公司CEO(首席執(zhí)行官)都出自中科大少年班,身上有著新一代原生AI(人工智能)創(chuàng)業(yè)者的天然淳樸及學(xué)術(shù)氣質(zhì)。在這種專業(yè)沉淀下,他的回答顯然絕非戲謔之言。
因?yàn)榭吹搅司呱碇悄芡ㄓ眯缘碾y題,陳凱的創(chuàng)業(yè)致力于以人類“第一視角”數(shù)據(jù)提升基座模型的物理智能水平。換言之,他們要做具身智能的“大腦”。然而,當(dāng)陳凱團(tuán)隊(duì)第一次提出“從人類第一視角視頻數(shù)據(jù)構(gòu)建通用具身智能基座模型”時(shí),迎接他們的不是掌聲,而是質(zhì)疑。
2026年開(kāi)年,AI賽道再次迎來(lái)資本與技術(shù)的雙重爆發(fā)。陳凱團(tuán)隊(duì)究竟能否憑借“第一視角”解鎖物理智能的通用性密碼?作為創(chuàng)業(yè)公司又將如何接受市場(chǎng)的考驗(yàn)?對(duì)此,陳凱近日接受了《每日經(jīng)濟(jì)新聞》“對(duì)話未來(lái)商業(yè)”欄目記者專訪。
從不被認(rèn)可到巨頭驗(yàn)證:特斯拉與Figure的“神同步”
“當(dāng)時(shí)與一些學(xué)者、相關(guān)投資人探討時(shí),他們其實(shí)對(duì)于這條路徑都不認(rèn)可。”陳凱回憶起當(dāng)初的狀況印象深刻。他的創(chuàng)業(yè)想法誕生于2024年底,那時(shí),國(guó)內(nèi)大量公司仍聚焦機(jī)器人“本體”研發(fā),而外界可感知的現(xiàn)象級(jí)事件則爆發(fā)于2025年“春晚”,宇樹(shù)科技的通用人形機(jī)器人H1以“扭秧歌”的形式驚艷亮相,掀起了具身智能熱潮。
事實(shí)上,真正發(fā)揮作用的關(guān)鍵是“大腦”能力,彼時(shí)美國(guó)已有多家“大腦”公司崛起,國(guó)內(nèi)卻相對(duì)薄弱。也正是那時(shí)候,陳凱意識(shí)到具身智能領(lǐng)域存在巨大機(jī)會(huì)與挑戰(zhàn)。
深度機(jī)智于2025年5月注冊(cè)。這支平均年齡30歲的創(chuàng)業(yè)團(tuán)隊(duì),博士占比超過(guò)60%,他們選擇了一條與OpenAI、DeepMind(公司名)截然不同的技術(shù)路徑:不依賴昂貴的動(dòng)作捕捉設(shè)備,不用仿真環(huán)境預(yù)訓(xùn)練,而是直接采集人類在真實(shí)場(chǎng)景中的“第一視角”數(shù)據(jù)。
“當(dāng)時(shí)的投資人認(rèn)為,沒(méi)有精準(zhǔn)標(biāo)注、精準(zhǔn)捕捉,缺乏感知力和觸覺(jué)的數(shù)據(jù),沒(méi)有太大價(jià)值。”陳凱坦言。這種質(zhì)疑也源于傳統(tǒng)AI研究的思維定式:強(qiáng)化學(xué)習(xí)依賴仿真環(huán)境,計(jì)算機(jī)視覺(jué)需要精準(zhǔn)標(biāo)注,而具身智能領(lǐng)域普遍采用動(dòng)作捕捉設(shè)備采集數(shù)據(jù)。
陳凱堅(jiān)信,人類“第一視角”數(shù)據(jù)蘊(yùn)含著人看到的整個(gè)物理世界的深層規(guī)律,這些規(guī)律無(wú)法用文字精準(zhǔn)描述,也沒(méi)有辦法用規(guī)則去把它窮盡,但是它的數(shù)據(jù)形式就在那里,需要把這樣的數(shù)據(jù)壓縮到大模型里,讓大模型獲得對(duì)物理世界的理解。
轉(zhuǎn)折點(diǎn)出現(xiàn)在2025年5月。據(jù)陳凱自述,特斯拉當(dāng)時(shí)突然宣布了一條技術(shù)路線,會(huì)逐漸減少遙操數(shù)據(jù)(一般指通過(guò)遠(yuǎn)程操控方式產(chǎn)生、傳輸或處理的數(shù)據(jù))和動(dòng)捕數(shù)據(jù)的使用,將大量轉(zhuǎn)向從人類的“第一視角”視頻學(xué)習(xí)。
幾個(gè)月后,2025年9月,美國(guó)估值最高的具身智能初創(chuàng)公司Figure AI發(fā)布了一個(gè)全尺寸的人形機(jī)器人快遞分揀以及把衣服放進(jìn)洗衣機(jī)的視頻,其流暢程度讓陳凱推斷,他們應(yīng)該是直接采用了人的數(shù)據(jù)去學(xué)習(xí)。“因?yàn)槟欠N細(xì)微的動(dòng)作表現(xiàn)太像人。”陳凱直言,F(xiàn)igure AI在官宣融資的同時(shí),還宣布與一家商業(yè)地產(chǎn)公司合作,就是要進(jìn)入真實(shí)的場(chǎng)景里采集人的數(shù)據(jù)。
更直接的驗(yàn)證來(lái)自同為AI機(jī)器人初創(chuàng)公司Generalist AI。這家公司在2025年10月發(fā)布的GEN-0具身智能模型,就是基于超過(guò)27萬(wàn)小時(shí)的真實(shí)物理世界操作數(shù)據(jù)的預(yù)訓(xùn)練,初步驗(yàn)證了Scaling Law(規(guī)模化法則,是大模型領(lǐng)域的一個(gè)經(jīng)驗(yàn)公式),這一度被業(yè)界解讀為智能機(jī)器人迎來(lái)了“ChatGPT時(shí)刻”。
而在陳凱看來(lái),Generalist AI的數(shù)據(jù)雖然不是真人用手直接操作的“第一視角”,但也是人操控“假爪”在真實(shí)世界中進(jìn)行采集的。與遙操作、動(dòng)作捕捉以及仿真完全不同,其是在驗(yàn)證真實(shí)物理世界數(shù)據(jù)的重要性。
2025年12月,美國(guó)具身智能明星創(chuàng)業(yè)公司Physical Intelligence公布了一項(xiàng)研究結(jié)論:基于大量機(jī)器人數(shù)據(jù)模型加上人的數(shù)據(jù),能大幅提升模型的通用性。這個(gè)消息再次讓陳凱感到振奮。
“Physical Intelligence公司的結(jié)論其實(shí)驗(yàn)證了我們的假設(shè)。”陳凱分析道,Physical Intelligence論述了人類在真實(shí)場(chǎng)景里的交互數(shù)據(jù),是連接語(yǔ)言模型和物理智能的關(guān)鍵,驗(yàn)證了人類“第一視角”多模態(tài)數(shù)據(jù)的有效性。也就是說(shuō),看人干活兒,機(jī)器人真的能學(xué)會(huì)。這一結(jié)論與陳凱團(tuán)隊(duì)的研究發(fā)現(xiàn)不謀而合。
從“0到1”轉(zhuǎn)變:“百萬(wàn)小時(shí)”數(shù)據(jù)量級(jí)攻堅(jiān)
雖然陳凱的技術(shù)路線在創(chuàng)業(yè)之初并沒(méi)有被認(rèn)可,但隨著時(shí)間推移,這條技術(shù)路線一直在被驗(yàn)證,成為陳凱當(dāng)前最大的“創(chuàng)業(yè)心流”。
從大眾視角來(lái)看,2025年的中國(guó)具身智能發(fā)展飛快,無(wú)論是在酷炫演唱會(huì)上的跳舞表演,還是各大AI展館里疊衣服等炫技,這些通過(guò)大量人造數(shù)據(jù)訓(xùn)練出來(lái)的機(jī)器人運(yùn)動(dòng)軌跡,在陳凱看來(lái)仍然屬于“死記硬背”,環(huán)境一變可能直接失效。
而通過(guò)“第一視角”的人類數(shù)據(jù),則可以大幅提高模型對(duì)于物理世界的理解,進(jìn)而提升模型的物理智能水平,提高機(jī)器人執(zhí)行任務(wù)的成功率。
記者了解到,深度機(jī)智從數(shù)據(jù)源頭進(jìn)行優(yōu)化,直接采集人類“第一視角”下的手部操作數(shù)據(jù)。這類數(shù)據(jù)天然包含人類在真實(shí)環(huán)境中的操作直覺(jué),例如握取不同材質(zhì)物品的力度控制、物品滑落時(shí)的即時(shí)調(diào)整,適配機(jī)器人“感知-動(dòng)作”映射需求,避免了機(jī)械操作數(shù)據(jù)與人類交互習(xí)慣的適配成本。
陳凱告訴《每日經(jīng)濟(jì)新聞》記者,公司目前每天的數(shù)據(jù)采集規(guī)模已超過(guò)1000小時(shí),但每沉淀1萬(wàn)小時(shí)的數(shù)據(jù),往往需要2至3周,因?yàn)橹虚g還需要一些數(shù)據(jù)清洗。按照公司的計(jì)劃,2026年上半年將沖刺“百萬(wàn)小時(shí)”的數(shù)據(jù)量級(jí)。
“百萬(wàn)小時(shí)”意味著什么?“意味著我們可以基于人類數(shù)據(jù),真正驗(yàn)證具身智能是否存在Scaling Law(規(guī)模定律)。”陳凱表示,盡管對(duì)于Scaling Law已經(jīng)非常有信心,但現(xiàn)在要做的是把這個(gè)正確的曲線真正畫(huà)出來(lái),為未來(lái)算力、數(shù)據(jù)和模型的規(guī)模投入做明確的指引。而如果百萬(wàn)小時(shí)數(shù)據(jù)得到驗(yàn)證,具身智能的通用性也能隨之達(dá)到5至6分(總分10分)。
“做基座模型、提升物理智能就是‘練內(nèi)功’的過(guò)程。把這個(gè)內(nèi)功練好,機(jī)器人就能‘開(kāi)竅’。”陳凱進(jìn)一步比喻。
“武俠小說(shuō)中郭靖練功之初師從‘江南七怪’,七位師傅各有招數(shù)要教給他,會(huì)導(dǎo)致習(xí)得的招式多而雜,很難深入?yún)⑼改骋粋€(gè)功夫。最終還是道長(zhǎng)馬鈺教他先練氣、打坐,先把內(nèi)功練好。之后,那些招數(shù)自然而然就學(xué)會(huì)了。”“但是我感覺(jué)非常多的人其實(shí)不理解這個(gè)邏輯。”陳凱補(bǔ)充道。
如果把“內(nèi)功”分為10個(gè)等級(jí),“第一視角”數(shù)據(jù)采集的“百萬(wàn)小時(shí)”規(guī)模又可以練到幾級(jí)?“3、4級(jí)吧。”陳凱坦言,如果要練到10級(jí),則需要1000萬(wàn)小時(shí)以上的數(shù)據(jù)規(guī)模。并且,單靠數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不夠,因?yàn)榫蛿?shù)據(jù)驅(qū)動(dòng)模型訓(xùn)練而言,見(jiàn)多才能識(shí)廣。“大語(yǔ)言模型明顯就是‘讀萬(wàn)卷書(shū)’得到的那么強(qiáng)的能力。現(xiàn)在的具身智能要做好,就要‘行萬(wàn)里路’。”
技術(shù)路徑收斂:加速、規(guī)模與希望并存
談及當(dāng)前的技術(shù)差距,陳凱直言,一年過(guò)去了,中國(guó)和美國(guó)在這一領(lǐng)域的差距不是在縮小而是在擴(kuò)大。“一個(gè)核心原因就是具身智能的技術(shù)路徑?jīng)]有收斂。許多公司采取了比較保守的策略,沒(méi)有大力搞研發(fā),因此沒(méi)有突破也就在意料之中。”陳凱表示。
不過(guò),身為創(chuàng)業(yè)者,陳凱如今再接觸投資人時(shí)明顯感覺(jué)到他們對(duì)這條技術(shù)路徑的認(rèn)知已經(jīng)清晰了許多,因?yàn)橥顿Y人的知識(shí)迭代速度很快,學(xué)習(xí)能力也非常強(qiáng)。
“市場(chǎng)上的資金量是足夠支持(具身智能‘大腦’)這個(gè)賽道發(fā)展的。核心并不是盲目‘燒錢(qián)’,而是要在正確的路徑上燒足夠多的錢(qián)。”陳凱如是說(shuō)。
對(duì)于2026年的行業(yè)發(fā)展,陳凱認(rèn)為大家會(huì)變得更加樂(lè)觀,因?yàn)榧夹g(shù)路徑正在收斂,至少數(shù)據(jù)路線上基本上要形成共識(shí)了。他也相信,不管是國(guó)家還是資本,投入都會(huì)進(jìn)一步加大,整個(gè)行業(yè)都會(huì)快速進(jìn)步。
“屆時(shí),我最希望看到的就是中美之間的差距持續(xù)縮小,甚至有機(jī)會(huì)實(shí)現(xiàn)反超。”陳凱指出,當(dāng)前,中國(guó)的人類“第一視角”數(shù)據(jù)采集成本比美國(guó)低很多,這是中國(guó)的創(chuàng)業(yè)優(yōu)勢(shì),而且相較于遙操作、動(dòng)作捕捉,“第一視角”數(shù)據(jù)采集的成本同樣更低,無(wú)論是數(shù)據(jù)多樣性、數(shù)據(jù)規(guī)模還是路徑上,都更具優(yōu)勢(shì)。
如果要為2026年具身智能發(fā)展提煉關(guān)鍵詞,陳凱認(rèn)為,第一個(gè)關(guān)鍵詞是“加速”,整個(gè)行業(yè)的進(jìn)步會(huì)加速;第二個(gè)關(guān)鍵詞則是“規(guī)模”,包括數(shù)據(jù)和模型規(guī)模的擴(kuò)大,并且規(guī)模定律(Scaling Law)可能會(huì)被驗(yàn)證。
“第三個(gè)關(guān)鍵詞,我覺(jué)得是‘希望’吧。這個(gè)領(lǐng)域最初大家確實(shí)有非常多的爭(zhēng)議,許多投資人也比較猶豫。一些人在下場(chǎng)之前可能也有一些恐懼,但是現(xiàn)在整個(gè)行業(yè)的發(fā)展讓我們看到了非常大的希望。”陳凱說(shuō)。
《每日經(jīng)濟(jì)新聞》記者注意到,2026年,在這條曾被冷落的賽道上,已經(jīng)聚集起躬身入局的“陳凱們”。他們相信,物理智能的突破,終將通向智能與實(shí)體交融的深遠(yuǎn)未來(lái)。
封面圖片來(lái)源:受訪者供圖
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP