【ZiDongHua 之“技術(shù)文章區(qū)”收錄關(guān)鍵詞:星海圖 具身智能 自動(dòng)駕駛 機(jī)器人 】
  
  深度觀點(diǎn) | 萬字長(zhǎng)文分享!我們看到的具身智能的未來
 
  
  2025年6月21日,星海圖首席執(zhí)行官高繼揚(yáng)受邀出席極客公園AGI Playground 2025,并發(fā)表主題演講《我們看到的具身智能的未來》。以下為本次演講全文實(shí)錄。
  
  我是星海圖的高繼揚(yáng),今天非常開心,也非常榮幸可以分享我們過去一段時(shí)間里在具身智能領(lǐng)域的一些感受、體會(huì)和思考。
  
  01
  
  From Motor To Model,
  
  具身智能是不能有短板的游戲
  
  我們從這句話開始說起吧,我們自己的一個(gè)很深的體會(huì)是,具身智能不是一個(gè)純軟件的事情,它是一個(gè)軟硬件結(jié)合的事情。所以我們把它稱作是一個(gè)“沒有短板的游戲”。它的具體表現(xiàn)就是這句話——From Motor to Model,從電機(jī)開始,到整機(jī)、再到數(shù)據(jù),再到模型,它是一系列的整合。
  
  如果我們?cè)賹?duì)比一下大語言模型的發(fā)展,有一個(gè)很大的特點(diǎn)是,模型和產(chǎn)品之間的關(guān)系非常緊密,模型本身就決定了產(chǎn)品形態(tài)。因?yàn)槿祟愒谶^去二十多年里已經(jīng)積累了大量的數(shù)據(jù),隨著模型能力的提升,應(yīng)用層面的產(chǎn)品也就迅速進(jìn)入了爆發(fā)期。
  
  但當(dāng)我們回到具身智能來看,會(huì)發(fā)現(xiàn)具身智能的發(fā)展還是相對(duì)比較緩慢的。那這個(gè)原因是什么呢?我們覺得,關(guān)鍵在于具身智能所需要的高質(zhì)量數(shù)據(jù)是缺乏的。而為什么缺乏高質(zhì)量數(shù)據(jù)?是因?yàn)槿狈线m的“本體”——也就是整機(jī)。再往上看,是因?yàn)檎麄€(gè)供應(yīng)鏈也是缺乏的。
  
  所以我們說,從供應(yīng)鏈開始,從零部件、電機(jī),到主機(jī)、到遙操作、再到數(shù)據(jù),這一整套前序工作,都是智能發(fā)展所必須的條件。這也是我看到的一個(gè)顯著區(qū)別——具身智能在發(fā)展智能的時(shí)候,和大語言模型的發(fā)展路徑非常不同。而這也正是為什么我們認(rèn)為,“整機(jī) + 智能”才能構(gòu)成一個(gè)真正能和客戶發(fā)生直接價(jià)值交換的產(chǎn)品。
 
  
  在這樣的定位之下,我們?nèi)タ次磥韮傻饺?,具身智能到底能提供給客戶、提供給世界的產(chǎn)品形態(tài)會(huì)是什么?
  
  經(jīng)過這段時(shí)間的實(shí)踐和思考,我們認(rèn)為最有概率的形態(tài),是一個(gè)產(chǎn)品的組合——整機(jī) + 預(yù)訓(xùn)練模型 + 后訓(xùn)練工具。這里說的后訓(xùn)練工具,可以理解成一整套遙操作設(shè)備,用來遙控機(jī)器人在特定場(chǎng)景中完成各類任務(wù)。
  
  這個(gè)產(chǎn)品組合的體驗(yàn)應(yīng)該是什么樣的?
  
  我們認(rèn)為它就像培訓(xùn)一個(gè)新員工一樣,客戶拿到我們的遙操設(shè)備,在實(shí)際任務(wù)場(chǎng)景中采集幾條、幾十條數(shù)據(jù),把這些數(shù)據(jù)用來微調(diào)預(yù)訓(xùn)練模型,之后把模型部署回整機(jī),機(jī)器人就能完成場(chǎng)景里面的特定任務(wù)。當(dāng)這樣的產(chǎn)品逐漸成熟并部署到下游場(chǎng)景中,它一定會(huì)成為一項(xiàng)重大的生產(chǎn)力。
  
  在這個(gè)過程中,星海圖自己就是開發(fā)者,同時(shí)也致力于去助力更多開發(fā)者,我們是一起做這件事的。因此在業(yè)務(wù)模式上,我們一直強(qiáng)調(diào)共創(chuàng),面向企業(yè)客戶,我們提供“整機(jī) + 智能”的產(chǎn)品;而面向開發(fā)者,我們則開放所有的工具鏈。
  
  要做好這一切,其實(shí)背后需要的是完整的供給體系——從 Motor 開始,電機(jī)、整機(jī)、遙操作系統(tǒng)、數(shù)據(jù)管線,再到智能模型,這五層全部打通,才有可能實(shí)現(xiàn)下面的這一切。
 
  
  02
  
  具身智能的瓶頸,
  
  是在正確的本體上獲取正確的數(shù)據(jù)
  
  我們回到當(dāng)下這個(gè)時(shí)間點(diǎn)來看,在具身智能的發(fā)展過程中,我們看到最主要的問題還是數(shù)據(jù)的問題。其實(shí)現(xiàn)在很多算法層面的要素已經(jīng)具備,而“算法 + 數(shù)據(jù) = 模型”。那問題就卡在沒有數(shù)據(jù)上,進(jìn)一步往前推是沒有在正確本體上的數(shù)據(jù)。
  
  我們可以先回顧一下 ImageNet。其實(shí) ImageNet 已經(jīng)是十五年前的事情了,大概在 2010 年左右。正是因?yàn)楫?dāng)時(shí)計(jì)算機(jī)視覺領(lǐng)域有了 ImageNet 這樣的大規(guī)模高質(zhì)量數(shù)據(jù)集,后來才誕生了很多具有代表性的工作,比如 AlexNet、VGG 等等,也帶動(dòng)了深度學(xué)習(xí)的第一次崛起。
  
  這個(gè)過程給整個(gè)業(yè)界的一個(gè)重要的lesson learn,要想有好的算法和模型,前提是有好的數(shù)據(jù)。先有高質(zhì)量的數(shù)據(jù),才有高質(zhì)量的模型。這個(gè)范式,其實(shí)在大語言模型、自動(dòng)駕駛的發(fā)展中我們也都看到了類似的情況。
  
  那回到具身智能,它的特殊之處在于我們所需要的數(shù)據(jù)不是天然存在的。它不像、文本、視頻這些互聯(lián)網(wǎng)原生數(shù)據(jù),這些數(shù)據(jù)對(duì)于具身智能來說其實(shí)是相對(duì)低質(zhì)量的數(shù)據(jù)。具身智能真正需要的是機(jī)器人本體與物理世界交互的數(shù)據(jù)——比如操作一個(gè)物體、開門關(guān)門、抓取、放置等。就像是一個(gè)嬰兒出生后,在和世界互動(dòng)、摸索的過程中逐漸積累起來的感知與動(dòng)作數(shù)據(jù)。這些才是我們講的具身智能的數(shù)據(jù)。
  
  而要構(gòu)建這樣的數(shù)據(jù)體系,其實(shí)必須有一個(gè)標(biāo)準(zhǔn)。所以我們認(rèn)為,首先要有一個(gè)標(biāo)準(zhǔn)的本體,然后在這個(gè)本體之上,去積累機(jī)器人與物理世界交互的數(shù)據(jù)。接著才能定義任務(wù)、定義評(píng)測(cè)指標(biāo),最后模型的演進(jìn)才能真正進(jìn)入一個(gè)相對(duì)高速的發(fā)展期。
  
  循著這樣的思路,從我們創(chuàng)業(yè)開始就自己去定義我們的本體。因?yàn)槲覀冎攸c(diǎn)做的是雙臂操作,這跟宇樹做的雙足、全身運(yùn)動(dòng)控制方向不太一樣。我們更多是希望機(jī)器人真正干活,所以我們把重點(diǎn)放在雙臂操作上。
  
  在定義本體、定義整機(jī)的過程中,我們提出了一個(gè)核心理念,叫做“智能定義本體”。
  
  那雙臂操作到底需要什么樣的本體?
  
  我可以給大家舉幾個(gè)例子。在這個(gè)過程中,其實(shí)有很多是從智能的需求出發(fā),對(duì)硬件提出的新要求。
  
  比如我們現(xiàn)在的雙臂系統(tǒng),采用的是低減速比的行星減速器。這和傳統(tǒng)使用諧波減速器構(gòu)成的機(jī)械臂系統(tǒng)很不一樣。我們的方案更能夠滿足人類類似的高動(dòng)態(tài)操作需求,而且在控制上也更適配模仿學(xué)習(xí)的訓(xùn)練方式。所以我們的雙臂系統(tǒng),是圍繞低減速比、高動(dòng)態(tài)、大負(fù)載這幾個(gè)方向來做的。有時(shí)候?yàn)榱烁玫刂嗡惴芰?,我們甚至?xí)苯有薷碾姍C(jī)的底層驅(qū)動(dòng)。
  
  在軀干部分,我們采用的是高減速比的電機(jī)。因?yàn)樵趯?shí)際作業(yè)過程中,如果發(fā)生一些緊急斷電情況,很多雙足機(jī)器人在這種時(shí)候會(huì)直接塌下來。
  
  我們?cè)谲|干這個(gè)部分放了四個(gè)高減速比電機(jī),它們本身具備非常強(qiáng)的支撐力,即使緊急斷電,也不會(huì)直接倒下,而是可以支撐在那兒。
  
  再說到底盤,人的雙腿很重要的一個(gè)作用,就是能全向移動(dòng):橫著跨一步,斜著走一步,不用轉(zhuǎn)身。這個(gè)“橫移”、“跨步”、“全向移動(dòng)”對(duì)上半身的操作能力其實(shí)是非常關(guān)鍵的。
  
  而傳統(tǒng) AGV 底盤很多是雙輪差動(dòng)的,需要轉(zhuǎn)身再轉(zhuǎn)回來,這就和上層的雙臂操作能力脫節(jié)了。所以我們底盤采用的是六電機(jī)、三舵輪的全向移動(dòng)方案。
  
  這就是我們圍繞雙臂操作的智能需求,重新去定義的整機(jī)本體。現(xiàn)在已經(jīng)有了 R1、R1 Pro 和 R1 Lite 三款產(chǎn)品,特別是 R1 Lite 是我們和 Physical Intelligence 團(tuán)隊(duì)聯(lián)合定義的,他們也在我們平臺(tái)上開發(fā)了 PI0.5 模型。我們和他們還有一些數(shù)據(jù)合作,也會(huì)在今年下半年逐步發(fā)布。所以這就回到我們前面說的,要有好的數(shù)據(jù),必須得先有正確的本體。
  
  那回到數(shù)據(jù)這個(gè)問題上,有了本體之后,我們到底需要什么樣的數(shù)據(jù)?
  
  現(xiàn)在很多人在搞具身智能數(shù)據(jù)建設(shè)時(shí),第一反應(yīng)是去建一個(gè)自采場(chǎng)。但我們認(rèn)為,預(yù)訓(xùn)練真正需要的數(shù)據(jù),必須來自真實(shí)場(chǎng)景中的開放數(shù)據(jù)。所以我們不是去大搞自建場(chǎng)景,而是直接把機(jī)器人投放到各種真實(shí)的應(yīng)用場(chǎng)景中去采集數(shù)據(jù)。
  
  我們現(xiàn)在、此時(shí)此刻,就有幾十臺(tái)機(jī)器人正在真實(shí)場(chǎng)景中進(jìn)行數(shù)據(jù)采集。這些場(chǎng)景可能是酒店、公園、食堂,也可能是商場(chǎng)——我們就是把機(jī)器人投放到這些真實(shí)環(huán)境中去做采集。
  
  但這個(gè)事情其實(shí)并不簡(jiǎn)單。因?yàn)檫@里面涉及大量工具鏈相關(guān)的問題,比如數(shù)采運(yùn)營(yíng)的問題、數(shù)采工藝的問題。
  
  我們是把數(shù)據(jù)采集當(dāng)作一個(gè)“生產(chǎn)活動(dòng)”來做的。既然是生產(chǎn)活動(dòng),那就需要思考怎么做一次遙操作,怎么執(zhí)行一整套遙操流程。這里面其實(shí)就像在工廠里做裝配一樣,有很多工藝要素要規(guī)劃,比如怎么組裝一個(gè)零件、每個(gè)動(dòng)作的標(biāo)準(zhǔn)是什么。這些都不是拍腦袋決定的,而是需要有方法、有流程的。
  
  在工藝標(biāo)準(zhǔn)制定清楚之后,還涉及到怎么運(yùn)營(yíng)一個(gè)數(shù)采團(tuán)隊(duì),再往下是我們要配套一整套什么樣的工具鏈,來支撐整個(gè)數(shù)采活動(dòng)。
  
  按照我們的計(jì)劃,到今年三季度,我們會(huì)累計(jì)完成1萬小時(shí)的真實(shí)交互數(shù)據(jù)。這些數(shù)據(jù)都是來自我們的本體與物理世界的實(shí)際交互。目前,我們采集到的操作對(duì)象種類已經(jīng)超過1,000個(gè),任務(wù)類型超過300種。這些數(shù)據(jù)構(gòu)成了我們進(jìn)行具身智能基礎(chǔ)模型預(yù)訓(xùn)練最重要的數(shù)據(jù)基礎(chǔ)。
  
  而且所有這些數(shù)據(jù),都是圍繞著兩個(gè)我們認(rèn)為“正確的本體”來進(jìn)行采集的。我們也計(jì)劃將這些數(shù)據(jù)分步驟向開發(fā)者釋放,支持更多開發(fā)者開展基礎(chǔ)研究和應(yīng)用開發(fā)。
  
  03
  
  具身基礎(chǔ)模型應(yīng)堅(jiān)持端到端和真機(jī)數(shù)據(jù)為主
  
  那么當(dāng)有了數(shù)據(jù)之后,我們就進(jìn)入“智能”這一部分。在基礎(chǔ)模型訓(xùn)練方面,我們堅(jiān)持兩個(gè)核心原則:一是端到端,二是真機(jī)數(shù)據(jù)為主。
  
  我們可以先解釋這“兩個(gè)端”分別是什么:
  
  一端是視覺(Vision)和指令輸入(Language),這個(gè)指令可以是自然語言,也可以是結(jié)構(gòu)化的編碼指令;
  
  另一端是Action,也就是機(jī)器人最終的動(dòng)作輸出。我們希望模型是基于這種完整閉環(huán)的輸入輸出來訓(xùn)練的。整體的訓(xùn)練架構(gòu),其實(shí)和我們看到的其他領(lǐng)域的基礎(chǔ)模型有一些相似——也是“預(yù)訓(xùn)練 + 后訓(xùn)練”的結(jié)構(gòu)。
  
  在這其中我們要特殊地去解釋一下,具身智能的預(yù)訓(xùn)練到底在干什么?它解決的是什么問題?
  
  對(duì)于具身智能來說,預(yù)訓(xùn)練的本質(zhì),是在學(xué)習(xí)本體與物理世界交互的基本法則。做個(gè)類比,更像是一個(gè)嬰兒——從剛出生,到三五歲,再到上小學(xué)的過程中,他不斷地跟物理世界發(fā)生接觸、碰撞和摸索,學(xué)習(xí)怎么去使用自己的身體、理解世界。這個(gè)過程就是預(yù)訓(xùn)練。
  
  而后訓(xùn)練,更像是讓他到了一個(gè)具體的崗位上,執(zhí)行一個(gè)具體任務(wù),它是面向具體任務(wù)的適配過程。這是我們看到的具身智能的預(yù)訓(xùn)練和后訓(xùn)練的區(qū)別和關(guān)系。
  
  具體在預(yù)訓(xùn)練這部分,我們采用的是一個(gè)“快慢雙系統(tǒng)”的結(jié)構(gòu)。實(shí)際上這個(gè)快慢結(jié)構(gòu),最早是我們星海圖的聯(lián)合創(chuàng)始人趙行在自動(dòng)駕駛領(lǐng)域里首創(chuàng)的,后來也被應(yīng)用到了具身智能領(lǐng)域。
  
  所謂“慢思考”,主要是指做一些邏輯推理、任務(wù)拆解,還有與人的多輪交互等能力。這部分通常由“多模態(tài)大語言模型(VLM)”來完成。
  
  而“快執(zhí)行”這部分,其實(shí)才是具身智能公司需要真正聚焦解決的問題。它是一個(gè)實(shí)時(shí)的執(zhí)行、閉環(huán)的反饋工具,還要集成感知識(shí)別等模塊。這一部分模型通常被稱作 VLA,參數(shù)量大概在十億級(jí)別。相比之下,慢思考模型的參數(shù)量在百億級(jí)別甚至更大。
  
  因?yàn)檫@種結(jié)構(gòu)的存在,我們?cè)诮K端部署時(shí),往往也需要面對(duì)“云、廠、端”三側(cè)協(xié)同的問題,這里面還有很多工程挑戰(zhàn)需要持續(xù)探索。
  
  后訓(xùn)練部分,它更多是圍繞特定任務(wù)來進(jìn)行,比如“拿起一個(gè)杯子倒水”。這就是一個(gè)完整的任務(wù)。圍繞這種任務(wù),我們通常會(huì)采集100條到200條數(shù)據(jù),每一條數(shù)據(jù)就是從頭到尾完成這個(gè)任務(wù)的一整套數(shù)據(jù)。這個(gè)過程,就是我們所說的預(yù)訓(xùn)練 + 后訓(xùn)練的全流程。
  
  而經(jīng)過這個(gè)流程之后,我們希望看到的效果是:在垂類場(chǎng)景中,簡(jiǎn)單任務(wù)可以實(shí)現(xiàn)零樣本泛化,復(fù)雜任務(wù)可以實(shí)現(xiàn)少樣本泛化。所謂“少樣本”,我們的定義是需要多少條增量數(shù)據(jù)來完成一個(gè)新任務(wù)的學(xué)習(xí),目前模型的能力大概是在100條這個(gè)量級(jí)。這是我們目前看到的具身智能基礎(chǔ)模型,在第一個(gè)階段的主要技術(shù)范式。
  
  后面我們現(xiàn)在正在做的一些任務(wù)案例,包括清理桌面、把衣服放進(jìn)柜子、開窗、拿東西放東西,雙手戴毛線帽,打開冰箱并把東西放進(jìn)去,或者使用工具完成具體操作等等。
  
  這些任務(wù)其實(shí)都是我們預(yù)訓(xùn)練階段的重要組成部分。它的本質(zhì),是讓我們的機(jī)器人本體盡可能多地與物理世界中的各種場(chǎng)景和任務(wù)發(fā)生交互,在實(shí)踐中去學(xué)習(xí)。這一階段對(duì)數(shù)據(jù)量的要求非常高,通常需要幾千到上萬小時(shí)的高質(zhì)量交互數(shù)據(jù),才能支撐出具有良好泛化能力的基礎(chǔ)模型。
  
  后面有一個(gè)問題還是挺重要的,也是在具身智能發(fā)展“智能”的同時(shí)與商業(yè)結(jié)合的過程中遇到的問題,具身智能的“智能”到底要解決什么樣的問題?
  
  從技術(shù)本質(zhì)上看,它要解決的是“泛化”問題,具體而言是四個(gè)“泛化”問題,包括對(duì)象泛化、動(dòng)作泛化、場(chǎng)景泛化和本體泛化。這四個(gè)泛化組合起來是完整的具身智能的技術(shù)終局。
  
  對(duì)象泛化指的是,比如同樣的“抓取-放置”類動(dòng)作,面對(duì)不同的物體都能完成任務(wù),比如今天抓瓶子,明天抓杯子,或者抓手機(jī)、抓其他小物件,都能泛化適應(yīng)。動(dòng)作泛化則是指面對(duì)同一個(gè)物體,機(jī)器人能夠完成不同的操作,比如今天抓杯子放下,明天就能擰瓶蓋、或者倒水,這是能力上的橫向延展。
  
  場(chǎng)景泛化強(qiáng)調(diào)的是,同樣一個(gè)任務(wù),在不同的環(huán)境背景下依然可以完成,比如今天的桌面是這樣,明天換一張不同顏色或布局的桌子,機(jī)器人依然能完成任務(wù)。最后是本體泛化,意思是一個(gè)模型可以在一種機(jī)器人本體上運(yùn)行,也能在另一種類型的本體上遷移使用。這四類泛化能力如果都能實(shí)現(xiàn),我們認(rèn)為具身智能的“智能問題”就基本解決了。
  
  但從另一個(gè)角度看,也就是從商業(yè)化和產(chǎn)品價(jià)值的角度來看,在當(dāng)前階段最關(guān)鍵、最具實(shí)際價(jià)值的,其實(shí)還是對(duì)象泛化和動(dòng)作泛化。
  
  這是因?yàn)槲覀冇^察到,具身智能目前的大量應(yīng)用場(chǎng)景都是工站式的、序列化的任務(wù),它不像自動(dòng)駕駛那樣需要在廣闊開放的道路環(huán)境中持續(xù)泛化,因此場(chǎng)景泛化的挑戰(zhàn)性沒有自動(dòng)駕駛那么強(qiáng)。而本體泛化方面,正如我們前面講到的,具身智能產(chǎn)品形態(tài)不是模型、而是整機(jī)+智能。
  
  在這樣的產(chǎn)品形態(tài)下,本體泛化在商業(yè)初期階段沒有那么重要。所以我們認(rèn)為,具身智能需優(yōu)先解決對(duì)象泛化和動(dòng)作泛化的問題,解決這兩個(gè)的組合之后,有相當(dāng)比例的場(chǎng)景和應(yīng)用就可以被開發(fā)出來、商業(yè)價(jià)值也就可以被釋放出來了。
  
  04
  
  構(gòu)建具身智能商業(yè)閉環(huán)的關(guān)鍵變量是開發(fā)者群體
  
  最后我們簡(jiǎn)單談一下關(guān)于應(yīng)用和商業(yè)化的問題。在這個(gè)過程中,星海圖始終特別重視開發(fā)者群體。我們一直認(rèn)為,具身智能商業(yè)閉環(huán)的核心變量就是開發(fā)者。
  
  為什么這么說?因?yàn)榫呱碇悄艿姆睒s,歸根結(jié)底是應(yīng)用的繁榮,而應(yīng)用要能產(chǎn)生價(jià)值,就必須有一群有活力、聰明的開發(fā)者在做各種各樣的應(yīng)用。
  
  開發(fā)者在做具身智能應(yīng)用的過程中,其實(shí)是需要支持、需要幫助的。我們自己走過這個(gè)過程,所以深有體會(huì),具身智能的鏈條很長(zhǎng),供應(yīng)鏈、制造、電機(jī)、整機(jī)、遙操作、數(shù)據(jù)等都做完之后,才能做模型、做應(yīng)用。我們不可能要求每一個(gè)開發(fā)者都從頭把這些底層環(huán)節(jié)再做一遍。
  
  所以我們的理念是,星海圖自己是一個(gè)開發(fā)者,我們自己會(huì)面向場(chǎng)景做應(yīng)用,同時(shí)我們也會(huì)盡可能地把我們做好的工具、整機(jī)產(chǎn)品開放出來,去幫助更多的開發(fā)者一起推進(jìn)具身智能的發(fā)展。
  
  也正是基于這樣的思路,我們現(xiàn)在在全球已經(jīng)有超過 50 個(gè)合作伙伴和客戶,大家一起做開發(fā),一起打磨產(chǎn)品。這個(gè)過程中,我們逐步構(gòu)建起一個(gè)“四位一體”的生態(tài)圈——從本體,到數(shù)據(jù),到模型,到應(yīng)用,全鏈條打通。
  
  我們相信,具身智能行業(yè)真正成功的那一天,一定不是星海圖一個(gè)公司的成功,而是整個(gè)生態(tài)里的很多個(gè)企業(yè)大家一起成功。在這個(gè)一起成功、一起把行業(yè)做出價(jià)值的過程里面,我們希望能夠幫助大家。
  
  也在這里提前給大家做個(gè)預(yù)告,今年8月的世界機(jī)器人大會(huì)(WRC)上,星海圖將正式發(fā)布我們的具身基礎(chǔ)模型,并開源 Preview 版本,其背后使用的就是前面提到的整套本體與真實(shí)場(chǎng)景的數(shù)據(jù)管線。
  
  而到今年9月底的CoRL(Conference on Robot Learning)上,我們也將進(jìn)一步開放我們的數(shù)據(jù)集與完整的訓(xùn)練模型,歡迎大家提前關(guān)注。這兩次重要的開源發(fā)布,我們希望能夠?qū)呱碇悄艿拈_發(fā)應(yīng)用起到激活的作用。
  
  同時(shí),我們也想分享一下目前在全球范圍內(nèi)與我們合作的一些開發(fā)者案例。很多人一提到“開發(fā)者”,可能第一反應(yīng)是科研人員,但其實(shí)真的遠(yuǎn)不止如此。
  
  開發(fā)者是一個(gè)廣義的群體,有在高校進(jìn)行研究的老師和博士生,也有國(guó)家資助的重點(diǎn)實(shí)驗(yàn)室,更有大廠里的前沿創(chuàng)新團(tuán)隊(duì),以及不斷涌現(xiàn)的創(chuàng)業(yè)公司。
  
  最早使用我們 R1 整機(jī)進(jìn)行全身遙操作訓(xùn)練的,是斯坦福李飛飛團(tuán)隊(duì);在北美,有多家創(chuàng)業(yè)公司在倉(cāng)儲(chǔ)與后廚等典型場(chǎng)景中使用我們的平臺(tái)開發(fā)應(yīng)用。我們也協(xié)助上海人形機(jī)器人創(chuàng)新中心構(gòu)建了他們的第一個(gè)數(shù)據(jù)采集場(chǎng),并助力 Physical Intelligence 團(tuán)隊(duì)完成了 π0.5 模型的研發(fā)。除此之外,華為云、螞蟻集團(tuán)都是我們重要的開發(fā)者生態(tài)伙伴。
  
  說到這里,我想最后分享一個(gè)觀點(diǎn),就是我們看到具身智能已經(jīng)走到了“上半場(chǎng)”的結(jié)尾,正在迎來“下半場(chǎng)”。幸運(yùn)的是,我們?cè)诮?jīng)歷具身智能上半場(chǎng)的同時(shí),觀察到了隔壁大語言模型的下半場(chǎng)是長(zhǎng)什么樣的,一定是“應(yīng)用為王”。
  
  具身智能的應(yīng)用什么時(shí)候能來,我們還是從供給側(cè)、需求側(cè)簡(jiǎn)單分析一下,為什么我們說 2026 年是具身智能應(yīng)用的元年。
  
  從供給側(cè)來看,最核心的幾個(gè)變量正在同時(shí)成熟。第一個(gè)是本體的成熟,不僅僅是星海圖自己的機(jī)器人本體,整個(gè)行業(yè)中也有越來越多高質(zhì)量的本體平臺(tái)在逐漸成熟穩(wěn)定;第二個(gè)是基礎(chǔ)模型具備了一定的泛化能力。
  
  模型的供給能力有幾個(gè)定量的指標(biāo)非常重要,第一是操作精度,具身智能模型目前可以做到的操作精度是厘米級(jí);第二是操作速度,目前智能系統(tǒng)的操作速度大約是人類的70%到80%;第三是泛化能力,目前機(jī)器人學(xué)習(xí)新任務(wù)的樣本量大約在百條量級(jí),也就是我們說的“少樣本泛化”。這些指標(biāo)逐漸穩(wěn)定,就意味著下游的應(yīng)用釋放也將進(jìn)入實(shí)質(zhì)階段。
  
  同時(shí)還有一個(gè)很關(guān)鍵的要素,就我們看到全球范圍內(nèi),具身智能的開發(fā)者群體在快速地增加。
  
  需求側(cè)其實(shí)也有很重要的變化,過去兩年在我看來基本上是“全民探索具身智能可用場(chǎng)景”的階段。無論是大公司還是中小企業(yè),大家都在尋找用具身智能優(yōu)化工作流程的機(jī)會(huì)。這個(gè)過程中,很多應(yīng)用場(chǎng)景也開始逐漸清晰,而市場(chǎng)的預(yù)期也在變得更加理性。
  
  兩年前,特斯拉展示人形機(jī)器人 Demo 的時(shí)候,很多人一度期待機(jī)器人能在短期內(nèi)取代整條生產(chǎn)線的工人,但現(xiàn)在更多人開始意識(shí)到,具身智能要從局部環(huán)節(jié)、工站式任務(wù)、服務(wù)型應(yīng)用逐步切入,先跑通商業(yè)路徑,再進(jìn)入規(guī)?;涞亍?/div>
  
  基于這些變化,我們堅(jiān)定地認(rèn)為,2026年將真正成為具身智能下半場(chǎng)的開啟之年。而這個(gè)下半場(chǎng)的核心,就是應(yīng)用。
  
  在這個(gè)過程中,星海圖自己不僅要加油努力,我們也愿意與行業(yè)中的合作伙伴、客戶一起共創(chuàng)、共研,一起推動(dòng)具身智能走向真正的落地時(shí)刻。
  
  如對(duì)星海圖產(chǎn)品感興趣,歡迎聯(lián)系咨詢:
  
  熱線電話:4008 780 980
  
  郵箱地址:product@galaxea.ai
我要收藏
點(diǎn)個(gè)贊吧
轉(zhuǎn)發(fā)分享
上一篇:用“具身大腦”重構(gòu)機(jī)器人的“尋路邏輯”
下一篇: 安森美AI數(shù)據(jù)中心系統(tǒng)方案指南上線