深度觀點 | 星海圖趙行:我們希望為所有具身智能開發(fā)者提供好硬件、好數(shù)據(jù)、好模型和好工具
【ZiDongHua 之“會展賽培壇”收錄關鍵詞:星海圖 機器人 具身智能 】
深度觀點 | 星海圖趙行:我們希望為所有具身智能開發(fā)者提供好硬件、好數(shù)據(jù)、好模型和好工具

2025年8月11日,星海圖首席科學家趙行受邀出席2025世界機器人大會(2025 WRC),并發(fā)表主題演講《前沿技術首發(fā):星海圖VLA模型——開啟具身智能新紀元》。以下為本次演講全文實錄。
大家好,我是星海圖的趙行,很高興有機會和大家進行分享,今天這個時間非常特殊,因為就在今天我們正式發(fā)布了星海圖首個VLA模型——星海圖G0,以及我們的開源數(shù)據(jù)集——星海圖開放世界數(shù)據(jù)集。
我們把數(shù)據(jù)采集機器人部署到了真實的開放世界中進行數(shù)據(jù)采集,包括一系列家庭生活服務的場景。采集員通過遙操作的方式控制機器人,讓機器人去完成復雜的、長程的、日常的任務。
這個數(shù)據(jù)集包含了500個小時的機器人與物理世界交互的數(shù)據(jù),包括了50個不同場景、150個真實世界的任務。在采集完這些數(shù)據(jù)以后,我們預訓練了VLA模型G0,在下游的任務里,G0 模型展現(xiàn)出了強大的泛化能力。例如在機器人鋪床的任務上,測試員可以隨機打亂場景,機器人會觀察環(huán)境并做出決策,最后閉環(huán)控制完成任務。同時我們在一系列不同的任務和場景上進行了模型測試,比如說不同任務之間的串聯(lián),以及雙臂操作等。
剛才大家看到的這些展示,都只使用了不到 100 條的數(shù)據(jù)來進行模型訓練進而完成的。在這次 WRC 的展會上,大家也可以來到我們的展臺上,實時地看到我們的機器人進行鋪床整理的展示。我們在每一個整點都會有機器人自主鋪床的任務演示,并有相應的講解。
下面說一說我們?yōu)槭裁匆鲞@個事情,剛才說到我們發(fā)布了兩個重磅的成果,第一個是數(shù)據(jù)集,第二個是我們的模型。其實我自己在AI領域已經工作了十多年了,在這十多年里給我最大的震撼是什么?我覺得第一個大家可能都知道是 OpenAI 在幾年前推出的Scaling Law。

Scaling Law講的是什么?講的是我們的AI 模型,隨著它的數(shù)據(jù)規(guī)模擴大,隨著計算量的增加以及模型大小的增長,我們的性能將會持續(xù)地進行提升。這不是學術界的一個經典論調,而是更偏工業(yè)界和產業(yè)化的規(guī)律,就像摩爾定律一樣,我們相信只要計算量能增加五倍到十倍,AI性能就也能夠有相應的有五倍到十倍的提升。
另一個對我影響很大的,我相信也是對很多學 AI 的人影響很大的是一個essay——the Better Lesson,這是最近獲得圖靈獎提名的Richard老師提出的,在對于 AI 過去發(fā)展 70 年的觀察中,他發(fā)現(xiàn)其實很多算法的改進或者說方法的改進其實并不能大幅提升模型的能力。
相反的,隨著計算的提升,我們的 AI 才實現(xiàn)了真正的進展。當然這個論調也并不是說我們只有發(fā)展算力才是正確的路線,我們仍然要做方法,那有哪些方法呢?在Richard的觀點中我們要做元方法 Meta Methods,第一類元方法叫做學習,第二類元方法叫做搜索。那么我們反觀現(xiàn)在具身智能的發(fā)展,什么是學習?什么是搜索?學習,也就是說我們通過給機器人大量的釋義的數(shù)據(jù),讓機器人學會它應該怎么做。搜索則是通過機器人自主地在環(huán)境里進行探索和試錯學會什么是正確的。
對應到具身智能的發(fā)展里,正好對應著兩個重要的技術,第一個是模仿學習,第二個是強化學習。模仿學習對于機器人操作這個領域來說,已經成為了公認的技術路線和方法。從機器人醫(yī)療手術實驗,到谷歌機器人的桌面操作和具身理解大模型,都使用了模仿學習這條技術路線。
當然我們既然說到模仿學習,就逃不開數(shù)據(jù)。我們模仿學習的算法可以通過聰明的工程師、聰明的科學家來獲得,但是數(shù)據(jù)我們要怎么獲得呢?
大家都知道我們具身智能的數(shù)據(jù)金字塔,在這個數(shù)據(jù)金字塔的底端是我們互聯(lián)網上的視頻數(shù)據(jù),互聯(lián)網上的視頻數(shù)據(jù)都是通過眾包采集而來的,優(yōu)點就是我們擁有海量的數(shù)據(jù)體量,但是這些數(shù)據(jù)中沒有動作的信息,我們可能可以從里面提取出人手動作的信息,但我們沒有辦法去想象在這樣的數(shù)據(jù)里,機器人的動作該怎樣執(zhí)行。
在金字塔的中間是我們常提到的仿真數(shù)據(jù),仿真數(shù)據(jù)是一種非常有意思的切入方法,我們通過計算來換時間。因為我們可以構建仿真器,并且使用多臺計算機同時進行仿真來獲取數(shù)據(jù),這樣數(shù)據(jù)獲取速度會比我們在真實世界進行數(shù)據(jù)采集更快,但是它也遇到一個巨大的挑戰(zhàn),叫做 sim to real gap,也就是說我們在仿真里獲取的數(shù)據(jù)和真實世界中真實發(fā)生的事情相差特別大。
在金字塔的頂端,是大家更經常討論的真機數(shù)據(jù),也就是說我們要帶著機器人去真實世界里采集數(shù)據(jù)。星海圖認為真機數(shù)據(jù)是最重要的,是打破具身智能天花板能力的關鍵技術。但是不知道大家有沒有意識到,即便是真實數(shù)據(jù)也是有區(qū)別的,我們不僅存在 sim to real gap,我們甚至還存在 real to real gap。

什么是 real to real gap?我們會有很多團隊和公司,大家會積極地去構建機器人的數(shù)據(jù)采集場,在這些數(shù)據(jù)采集場里,我們非常希望去構建一些復雜的環(huán)境,比如說我們去構建一個家庭環(huán)境,這個家庭環(huán)境窗明幾凈、一塵不染,然后就在里面采集了很多的數(shù)據(jù)。
但是當我們把機器人部署到真實的環(huán)境里去以后,東西亂堆亂放,和我們的數(shù)據(jù)采集場完全不一樣,機器人瞬間就傻眼了,他不知道該如何去面對應對這種更加真實和復雜場景。
當意識到這個問題以后,我們在去年底決定開始做這個事情,也就是說我們要進入真實的世界里去采集數(shù)據(jù),不希望我們的機器人像賽車場里的賽車一樣不停地繞圈,而希望我們的車走到真實的道路上、公開的道路上去面對、應對真實的交通和駕駛場景,我們也希望機器人到真實的家庭里去看一看、走一走、做一做、干一干,最后把數(shù)據(jù)收集回來,訓練我們的具身基礎模型。
接下來的內容更多是我們在數(shù)據(jù)采集標注和模型訓練里的一些技術心得的分享。首先我們發(fā)現(xiàn)數(shù)據(jù)標注特別重要,因為我們的目標是訓練VLA模型(Vision Language Action),其中Language的存在非常的重要,因為Language定義了我們人類的和機器人的交互界面,同時也會把原本長程的任務切分成小的任務,讓機器人能更好地進行執(zhí)行。
在完成了數(shù)據(jù)標注以后,我們的模型G0是一個雙系統(tǒng)大模型,它分為兩部分,系統(tǒng)1和系統(tǒng)2。系統(tǒng)1是我們說到的端到端的快執(zhí)行模型,系統(tǒng)2是一個慢思考,能和人類交互,把任務進行拆解的慢模型。通過這兩個模型聯(lián)合在我們的開放世界數(shù)據(jù)集上進行訓練,并把他們聯(lián)合部署到我們的機器人上,能夠端到端的完成我們機器人要面對的任務和問題。
可能有人會說為什么我們要把這個機器人的模型分為兩層呢?我覺得這個在生物進化上是有一定的道理的。首先我們觀察人類,我們人類的這個大腦皮層的視覺感知能力,語言中樞理解能力,以及我們小腦的控制能力,我們的四肢身體運動能力。其實他們并沒有運行在同一個頻率上,這是為什么呢?這是進化的結果,進化告訴我們分工,合理的分工是必要的,它能夠大幅提高能量的利用率,這個對于機器人來說也是適用的,這樣我們就能夠把這個雙系統(tǒng)模型真正地落地部署到機器人上,機器人不再會因為它思考得慢,所以動作也變慢。
我們的系統(tǒng)1和系統(tǒng)2是并行推理的,是不同的速度的兩個模型。但是這兩個模型并不是孤立的,在進化的過程中,因為數(shù)據(jù)的原因,他們會自發(fā)地進行合理的信息和特征的傳遞。往未來看,我甚至相信系統(tǒng)1和系統(tǒng)2之間會相互進行轉化。例如,當我第一次學一個任務的時候,我要很嚴密地進行思考,但當我第二次、第三次、第四次做同一個任務的時候,我不再需要我的大腦進行嚴密地思考,我可以把它這個運動和動作記下來,直接記在我的小腦模型里,自發(fā)地、下意識地去完成任務。
接下來再來講一講我們的算法設計,我們要分清模型、算法、數(shù)據(jù),它是三個不同的概念。首先是算法,在這個大模型時代,有兩個最火熱的算法,第一個叫做自回歸模型Next Token Prediction。第二個算法叫做Diffusion Model 擴散模型,我們發(fā)現(xiàn)合理地組合這兩種最當下最有用、最有效的大模型訓練方法,能夠大幅提升具身智能VLA模型的效果。具體來說,我們首先在第一階段使用跨本體的數(shù)據(jù),通過自回歸學習的Next Token Prediction的方法去進行第一階段的模型預訓練。
然后使用我們星海圖自己采集的單本體高質量的數(shù)據(jù)去進行第二階段的預訓練,但不同的是第二階段的預訓練我們會給機器人加上一個Action Expert或者是個Action Decoder,它也是一個Transformer模型。通過第二階段的預訓練,機器人能夠真正學習在這個單本體上,控制自己身體的能力。
最后第三階段是一個后訓練的階段,如果我們要面對的任務非常的復雜和長程,那么我們大概率需要采集幾條后訓練的數(shù)據(jù),然后來微調我們的模型。那么這個第二階段預訓練和我們的后訓練階段都使用的是這種擴散模型的學習方法。我們經過了一系列的實驗和分析,發(fā)現(xiàn)這樣的訓練方式和組合是一個能讓我們得到最好結果的一個方案。
我們在一系列的任務上進行了對我們VLA模型的評測。然后我們也和當下全世界最火的開源模型π0進行了對比,我們發(fā)現(xiàn)在許多任務上,我們的預訓練模型會優(yōu)于π0,那么在多個模型平均下來以后的結果,發(fā)現(xiàn)我們的G0模型超越π0模型20個百分點,再接下來我們還做了更極限的測試,我們讓后訓練數(shù)據(jù)只有 20條,也就是說面對一個非常復雜的問題的時候,我們的預訓練模型不再能夠進行大規(guī)模的后訓練,他只能看到少量的示范,我們發(fā)現(xiàn)即便在20條數(shù)據(jù)的情況下,我們的G0模型仍然能夠表現(xiàn)得非常出色。
在這些任務里,甚至有一些很有意思的觀察,我們發(fā)現(xiàn)跨本體預訓練的效果遠不如單本體預訓練的效果。這個也就是告訴我們其實機器人模型的機器人具身智能模型的能力其實是和本體緊密相關的,那么就要去在針對性地對于我們想要使用的具身智能的本體以上去進行數(shù)據(jù)的采集,這個也告訴我們,實際上具身智能它是一個從模型回到數(shù)據(jù),再回看機器人本體這個全鏈條的事情,我們要把它做好,光靠一家公司是不足夠的。
所以說接下來星海圖會重點去發(fā)展貢獻我們的開發(fā)者群體,希望為所有具身智能開發(fā)者群體提供好的硬件、好的數(shù)據(jù)、好的預訓練模型的 checkpoint 以及后訓練微調的工具,希望通過這樣的方式聚合更多的開發(fā)者,一起把具身智能做好,邁向具身智能和人形機器人的下一個臺階,我們的模型和數(shù)據(jù)集將在未來的幾周開源。歡迎感興趣的同學、老師、開發(fā)者們來關注我們的項目網站,謝謝大家。
我要收藏
點個贊吧
轉發(fā)分享
咨詢詳情:如需咨詢文中涉及的相關產品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:機器人微信群、具身智能微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農業(yè)在線監(jiān)測儀器 查看各品牌在細分領域的定位宣傳語
微信聯(lián)盟:機器人微信群、具身智能微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農業(yè)在線監(jiān)測儀器 查看各品牌在細分領域的定位宣傳語


評論排行