李想是真懂自動(dòng)駕駛細(xì)節(jié)
李想是真懂自動(dòng)駕駛細(xì)節(jié)
2024年6月8日,李想在重慶作了關(guān)于理想汽車(chē)自動(dòng)駕駛技術(shù)突破的脫稿演講,李想專(zhuān)門(mén)強(qiáng)調(diào)了是自動(dòng)駕駛,不是智能駕駛,不是輔助駕駛。
李想講的內(nèi)容核心框架實(shí)際上和理想汽車(chē)智能駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬2024年3月底在英偉達(dá)GTC 2024上講的內(nèi)容是完全一致的。

脫稿+舉的例子不一樣表明了李想是完全搞懂了自動(dòng)駕駛技術(shù)路線(xiàn)核心框架的。
李想提到基于現(xiàn)有的計(jì)算平臺(tái),有監(jiān)督的L3級(jí)別自動(dòng)駕駛100%可實(shí)現(xiàn),最早今年年底,最晚明天年初就會(huì)全量推送,無(wú)監(jiān)督的L4自動(dòng)駕駛?cè)陜?nèi)一定可以實(shí)現(xiàn)。
理想汽車(chē)的自動(dòng)駕駛路線(xiàn)核心思路是用一顆Orin X芯片用于端到端,一顆Orin X用于VLM,端到端為系統(tǒng)一,處理所有的正常的自動(dòng)駕駛,VLM為系統(tǒng)二,來(lái)解決兜底和泛化的能力。
軟件2.0與1.0最大的區(qū)別是1.0本質(zhì)是具備功能,2.0是具備能力。功能是通過(guò)測(cè)試和實(shí)驗(yàn)來(lái)驗(yàn)證,而理想汽車(chē)通過(guò)生成式的世界模型來(lái)對(duì)自動(dòng)駕駛能力進(jìn)行考試。
李想脫稿演講原視頻:
李想脫稿演講全文:
今天跟大家分享做的一個(gè)重要的技術(shù)的一個(gè)突破,是關(guān)于自動(dòng)駕駛的技術(shù)的突破。我這里強(qiáng)調(diào)一下,我講的是四個(gè)字是自動(dòng)駕駛。對(duì),然后不是智能駕駛,也不是輔助駕駛,我覺(jué)得這是最關(guān)鍵的。那我們自己我們自己內(nèi)部是從去年的九月份開(kāi)始,來(lái)思考一個(gè)問(wèn)題,并專(zhuān)門(mén)建立了一個(gè)用于自動(dòng)駕駛研究的一個(gè)團(tuán)隊(duì)。就是一個(gè)最簡(jiǎn)單的一個(gè)問(wèn)題,人類(lèi)開(kāi)車(chē)為什么不涉及學(xué)習(xí)corner case?如果我們不能解決這個(gè)問(wèn)題,所有的自動(dòng)駕駛團(tuán)隊(duì)每天干的活都是靠人工去調(diào)試各種各樣的corner case。而且放的人越多,corner case越多,然后合作真正的自動(dòng)駕駛就越遙遠(yuǎn)。
這里邊最核心的一個(gè)原因是,當(dāng)人工智能技術(shù)在不斷的發(fā)展的時(shí)候,我們會(huì)發(fā)現(xiàn)其實(shí)人類(lèi)開(kāi)車(chē)的方式不是我們過(guò)去的這么多年里,用了自動(dòng)駕駛的研發(fā)的一個(gè)方式,這是一個(gè)根本的一個(gè)不同。因?yàn)槿碎_(kāi)車(chē)沒(méi)那么辛苦,沒(méi)那么累。不需要養(yǎng)幾千人的團(tuán)隊(duì)去搞corner case,而且團(tuán)隊(duì)越多corner case又越多。所以這時(shí)候我們就從理論和技術(shù)的兩個(gè)角度去研究。人類(lèi)到底怎么開(kāi)車(chē)的。新的技術(shù)如何解決人類(lèi)開(kāi)車(chē)的解決自動(dòng)駕駛自動(dòng)駕駛開(kāi)車(chē)的問(wèn)題。
首先其實(shí)從理論的角度,我們先是從一本書(shū)里得到了一個(gè)啟示,這本書(shū)叫《思考快與慢》。思考快一慢來(lái)講述了其實(shí)我們?nèi)粘5臅r(shí)候,大腦在工作的時(shí)候是分為系統(tǒng)一和系統(tǒng)二。然后系統(tǒng)一來(lái)處理一些直覺(jué),快速響應(yīng)的事情。事情其實(shí)就像我們?cè)陂_(kāi)車(chē),很多時(shí)候我們?cè)陂_(kāi)車(chē)開(kāi)了10分鐘、20分鐘、30分鐘,其實(shí)腦子里在想別的事情。但是我們?nèi)匀荒軌蛟谔幚砺飞系母鞣N的路況,甚至開(kāi)到家的時(shí)候忘記了,過(guò)去這半個(gè)小時(shí)我們是怎么去工作的。其實(shí)這時(shí)候就意味著我們?cè)谟孟到y(tǒng)一在工作。
其實(shí)并不是我們的大腦并沒(méi)有不在工作,是我們大腦以一種它獨(dú)有的方式,低能耗的方式在工作。當(dāng)當(dāng)我們?nèi)サ揭粋€(gè)復(fù)雜的,比如一個(gè)十字路口卡死了,或者我開(kāi)到一個(gè)地方遇到一個(gè)水坑,那這時(shí)候我就會(huì)調(diào)用自己的大腦系統(tǒng)二來(lái)工作,他來(lái)處理這種要復(fù)雜的邏輯的推演的這樣的一個(gè)能力。但是他對(duì)大腦的消耗是比較大的,所以大家不會(huì)一直用系統(tǒng)二的方式來(lái)進(jìn)行開(kāi)車(chē)。但是解決各種復(fù)雜路況,解決泛化的問(wèn)題,解決未知的問(wèn)題,然后大腦會(huì)啟用系統(tǒng)二來(lái)工作。所以正常的話(huà),如果我們看我們開(kāi)車(chē)的話(huà),基本上90%時(shí)間在使用系統(tǒng)一,5%的時(shí)間在使用系統(tǒng)二。
所以這么的話(huà),人腦每天并不需要很多的工號(hào),然后人也不需要學(xué)習(xí)corner case,就能學(xué)會(huì)開(kāi)車(chē)。那這時(shí)候我們?cè)谙?,如果是這樣的人類(lèi)的一個(gè)工作方式,那自動(dòng)駕駛應(yīng)該怎么工作呢?什么是自動(dòng)駕駛的系統(tǒng)一,什么是自動(dòng)駕駛的系統(tǒng)二?那我們自己隨著對(duì)各種技術(shù)的研究,自動(dòng)駕駛的系統(tǒng)一其實(shí)就是今天很多的自動(dòng)駕駛團(tuán)隊(duì)都在做的端到端的這樣的一個(gè)技術(shù)。端到端就意味著其實(shí)我們把完整的訓(xùn)練片段放進(jìn)來(lái),最后產(chǎn)生的結(jié)果是輸入直接產(chǎn)生輸出。而不是像過(guò)往的一個(gè)感知的模塊,一個(gè)規(guī)劃的模塊,一個(gè)決策的模塊,一個(gè)執(zhí)行的模塊,那這樣的效率更高。但是他的挑戰(zhàn)也來(lái)了,也不需要各類(lèi)各種人類(lèi)的規(guī)則在里邊,也不會(huì)發(fā)揮作用了。
它的挑戰(zhàn)主要來(lái)自于三個(gè)方面。第一個(gè)你要有真正會(huì)做端到端,也包含這方面的數(shù)據(jù)訓(xùn)練的人才。第二個(gè)需要真正高質(zhì)量的數(shù)據(jù)。我覺(jué)得第三個(gè)是需要足夠多的算力。因?yàn)槎说蕉藢?duì)于算力的需求和以往是變得完全不一樣了。
我們?cè)诙说蕉朔矫娴淖龅倪^(guò)去在做的整個(gè)研究的測(cè)試,是我們大概放入了100萬(wàn)的clips,用于端到端的訓(xùn)練,大概只需要做大概十輪左右的,就一個(gè)月10輪左右的訓(xùn)練,卡要足夠多,基本上就可以完成一個(gè)無(wú)圖Noa相同的一個(gè)上限的水平。所以我覺(jué)得這是第一點(diǎn)。但是面對(duì)中國(guó)的復(fù)雜路況,其實(shí)只有端到端是不夠的。我們要去思考什么是系統(tǒng)二。系統(tǒng)二的啟發(fā)在于什么呢?系統(tǒng)二的啟發(fā)在于其實(shí)解決各種各樣的corner case和各種的泛化的這樣的一個(gè)問(wèn)題。然后人類(lèi)并不是通過(guò)學(xué)習(xí)corner case的。
這里邊最明顯的一個(gè)案例,一個(gè)啟發(fā)什么呢?是我的愛(ài)人,我愛(ài)人剛學(xué)會(huì)開(kāi)車(chē)很長(zhǎng)的一段時(shí)間,連續(xù)好多年。其實(shí)她不停的剮蹭,你跟她分析下一次怎么不再剮蹭,其實(shí)沒(méi)有用。但下一次還是是剮蹭,我們就在想是不是因?yàn)槲屹I(mǎi)的車(chē),這個(gè)車(chē)的個(gè)頭太大了,一輛寶馬X6,所以我換一輛小的車(chē),換一輛高爾夫GTI仍然去剮蹭。那怎么說(shuō)其實(shí)都會(huì)剮蹭。這時(shí)候我們會(huì)發(fā)現(xiàn),其實(shí)學(xué)習(xí)corner case沒(méi)有用。我們能不能通過(guò)提升能力的方式?
所以當(dāng)時(shí)我做了一個(gè)挺重要的一個(gè)判斷是給我愛(ài)人,然后報(bào)什么呢?報(bào)寶馬駕駛培訓(xùn)的初級(jí)班。對(duì),然后寶馬駕駛培訓(xùn)初級(jí)班一整天其實(shí)通過(guò)各種各樣的方式只教了兩個(gè)。第一個(gè)是無(wú)論是你在賽道上過(guò)彎,還是你在繞樁,還是在處理環(huán)形的這個(gè)路面的時(shí)候,你在打轉(zhuǎn)向之前,你的眼睛看往哪里,不是看你要通過(guò)的路口,而是看對(duì)你接下來(lái)要去的地方。這是用各種各樣的方式來(lái)教我們?cè)陂_(kāi)車(chē)的時(shí)候如何去看路。
另外一方面,寶馬的駕駛培訓(xùn)班還交了另外一個(gè)能力,就是在各種復(fù)雜的場(chǎng)景里如何把剎車(chē)踩到底。包含在濕滑的路面,在轉(zhuǎn)彎的路面,在一半鋼板一半道路的路面,如何能夠把剎車(chē)踩到底,從而提升一個(gè)人對(duì)于整個(gè)剎車(chē)能力的認(rèn)知。所以整個(gè)的寶馬駕駛培訓(xùn)的初級(jí)班,一整天的時(shí)間只教了兩個(gè)事情。第一個(gè)是教你看路的能力,第二個(gè)是教你剎車(chē)的能力。對(duì)他沒(méi)有教任何的corner。
只經(jīng)過(guò)這么一天的訓(xùn)練,然后我愛(ài)人就徹底和剮蹭告別了。在接下來(lái)的十幾年里邊,沒(méi)有出現(xiàn)過(guò)任何的剮蹭。所以我說(shuō)這是人類(lèi)其實(shí)學(xué)習(xí)的一個(gè)方式。
我們?cè)倏紤]說(shuō)如何把這樣的能力給到車(chē)上。然后我們看到一個(gè)很重要的一個(gè)技術(shù)是VLM,就是視覺(jué)語(yǔ)言模型。為什么不是視覺(jué)大語(yǔ)言模型?是視覺(jué)語(yǔ)言模型是因?yàn)槲覀儧](méi)有辦法把一個(gè)大模型在云端讓車(chē)來(lái)使用。因?yàn)檫@個(gè)響應(yīng)速度就會(huì)車(chē)毀人亡了。所以我們還是其實(shí)如何把一個(gè)世界大語(yǔ)言模型進(jìn)行足夠的壓縮,然后最后能夠放到車(chē)上去。它能夠再面對(duì)一個(gè)沒(méi)有紅綠燈的左轉(zhuǎn)路口,提前做出預(yù)判。然后來(lái)知道我這個(gè)路口如何進(jìn)行特殊的處理,進(jìn)行復(fù)雜的處理。
它還有另外一個(gè)重要的功能,就是告別高精地圖,也告別所有的輕圖在內(nèi)的方式。為什么呢?因?yàn)橐曈X(jué)的語(yǔ)言模型還有一個(gè)最重要的功能,是能夠像人類(lèi)一樣去讀懂導(dǎo)航地圖。包含導(dǎo)航地圖的橫向縱向速度,然后時(shí)間還要包含紅綠燈的,哪怕有車(chē)輛的遮擋,其實(shí)紅綠燈也不會(huì)再成為問(wèn)題。所以我們會(huì)發(fā)現(xiàn)其實(shí)可以有效的通過(guò)世界語(yǔ)言模型,來(lái)解決系統(tǒng)二的問(wèn)題。一方面為端到端進(jìn)行一個(gè)兜底,另外一方面能解決各種各樣的泛化的問(wèn)題。所以我們就發(fā)現(xiàn)非常有意思。我們的車(chē)的AD max有兩個(gè)芯片,有兩顆Orin X的芯片,正好一顆Orin X芯片可以跑端到端,另外一顆Orin X芯片可以跑可以來(lái)運(yùn)行。一個(gè)壓縮到大概20億規(guī)模的一個(gè)VLM的模型。
那整個(gè)的結(jié)果,我們的驗(yàn)證的一個(gè)結(jié)果其實(shí)是非常興奮的。我們認(rèn)為最早在今年年底,最晚在明年的上半年,真正的這種L3,我對(duì)L3的定義是有監(jiān)督的自動(dòng)駕駛,就可以批量向用戶(hù)交付了,而不是只是用于在做實(shí)驗(yàn)。
解決這兩個(gè)問(wèn)題以后,其實(shí)還有第三個(gè)問(wèn)題。對(duì),因?yàn)槎说蕉耸莻€(gè)黑盒子,然后VLM其實(shí)也是黑盒子。它跟過(guò)去的時(shí)候我們?cè)谧鲋悄荞{駛,做輔助駕駛一個(gè)很大的不同是它不再是功能,它是能力。我覺(jué)得AI最大的差別是能力。而過(guò)去的編程體系最重要的是功能,功能是要通過(guò)測(cè)試和實(shí)驗(yàn)來(lái)驗(yàn)證的。但是能力一個(gè)黑盒子怎么拿測(cè)試和實(shí)驗(yàn)來(lái)驗(yàn)證是不可能的。所以這時(shí)候的一個(gè)新的挑戰(zhàn)就是我們用什么樣的技術(shù)方式來(lái)驗(yàn)證能力。
這時(shí)候我們又找到了一個(gè)新的一個(gè)方式,其實(shí)主要的這個(gè)原理是來(lái)自于Sora,就是我們用Diffusion Transform的方式來(lái)構(gòu)建一個(gè)重要的一個(gè)小型的世界模型,會(huì)拿這個(gè)世界模型,然后讓我們的車(chē)在里邊進(jìn)行考試。所以這么著其實(shí)我們模擬人的一套真正的工作原理就開(kāi)始呈現(xiàn)了。然后端到端來(lái)承載人的系統(tǒng)一,然后VLM來(lái)承載人的系統(tǒng)二,系統(tǒng)一來(lái)解決所有的正常的自動(dòng)駕駛。這些反應(yīng),這些駕駛的能力,然后系統(tǒng)二來(lái)解決兜底和泛化的這種能力,并應(yīng)用生成式的這種小的世界模型來(lái)進(jìn)行考試。這是我們?cè)谶^(guò)去的一段時(shí)間里,做的最重要的一個(gè)技術(shù)性的一個(gè)突破。而且我們的研究團(tuán)隊(duì)已經(jīng)完全通過(guò)了正常的研究的驗(yàn)證。那接下來(lái)的我們會(huì)怎么樣呢?
我們會(huì)在三季度正式推我們的全國(guó)的無(wú)圖Noa的時(shí)候,也會(huì)向我們的測(cè)試用戶(hù)來(lái)推。我們大概通過(guò)300萬(wàn)的clips來(lái)訓(xùn)練出來(lái)的。剛才的然后端到端加VLM,然后這樣他一套的我認(rèn)為是監(jiān)督型的自動(dòng)駕駛的體系。我們認(rèn)為其實(shí)最早的話(huà)會(huì)在今年的年底,最晚明年年初,我們會(huì)大概推出通過(guò)超過(guò)1000萬(wàn)的clips的訓(xùn)練,端到端加VLM的整個(gè)的帶有監(jiān)督的自動(dòng)駕駛的體系。我們認(rèn)為這套VLM加有端到端加VLM,再加這種生成式的驗(yàn)證系統(tǒng),也會(huì)是未來(lái)的整個(gè)物理世界機(jī)器人最重要的技術(shù)架構(gòu)和技術(shù)體系。在接下來(lái)的一段時(shí)間里,包含最近本月還有下月的幾個(gè)關(guān)鍵的AI方面的技術(shù)論壇里。我們的這個(gè)技術(shù)研究的同事也會(huì)向整個(gè)的行業(yè)來(lái)分享我們對(duì)這方面的所有的研究。這里邊的原理和實(shí)際的結(jié)果,能夠把我們進(jìn)行的一些探索,能夠與同行們進(jìn)行有效的一個(gè)分享。
另外一方面就是說(shuō)我剛才講的,我們會(huì)在七月份到最早年底,最晚明年年初,把這樣的技術(shù)帶給真正的用戶(hù)。通過(guò)這樣的技術(shù),我們可以確定的堅(jiān)信一件事情,就在現(xiàn)有的計(jì)算平臺(tái)上,帶有監(jiān)督的L3級(jí)別的輔助駕駛,L3級(jí)別的自動(dòng)駕駛是百分之百可以實(shí)現(xiàn)的。而且隨著這套技術(shù)的演進(jìn),算力的增強(qiáng),模型的加大,對(duì)我認(rèn)為無(wú)監(jiān)督的L4自動(dòng)駕駛也會(huì)在至少三年內(nèi)一定可以實(shí)現(xiàn)。
好,謝謝大家。
如果你希望深度交流理想長(zhǎng)期基本面,加微信,進(jìn)理想群。不是車(chē)友群。
我要收藏
點(diǎn)個(gè)贊吧
轉(zhuǎn)發(fā)分享
咨詢(xún)?cè)斍椋?/strong>如需咨詢(xún)文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請(qǐng)加微信:ZiDongHuaX 。
微信聯(lián)盟:理想汽車(chē)微信群、人工智能微信群、機(jī)器人微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線(xiàn)監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線(xiàn)監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語(yǔ)
微信聯(lián)盟:理想汽車(chē)微信群、人工智能微信群、機(jī)器人微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線(xiàn)監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線(xiàn)監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語(yǔ)


評(píng)論排行