【ZiDongHua 之“駕駛自動(dòng)化”收錄關(guān)鍵詞:毫末智行 自動(dòng)駕駛 計(jì)算機(jī)視覺(jué) 傳感器
 
  毫有引力|國(guó)際頂賽雙獎(jiǎng)!毫末“快-慢雙系統(tǒng)”展現(xiàn)中國(guó)自動(dòng)駕駛硬實(shí)力
 
  
 

快系統(tǒng)實(shí)時(shí)響應(yīng),慢系統(tǒng)智能決策!

快如閃電,穩(wěn)若泰山!
毫末雙系統(tǒng)閃耀國(guó)際頂尖賽事
端到端自動(dòng)駕駛再攀技術(shù)高峰

想知道毫末如何用快慢雙擎征服全球賽道?

3分鐘帶你直擊技術(shù)內(nèi)核

 

6月11日-15日,2025國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議 CVPR 2025( Conference on Computer Vision and Pattern Recognition 2025)在美國(guó)田納西州召開(kāi)。毫末智行團(tuán)隊(duì)與清華大學(xué)聯(lián)合提出的快系統(tǒng) HMAD在 CVPR 2025 NavSim E2E Driving 挑戰(zhàn)賽上獲得第三名;同時(shí),在 Waymo Vision-based End-to-End Driving Challenge 上,毫末慢系統(tǒng) HMVLM 僅使用 Waymo Open Dataset 訓(xùn)練獲得第二名。

 

圖1:快系統(tǒng)獲第三名

 

毫末的自動(dòng)駕駛研發(fā)起步于感知大模型,著眼于泛化的環(huán)境理解與場(chǎng)景識(shí)別,團(tuán)隊(duì)先后探索了兩段式方案、視覺(jué)問(wèn)答 VQA( Visual Question Answering )任務(wù),不斷推動(dòng)感知到?jīng)Q策的邊界。隨著端到端 E2E( End-to-End )技術(shù)日益成為行業(yè)共識(shí),團(tuán)隊(duì)逐步轉(zhuǎn)向一段式軌跡輸出的端到端方案,將自動(dòng)駕駛能力提升到新的層級(jí)。

 

基于對(duì)真實(shí)場(chǎng)景復(fù)雜度和工程落地需求的深刻認(rèn)知,毫末采用了“快–慢雙系統(tǒng)”架構(gòu):快系統(tǒng)主攻高頻控制與安全冗余,追求實(shí)時(shí)性與穩(wěn)定性;慢系統(tǒng)專注復(fù)雜場(chǎng)景下的語(yǔ)義理解與策略推理,追求智能化與可解釋性。兩條技術(shù)路線并行迭代,獨(dú)立攻關(guān),最終實(shí)現(xiàn)融合共進(jìn)。

 

此次“快-慢雙系統(tǒng)”連獲佳績(jī),展現(xiàn)了毫末端到端自動(dòng)駕駛技術(shù)的創(chuàng)新實(shí)力和國(guó)際競(jìng)爭(zhēng)力,同時(shí)也證明了毫末在大模型驅(qū)動(dòng)下復(fù)雜場(chǎng)景理解與決策的強(qiáng)大潛力。

 

下面,跟隨小編,一起解鎖毫末“快-慢雙系統(tǒng)”的硬核技術(shù)干貨!

 
 

 

告別黑箱決策!

快系統(tǒng)實(shí)現(xiàn)端到端決策真正可控

 

 

在 CVPR 2025 NavSim E2E Driving 挑戰(zhàn)賽中,毫末的快系統(tǒng)基于 NAVSIM( Navigation Simulation )框架進(jìn)行評(píng)測(cè)和迭代。

 

NAVSIM 數(shù)據(jù)集由學(xué)術(shù)界與產(chǎn)業(yè)界聯(lián)合開(kāi)發(fā)的專為端到端自動(dòng)駕駛規(guī)劃研究打造的大規(guī)模仿真與基準(zhǔn)測(cè)試平臺(tái),針對(duì)傳統(tǒng)自動(dòng)駕駛評(píng)估的難題進(jìn)行了創(chuàng)新設(shè)計(jì),已成為端到端規(guī)劃方向的權(quán)威基準(zhǔn),被眾多國(guó)際競(jìng)賽、論文廣泛采納。

 

NAVSIM 采用非反應(yīng)式仿真框架,在真實(shí)采集的鳥(niǎo)瞰圖數(shù)據(jù)上進(jìn)行短程仿真,兼顧效率與真實(shí)。針對(duì)每一條生成軌跡,從責(zé)任事故、可行駛區(qū)域合規(guī)、碰撞時(shí)間裕度、任務(wù)進(jìn)度、駕駛舒適度、綜合策略等多個(gè)維度給出量化分?jǐn)?shù)。使得快系統(tǒng)能夠精準(zhǔn)識(shí)別與優(yōu)化端到端決策過(guò)程的每一個(gè)環(huán)節(jié),實(shí)現(xiàn)真正可控的端到端自動(dòng)駕駛。

 

傳統(tǒng)端到端自動(dòng)駕駛方案通過(guò)深度網(wǎng)絡(luò)直接從多傳感器輸入端到軌跡或控制信號(hào),雖然整體 pipeline 簡(jiǎn)潔、易于端到端優(yōu)化,但在實(shí)際落地中暴露出兩類核心問(wèn)題:一是軌跡生成單一,缺乏多樣性,難以覆蓋復(fù)雜、長(zhǎng)尾場(chǎng)景;二是決策過(guò)程“黑箱化”,可解釋性與合規(guī)性不足,難以工程化部署,業(yè)界通用的直接回歸方式難以兼顧決策的多樣性、合理性與安全性。

 

針對(duì)上述業(yè)界痛點(diǎn),毫末提出生成評(píng)分解耦的架構(gòu)——快系統(tǒng)方案以錨點(diǎn)為基礎(chǔ),生成多樣化的軌跡候選 Anchored Offset Proposal Generator ,對(duì)候選軌跡從多個(gè)仿真指標(biāo)進(jìn)行評(píng)分,選出最佳結(jié)果 Simulation-supervised Multi-target Scorer 。這樣的架構(gòu)實(shí)現(xiàn)了生成多樣+決策可控+過(guò)程可解釋的技術(shù)閉環(huán)。

 

圖3:快系統(tǒng)架構(gòu)流程圖

 
具體來(lái)講,毫末快系統(tǒng)以三大核心技術(shù)突破行業(yè)瓶頸:

 

1、 Anchored Offset Proposal Generator 案的核心創(chuàng)新點(diǎn)是:不再直接回歸終點(diǎn)或全軌跡,而是引入與車(chē)輛行為語(yǔ)義相關(guān)的錨點(diǎn),每個(gè)錨點(diǎn)可學(xué)習(xí)、可自適應(yīng);同時(shí)多步迭代優(yōu)化,初始錨點(diǎn)后,軌跡通過(guò)多步 offset 修正,遞進(jìn)式優(yōu)化;采取多樣性控制,引入多錨點(diǎn)與隨機(jī)擾動(dòng)機(jī)制,解決模式坍縮 mode collapse ,保證候選軌跡分布合理。與傳統(tǒng)技術(shù)相比,直接回歸只能輸出單一軌跡,遇到多解、不確定性場(chǎng)景易失效, Anchored Proposal 方案本質(zhì)上引入了軌跡空間探索能力,豐富決策的魯棒性。

 

2、 Simulation-supervised Multi-target Scorer 方案的評(píng)分器原理基于 NavSim 仿真環(huán)境設(shè)計(jì),針對(duì)實(shí)際自動(dòng)駕駛落地的多維安全、合規(guī)、舒適等需求,對(duì)每條軌跡做打分。核心指標(biāo)包括:無(wú)過(guò)錯(cuò)碰撞 No At-Fault Collision 、可行駛區(qū)域合規(guī) Drivable Area Compliance 、碰撞時(shí)間裕度 Time to collision 、行駛進(jìn)度 Ego Progress 、駕駛舒適度 Comfort 、綜合策略得分 Extended PDM Score 等。利用 NavSim 仿真標(biāo)簽、真實(shí)駕駛采樣+數(shù)據(jù)增強(qiáng),監(jiān)督學(xué)習(xí)端到端訓(xùn)練評(píng)分網(wǎng)絡(luò),具有明確安全邊界、可解釋性強(qiáng)、便于系統(tǒng)優(yōu)化與上線部署的優(yōu)勢(shì)。

 

3、快系統(tǒng)在可解釋性與擴(kuò)展性上具有優(yōu)勢(shì),評(píng)分器輸出可直接用于系統(tǒng)監(jiān)控與調(diào)優(yōu),開(kāi)發(fā)者可追蹤每個(gè)決策點(diǎn)得分來(lái)源、實(shí)現(xiàn)精細(xì)可控的工程部署。

 

毫末在探索中不斷追求創(chuàng)新,此次參賽的快系統(tǒng)方案主要受評(píng)分器能力和軌跡空間搜索效率的限制,未來(lái)計(jì)劃結(jié)合慢系統(tǒng)語(yǔ)義理解能力,可進(jìn)一步提升極端場(chǎng)景下的決策可靠性。

 

 

 
最強(qiáng)大腦
慢系統(tǒng)如何讓 AI 學(xué)會(huì)人類思考?

 

作為全球首個(gè)聚焦純視覺(jué)輸入、全端到端決策鏈路的權(quán)威賽事 Vision-based End-to-End Driving Challenge ,比賽設(shè)置極為嚴(yán)苛,專門(mén)考驗(yàn)參賽系統(tǒng)在無(wú)高精地圖、無(wú)激光雷達(dá)等輔助條件下,僅憑8路攝像頭畫(huà)面,實(shí)現(xiàn)看-想-開(kāi)的全流程自動(dòng)駕駛能力,這項(xiàng)賽事已成為國(guó)際自動(dòng)駕駛大模型、端到端路線的重要試金石。

 

賽事4,021段,每段20秒的真實(shí)行車(chē)片段中,精選出極其罕見(jiàn)的長(zhǎng)尾危險(xiǎn)場(chǎng)景——逆向來(lái)車(chē)、鬼探頭、突然 cut-in ,出現(xiàn)概率低于0.003%,參賽隊(duì)伍必須直接預(yù)測(cè)未來(lái)5秒、無(wú)決策以及感知標(biāo)注的20個(gè) BEV( Bird's-Eye View )軌跡點(diǎn),挑戰(zhàn)系統(tǒng)極限推理與泛化能力。 RFS Rater Feedback Score )基于人工和自動(dòng)化的多維反饋,精準(zhǔn)反映系統(tǒng)在極端場(chǎng)景下的安全性與可靠性。

 

毫末慢系統(tǒng)是針對(duì)端到端自動(dòng)駕駛慢系統(tǒng)研發(fā)的核心模型。主要思路是用 VLM( Vision-Language Model )的通用理解和推理能力,彌補(bǔ)快系統(tǒng)在場(chǎng)景復(fù)雜度、語(yǔ)義泛化和推理透明性上的短板。

 

圖4:慢系統(tǒng)架構(gòu)流程圖

 

具體來(lái)講,毫末慢系統(tǒng)通過(guò)以下優(yōu)勢(shì)賦能自動(dòng)駕駛決策:

 

  • Qwen 等通用視覺(jué)語(yǔ)言大模型的能力:毫末深知創(chuàng)新的關(guān)鍵,不在于網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度,而在于如何將自動(dòng)駕駛場(chǎng)景知識(shí)、高階推理鏈和關(guān)鍵業(yè)務(wù)需求高效注入大模型。

     
  • 方案整體工程友好,可復(fù)用性強(qiáng),落地難度低多攝像頭視覺(jué)輸入與車(chē)輛運(yùn)動(dòng)學(xué)上下文進(jìn)行特征提取和融合。

     

  • 策略性多視角選擇與 Prompt 設(shè)計(jì):重點(diǎn)保留對(duì)動(dòng)態(tài)場(chǎng)景有影響的信息,同時(shí)降低輸入冗余和系統(tǒng)帶寬壓力。

     

  • 多階段鏈?zhǔn)酵评?nbsp;CoT  Prompt :將模型推理過(guò)程拆分為場(chǎng)景理解→決策推理→軌跡生成三步,每一步生成可讀、可解釋中間結(jié)果,引導(dǎo)模型對(duì)復(fù)雜場(chǎng)景作出合理推理。

     

  • Spline-based 軌跡平滑后處理:優(yōu)化軌跡的物理合理性和舒適度。

 

毫末慢系統(tǒng)為了實(shí)現(xiàn)簡(jiǎn)潔實(shí)現(xiàn)和工程高效,沒(méi)有引入額外的自研深層網(wǎng)絡(luò)或復(fù)雜定制模塊,而是將核心工程挑戰(zhàn)集中在場(chǎng)景理解、 Prompt 設(shè)計(jì)和業(yè)務(wù)接口優(yōu)化。在實(shí)際研發(fā)過(guò)程中,毫末發(fā)現(xiàn)只要理解業(yè)務(wù)需求,設(shè)計(jì)好輸入輸出結(jié)構(gòu)和推理鏈,通用大模型的基礎(chǔ)能力就可以很好發(fā)揮出來(lái),大大簡(jiǎn)化了訓(xùn)練、部署與維護(hù)流程。

 

盡管毫末慢系統(tǒng)展現(xiàn)了優(yōu)秀的復(fù)雜場(chǎng)景理解和高可解釋性推理能力,但目前仍存在巨大挑戰(zhàn):首先,物理世界理解有限。受限于視覺(jué)語(yǔ)言大模型的泛化邊界,模型對(duì)真實(shí)物理環(huán)境的細(xì)節(jié)、動(dòng)力學(xué)約束等精確捕捉能力仍有明顯不足。某些涉及微妙物理互動(dòng)或極端動(dòng)態(tài)變化的場(chǎng)景,推理結(jié)果可能存在失真;其次,算力與響應(yīng)時(shí)延壓力大。毫末慢系統(tǒng)推理鏈路長(zhǎng),模型參數(shù)量大,實(shí)際部署時(shí)對(duì)硬件算力和推理延遲要求高,目前難以高頻實(shí)時(shí)閉環(huán)運(yùn)行,主要用于策略級(jí)、低頻決策環(huán)節(jié)。

 

 

 

快系統(tǒng)+慢系統(tǒng)=更聰明的 AI 駕駛?

毫末端到端自動(dòng)駕駛未來(lái)藍(lán)圖

 

毫末選擇“快-慢系統(tǒng)”雙線并進(jìn),是基于對(duì)真實(shí)自動(dòng)駕駛場(chǎng)景復(fù)雜性與可落地性的深刻洞察。快系統(tǒng)確保高頻控制和工程閉環(huán),慢系統(tǒng)則在高難度場(chǎng)景下展現(xiàn)強(qiáng)大的理解與推理能力。兩套體系各自收獲重要理解和實(shí)戰(zhàn)成績(jī),彼此補(bǔ)充,互為啟發(fā),為下一步的協(xié)同融合打下堅(jiān)實(shí)基礎(chǔ)。

 

展望未來(lái),毫末將聚焦快慢系統(tǒng)的深度融合,力求在保持高實(shí)時(shí)性和高智能化的基礎(chǔ)上,打造更安全、更聰明、更可解釋的端到端自動(dòng)駕駛系統(tǒng)。毫末也歡迎更多行業(yè)同仁和學(xué)術(shù)伙伴,攜手交流合作,共同推動(dòng)自動(dòng)駕駛技術(shù)的產(chǎn)業(yè)化和開(kāi)放創(chuàng)新。

 

毫末堅(jiān)信,在不久的將來(lái)端到端自動(dòng)駕駛不再是“黑盒”,自動(dòng)駕駛每一步都更透明、更可控、更值得信賴。關(guān)注毫末智行,和毫末一起定義自動(dòng)駕駛的未來(lái)!