【ZiDongHua 之“駕駛自動化”收錄關(guān)鍵詞:毫末智行 自動駕駛 計算機視覺 傳感器
 
  毫有引力|國際頂賽雙獎!毫末“快-慢雙系統(tǒng)”展現(xiàn)中國自動駕駛硬實力
 
  
 

快系統(tǒng)實時響應(yīng),慢系統(tǒng)智能決策!

快如閃電,穩(wěn)若泰山!
毫末雙系統(tǒng)閃耀國際頂尖賽事
端到端自動駕駛再攀技術(shù)高峰

想知道毫末如何用快慢雙擎征服全球賽道?

3分鐘帶你直擊技術(shù)內(nèi)核

 

6月11日-15日,2025國際計算機視覺與模式識別會議 CVPR 2025( Conference on Computer Vision and Pattern Recognition 2025)在美國田納西州召開。毫末智行團隊與清華大學(xué)聯(lián)合提出的快系統(tǒng) HMAD,在 CVPR 2025 NavSim E2E Driving 挑戰(zhàn)賽上獲得第三名;同時,在 Waymo Vision-based End-to-End Driving Challenge 上,毫末慢系統(tǒng) HMVLM 僅使用 Waymo Open Dataset 訓(xùn)練獲得第二名。

 

圖1:快系統(tǒng)獲第三名

 

毫末的自動駕駛研發(fā)起步于感知大模型,著眼于泛化的環(huán)境理解與場景識別,團隊先后探索了兩段式方案、視覺問答 VQA( Visual Question Answering )任務(wù),不斷推動感知到?jīng)Q策的邊界。隨著端到端 E2E( End-to-End )技術(shù)日益成為行業(yè)共識,團隊逐步轉(zhuǎn)向一段式軌跡輸出的端到端方案,將自動駕駛能力提升到新的層級。

 

基于對真實場景復(fù)雜度和工程落地需求的深刻認知,毫末采用了“快–慢雙系統(tǒng)”架構(gòu):快系統(tǒng)主攻高頻控制與安全冗余,追求實時性與穩(wěn)定性慢系統(tǒng)專注復(fù)雜場景下的語義理解與策略推理,追求智能化與可解釋性。兩條技術(shù)路線并行迭代,獨立攻關(guān),最終實現(xiàn)融合共進。

 

此次“快-慢雙系統(tǒng)”連獲佳績,展現(xiàn)了毫末端到端自動駕駛技術(shù)的創(chuàng)新實力和國際競爭力,同時也證明了毫末在大模型驅(qū)動下復(fù)雜場景理解與決策的強大潛力。

 

下面,跟隨小編,一起解鎖毫末“快-慢雙系統(tǒng)”的硬核技術(shù)干貨!

 
 

 

告別黑箱決策!

快系統(tǒng)實現(xiàn)端到端決策真正可控

 

 

在 CVPR 2025 NavSim E2E Driving 挑戰(zhàn)賽中,毫末的快系統(tǒng)基于 NAVSIM( Navigation Simulation )框架進行評測和迭代。

 

NAVSIM 數(shù)據(jù)集由學(xué)術(shù)界與產(chǎn)業(yè)界聯(lián)合開發(fā)的專為端到端自動駕駛規(guī)劃研究打造的大規(guī)模仿真與基準(zhǔn)測試平臺,針對傳統(tǒng)自動駕駛評估的難題進行了創(chuàng)新設(shè)計,已成為端到端規(guī)劃方向的權(quán)威基準(zhǔn),被眾多國際競賽、論文廣泛采納。

 

NAVSIM 采用非反應(yīng)式仿真框架,在真實采集的鳥瞰圖數(shù)據(jù)上進行短程仿真,兼顧效率與真實。針對每一條生成軌跡,從責(zé)任事故、可行駛區(qū)域合規(guī)、碰撞時間裕度、任務(wù)進度、駕駛舒適度、綜合策略等多個維度給出量化分數(shù)。使得快系統(tǒng)能夠精準(zhǔn)識別與優(yōu)化端到端決策過程的每一個環(huán)節(jié),實現(xiàn)真正可控的端到端自動駕駛。

 

傳統(tǒng)端到端自動駕駛方案通過深度網(wǎng)絡(luò)直接從多傳感器輸入端到軌跡或控制信號,雖然整體 pipeline 簡潔、易于端到端優(yōu)化,但在實際落地中暴露出兩類核心問題:一是軌跡生成單一,缺乏多樣性,難以覆蓋復(fù)雜、長尾場景;二是決策過程“黑箱化”,可解釋性與合規(guī)性不足,難以工程化部署,業(yè)界通用的直接回歸方式難以兼顧決策的多樣性、合理性與安全性。

 

針對上述業(yè)界痛點,毫末提出生成評分解耦的架構(gòu)——快系統(tǒng)方案以錨點為基礎(chǔ),生成多樣化的軌跡候選 Anchored Offset Proposal Generator 對候選軌跡從多個仿真指標(biāo)進行評分,選出最佳結(jié)果 Simulation-supervised Multi-target Scorer 。這樣的架構(gòu)實現(xiàn)了生成多樣+決策可控+過程可解釋的技術(shù)閉環(huán)。

 

圖3:快系統(tǒng)架構(gòu)流程圖

 
具體來講,毫末快系統(tǒng)以三大核心技術(shù)突破行業(yè)瓶頸:

 

1、 Anchored Offset Proposal Generator 案的核心創(chuàng)新點是:不再直接回歸終點或全軌跡,而是引入與車輛行為語義相關(guān)的錨點,每個錨點可學(xué)習(xí)、可自適應(yīng);同時多步迭代優(yōu)化,初始錨點后,軌跡通過多步 offset 修正,遞進式優(yōu)化;采取多樣性控制引入多錨點與隨機擾動機制,解決模式坍縮 mode collapse ,保證候選軌跡分布合理。與傳統(tǒng)技術(shù)相比,直接回歸只能輸出單一軌跡,遇到多解、不確定性場景易失效, Anchored Proposal 方案本質(zhì)上引入了軌跡空間探索能力,豐富決策的魯棒性。

 

2、 Simulation-supervised Multi-target Scorer 方案的評分器原理基于 NavSim 仿真環(huán)境設(shè)計,針對實際自動駕駛落地的多維安全、合規(guī)、舒適等需求,對每條軌跡做打分。核心指標(biāo)包括:無過錯碰撞 No At-Fault Collision 、可行駛區(qū)域合規(guī) Drivable Area Compliance 、碰撞時間裕度 Time to collision 、行駛進度 Ego Progress 、駕駛舒適度 Comfort 、綜合策略得分 Extended PDM Score 等。利用 NavSim 仿真標(biāo)簽、真實駕駛采樣+數(shù)據(jù)增強,監(jiān)督學(xué)習(xí)端到端訓(xùn)練評分網(wǎng)絡(luò),具有明確安全邊界、可解釋性強、便于系統(tǒng)優(yōu)化與上線部署的優(yōu)勢。

 

3、快系統(tǒng)在可解釋性與擴展性上具有優(yōu)勢,評分器輸出可直接用于系統(tǒng)監(jiān)控與調(diào)優(yōu),開發(fā)者可追蹤每個決策點得分來源、實現(xiàn)精細可控的工程部署。

 

毫末在探索中不斷追求創(chuàng)新,此次參賽的快系統(tǒng)方案主要受評分器能力和軌跡空間搜索效率的限制,未來計劃結(jié)合慢系統(tǒng)語義理解能力,可進一步提升極端場景下的決策可靠性。

 

 

 
最強大腦
慢系統(tǒng)如何讓 AI 學(xué)會人類思考?

 

作為全球首個聚焦純視覺輸入、全端到端決策鏈路的權(quán)威賽事 Vision-based End-to-End Driving Challenge ,比賽設(shè)置極為嚴苛,專門考驗參賽系統(tǒng)在無高精地圖、無激光雷達等輔助條件下,僅憑8路攝像頭畫面,實現(xiàn)看-想-開的全流程自動駕駛能力,這項賽事已成為國際自動駕駛大模型、端到端路線的重要試金石。

 

賽事4,021段,每段20秒的真實行車片段中,精選出極其罕見的長尾危險場景——逆向來車、鬼探頭、突然 cut-in ,出現(xiàn)概率低于0.003%,參賽隊伍必須直接預(yù)測未來5秒、無決策以及感知標(biāo)注的20個 BEV( Bird's-Eye View )軌跡點,挑戰(zhàn)系統(tǒng)極限推理與泛化能力。 RFS Rater Feedback Score )基于人工和自動化的多維反饋,精準(zhǔn)反映系統(tǒng)在極端場景下的安全性與可靠性。

 

毫末慢系統(tǒng)是針對端到端自動駕駛慢系統(tǒng)研發(fā)的核心模型。主要思路是用 VLM( Vision-Language Model )的通用理解和推理能力,彌補快系統(tǒng)在場景復(fù)雜度、語義泛化和推理透明性上的短板。

 

圖4:慢系統(tǒng)架構(gòu)流程圖

 

具體來講,毫末慢系統(tǒng)通過以下優(yōu)勢賦能自動駕駛決策:

 

  • Qwen 等通用視覺語言大模型的能力:毫末深知創(chuàng)新的關(guān)鍵,不在于網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度,而在于如何將自動駕駛場景知識、高階推理鏈和關(guān)鍵業(yè)務(wù)需求高效注入大模型。

     
  • 方案整體工程友好,可復(fù)用性強,落地難度低多攝像頭視覺輸入與車輛運動學(xué)上下文進行特征提取和融合。

     

  • 策略性多視角選擇與 Prompt 設(shè)計:重點保留對動態(tài)場景有影響的信息,同時降低輸入冗余和系統(tǒng)帶寬壓力。

     

  • 多階段鏈?zhǔn)酵评?nbsp;CoT  Prompt :將模型推理過程拆分為場景理解→決策推理→軌跡生成三步,每一步生成可讀、可解釋中間結(jié)果,引導(dǎo)模型對復(fù)雜場景作出合理推理。

     

  • Spline-based 軌跡平滑后處理:優(yōu)化軌跡的物理合理性和舒適度。

 

毫末慢系統(tǒng)為了實現(xiàn)簡潔實現(xiàn)和工程高效,沒有引入額外的自研深層網(wǎng)絡(luò)或復(fù)雜定制模塊,而是將核心工程挑戰(zhàn)集中在場景理解、 Prompt 設(shè)計和業(yè)務(wù)接口優(yōu)化。在實際研發(fā)過程中,毫末發(fā)現(xiàn)只要理解業(yè)務(wù)需求,設(shè)計好輸入輸出結(jié)構(gòu)和推理鏈,通用大模型的基礎(chǔ)能力就可以很好發(fā)揮出來,大大簡化了訓(xùn)練、部署與維護流程。

 

盡管毫末慢系統(tǒng)展現(xiàn)了優(yōu)秀的復(fù)雜場景理解和高可解釋性推理能力,但目前仍存在巨大挑戰(zhàn):首先,物理世界理解有限。受限于視覺語言大模型的泛化邊界,模型對真實物理環(huán)境的細節(jié)、動力學(xué)約束等精確捕捉能力仍有明顯不足。某些涉及微妙物理互動或極端動態(tài)變化的場景,推理結(jié)果可能存在失真;其次,算力與響應(yīng)時延壓力大。毫末慢系統(tǒng)推理鏈路長,模型參數(shù)量大,實際部署時對硬件算力和推理延遲要求高,目前難以高頻實時閉環(huán)運行,主要用于策略級、低頻決策環(huán)節(jié)。

 

 

 

快系統(tǒng)+慢系統(tǒng)=更聰明的 AI 駕駛?

毫末端到端自動駕駛未來藍圖

 

毫末選擇“快-慢系統(tǒng)”雙線并進,是基于對真實自動駕駛場景復(fù)雜性與可落地性的深刻洞察。快系統(tǒng)確保高頻控制和工程閉環(huán),慢系統(tǒng)則在高難度場景下展現(xiàn)強大的理解與推理能力。兩套體系各自收獲重要理解和實戰(zhàn)成績,彼此補充,互為啟發(fā),為下一步的協(xié)同融合打下堅實基礎(chǔ)。

 

展望未來,毫末將聚焦快慢系統(tǒng)的深度融合,力求在保持高實時性和高智能化的基礎(chǔ)上,打造更安全、更聰明、更可解釋的端到端自動駕駛系統(tǒng)。毫末也歡迎更多行業(yè)同仁和學(xué)術(shù)伙伴,攜手交流合作,共同推動自動駕駛技術(shù)的產(chǎn)業(yè)化和開放創(chuàng)新。

 

毫末堅信,在不久的將來端到端自動駕駛不再是“黑盒”,自動駕駛每一步都更透明、更可控、更值得信賴。關(guān)注毫末智行,和毫末一起定義自動駕駛的未來!