CVPR 2025 | 自動化所新作速覽（二）

時間：2025-04-18 16:32:53 發(fā)布：tgy 來源：中國科學(xué)院自動化研究所第一對焦：中國科學(xué)院自動化研究所

　　【ZiDongHua之“智能自動化”收錄關(guān)鍵詞：中國科學(xué)院自動化研究所自動駕駛機器人】

　　CVPR 2025|自動化所新作速覽（二）

　　IEEE國際計算機視覺與模式識別會議（CVPR），是計算機視覺領(lǐng)域三大頂級會議之一。CVPR 2025將于6月11日至15日在美國田納西州納什維爾舉辦。我們將分期對自動化所的錄用研究成果進行簡要介紹（排序不分先后），歡迎大家共同交流討論。

　　點擊上圖查看第一期

　　22.揭示關(guān)鍵細節(jié)以辨差異：基于骨架動作識別的全新原型視角

　　Revealing Key Details to See Differences:A Novel Prototypical Perspective for Skeleton-based Action Recognition

　　作者：劉宏達，劉云帆，任民，王昊，王云龍，孫哲南

　　在基于骨架的動作識別中，由于骨架表示缺乏圖像級的細節(jié)信息，區(qū)分具有相似關(guān)節(jié)軌跡的動作成為一個關(guān)鍵挑戰(zhàn)。我們發(fā)現(xiàn)，相似動作的區(qū)分依賴于特定身體部位的微妙運動細節(jié)，因此本文方法聚焦于局部骨架結(jié)構(gòu)的細粒度運動特征。為此，我們提出ProtoGCN，一種基于圖卷積網(wǎng)絡(luò)（GCN）的模型。該模型將整個骨架序列的動態(tài)分解為一系列可學(xué)習(xí)原型的組合，這些原型代表了不同的核心運動模式。通過對比原型重建結(jié)果，ProtoGCN能夠有效識別并增強相似動作的判別性表示。在不依賴復(fù)雜技巧的情況下，ProtoGCN在多個基準數(shù)據(jù)集（包括NTU RGB+D、NTU RGB+D 120、Kinetics-Skeleton和FineGYM）上均達到了最先進的性能，充分驗證了所提方法的有效性。

　　骨架及學(xué)習(xí)拓撲結(jié)構(gòu)的示意圖。如圖中(a)和(c)所示，對于相似動作“書寫”和“鍵盤打字”，基線模型雖然能夠關(guān)注手部相關(guān)關(guān)節(jié)，但在揭示其獨特運動特征方面存在不足。相比之下，本文提出的圖原型重建機制能夠準確區(qū)分這兩個動作，這點從(b)和(d)所體現(xiàn)的顯著運動模式差異上得到了驗證。

　　23.在持續(xù)測試域自適應(yīng)中維持類間拓撲一致性

　　Maintaining Consistent Inter-Class Topology in Continual Test-Time Adaptation

　　作者：倪成功，呂凡，檀佳垚，胡伏原，姚睿，周濤

　　本文介紹了一種名為Topological Consistency Adaptation(TCA)的新型持續(xù)測試時自適應(yīng)(CTTA)方法，旨在解決測試場景中領(lǐng)域偏移和錯誤累積的挑戰(zhàn)。TCA通過引入類拓撲一致性約束，確保在連續(xù)自適應(yīng)過程中類間關(guān)系的穩(wěn)定性，最小化類中心的失真并保持拓撲結(jié)構(gòu)。此外，TCA還提出了一種類內(nèi)緊湊性損失，以保持類內(nèi)特征的緊湊性，間接支持類間穩(wěn)定性。同時，引入了一種批不平衡拓撲加權(quán)機制，以考慮每個批次內(nèi)類分布的不平衡，優(yōu)化中心距離并穩(wěn)定類間拓撲結(jié)構(gòu)。實驗結(jié)果表明，TCA方法在處理連續(xù)領(lǐng)域偏移方面表現(xiàn)出色，能夠確保特征分布的穩(wěn)定性，并顯著提高預(yù)測性能。在CIFAR-10-C、CIFAR-100-C和ImageNet-C三個基準任務(wù)上的廣泛實驗表明，TCA在平均錯誤率方面優(yōu)于其他方法，分別將平均錯誤率降低到14.7%、29.7%和59.3%。這表明，保持平衡和穩(wěn)定的類間拓撲以及類內(nèi)特征的均勻性，可以有效緩解CTTA中的錯誤累積問題。

　　框架概述。TCA首先關(guān)注類間特征分布的均勻性，利用增強的偽標記預(yù)測來計算偽質(zhì)心代理，從而使類間特征均勻化。隨后，TCA保持了類內(nèi)特征的緊湊分布，從而減輕了類特征分布內(nèi)的不平衡。最后，TCA根據(jù)詳細的歷史預(yù)測分布連續(xù)地維護類間質(zhì)心的動態(tài)權(quán)重，從而保持類間潛在的拓撲關(guān)系。

　　24.超越背景偏移：重新思考持續(xù)語義分割中的實例重放

　　Beyond Background Shift:Rethinking Instance Replay in Continual Semantic Segmentation

　　作者：尹紅梅，馮廷亮，呂凡，尚凡華，劉紅英，馮偉，萬亮

　　在這項工作中，我們聚焦于持續(xù)語義分割（CSS）任務(wù)，其中分割網(wǎng)絡(luò)需要不斷學(xué)習(xí)新類別，同時避免遺忘已學(xué)類別的知識。盡管在分類任務(wù)中，存儲舊類別的圖像并將其直接納入新模型的訓(xùn)練已被證明可以有效緩解災(zāi)難性遺忘，但這一策略在CSS任務(wù)中存在顯著局限性。具體而言，存儲的圖像和新圖像通常只包含部分類別的標注，這可能導(dǎo)致未標注類別與背景混淆，從而增加模型擬合的難度。為了解決這一問題，本文提出了一種EIR方法，該方法不僅通過存儲舊類別的實例來保留舊知識，并同時消除背景混淆，還通過將存儲的實例與新圖像融合來緩解新數(shù)據(jù)中的背景偏移問題。通過有效解決存儲圖像和新圖像中的背景偏移，EIR能夠顯著緩解CSS任務(wù)中的災(zāi)難性遺忘，從而提升模型在CSS任務(wù)中的表現(xiàn)能力。實驗結(jié)果驗證了我們方法的有效性，EIR方案在CSS任務(wù)上顯著優(yōu)于當前最先進的方法。

　　圖1.傳統(tǒng)圖像重放方法與我們提出的重放方法的示意圖。(a)該圖展示了存儲圖像中僅標注了舊類別“horse”，而其他類別（新類別“person”和舊類別“car”）被標注為背景。此外，新圖像中的舊類別（“horse”）以及未來類別也被標注為背景。(b)我們的方法通過保留實例來避免存儲圖像中的混淆信息，并通過將這些實例融合到新圖像中來緩解背景偏移問題。

　　圖2.方法的詳細架構(gòu)圖。首先，根據(jù)類別從舊數(shù)據(jù)中采樣實例。隨后，在類別組合階段，通過舊模型識別潛在的舊類別。在實例選擇階段，從實例池中選擇潛在類別的實例。之后，計算實例在新圖像中的放置位置，并將其與新圖像融合生成融合圖像。最后，對融合圖像進行增強訓(xùn)練。

　　25.基于雙重語義引導(dǎo)的開放詞匯語義分割

　　Dual Semantic Guidance for Open Vocabulary Semantic Segmentation

　　作者：王正揚，馮廷亮，呂凡，尚凡華，馮偉，萬亮

　　開放詞匯語義分割旨在使模型能夠分割任意類別。目前，盡管像CLIP這樣的預(yù)訓(xùn)練視覺語言模型（VLM）通過從大規(guī)模數(shù)據(jù)中學(xué)習(xí)匹配文本和圖像表示為該任務(wù)奠定了堅實的基礎(chǔ)，但它們?nèi)狈ο袼丶壸R別能力。大多數(shù)現(xiàn)有方法利用文本作為引導(dǎo)來實現(xiàn)像素級語義分割。然而，文本語義的固有偏差以及缺乏像素級監(jiān)督信息難以有效微調(diào)基于CLIP的模型頗具挑戰(zhàn)性。本文考慮同時捕獲圖像和文本中包含的語義信息，構(gòu)建雙重語義引導(dǎo)及相應(yīng)的像素級偽標注。本文提出增強區(qū)域感知來正確捕捉視覺語義引導(dǎo)，并從文本中抓取名詞作為文本于一引導(dǎo)，聯(lián)合微調(diào)基于CLIP的分割模型，從而實現(xiàn)良好的細粒度識別能力。綜合評估表明，在八種常用數(shù)據(jù)集上，我們的方法大幅超越了最先進的成果。

　　圖1.目前開放詞匯分割方法的不足以及我們雙重語義引導(dǎo)的示意圖。(a)該圖展示了僅依賴名詞會導(dǎo)致圖像表示在大類上收斂，存在語義偏差。(b)該圖展示了先前方法使用圖像-文本匹配來監(jiān)督分割的局限性，這類方法的會導(dǎo)致粗糙的分割，甚至是未分割的狗都被判定為分割完整。(c)我們的方法從圖像-文本對中捕獲雙重語義引導(dǎo)，協(xié)同指導(dǎo)模型訓(xùn)練。

　　圖2.雙重語義引導(dǎo)生成階段的示意圖。（1）該圖的左部分展示了數(shù)據(jù)處理的流程，具體來說，我們通過SAM獲得實例集，并通過區(qū)域感知加強模塊提取實例特征，再經(jīng)過聚類篩選獲得視覺語義引導(dǎo)與對應(yīng)分割標簽。其次，我們提取文本中名詞，獲得文本語義引導(dǎo)。（2）該圖右部分展示了區(qū)域感知加強模塊。通過依據(jù)實例的掩碼改變注意力圖，加強對前景區(qū)域的感知。

　　26.打破線性注意力的低秩困境

　　Breaking the Low-rank Dilemma of Linear Attention

　　作者：樊齊航，黃懷波，赫然

　　Transformer模型中的Softmax注意力機制因其二次復(fù)雜度而計算代價高昂，在視覺應(yīng)用中面臨巨大挑戰(zhàn)。相比之下，線性注意力（Linear Attention）通過將計算復(fù)雜度降低到線性水平，提供了一種更加高效的解決方案。然而，線性注意力通常比Softmax注意力表現(xiàn)更差。我們的實驗表明，這種性能下降主要源于線性注意力輸出特征映射的低秩特性，導(dǎo)致其難以充分建模復(fù)雜的空間信息。

　　為了解決這一低秩問題，我們從KV緩沖區(qū)和輸出特征兩個角度對其秩進行了深入分析?；诖?，我們提出了Rank-Augmented Linear Attention（RALA），它在保持線性復(fù)雜度和高效性的同時，性能可與Softmax注意力相媲美。在RALA的基礎(chǔ)上，我們構(gòu)建了Rank-Augmented Vision Linear Transformer（RAVLT）。大量實驗表明，RAVLT在多種視覺任務(wù)上均能取得出色的性能。

　　對比Softmax注意力和不同線性注意力所輸出的特征圖。所有實驗均基于DeiT-T架構(gòu)進行，設(shè)N=196，d=64，圖中矩陣的滿秩為64。與Softmax注意力相比，各種線性注意力的輸出特征表現(xiàn)出明顯的低秩特性，這表明線性注意力所學(xué)習(xí)到的特征多樣性遠不及Softmax注意力。RALA解決了這一問題，有效提升了模型學(xué)習(xí)到特征的秩。

　　27.邁向駕駛場景的自由視角仿真

　　FreeSim:Toward Free-viewpoint Camera Simulation in Driving Scenes

　　作者：范略*，張淏*，王啟泰，李鴻升，張兆翔

　　我們提出了FreeSim，一種面向自動駕駛的相機模擬方法。FreeSim強調(diào)在記錄的自車軌跡之外的視角上實現(xiàn)高質(zhì)量渲染。在此類視角下，由于缺乏訓(xùn)練數(shù)據(jù)，以往方法存在不可接受的性能下降。為解決數(shù)據(jù)稀缺問題，我們首先提出了一種生成增強模型，并搭配匹配的數(shù)據(jù)構(gòu)建策略。該模型能夠在略微偏離記錄軌跡的視角上生成高質(zhì)量圖像，條件是該視角的降質(zhì)渲染。隨后，我們提出了一種漸進式重建策略，從略微偏離軌跡的視角開始，逐步將未記錄視角的生成圖像加入重建過程，并逐步擴大偏離距離。通過這種漸進生成-重建流程，F(xiàn)reeSim支持在超過3米的大幅偏離下實現(xiàn)高質(zhì)量的軌跡外視角合成。

　　FreeSim方法使得大范圍相機偏移下仍然有著較高的保真度，支持自由視角的駕駛場景仿真。

　　28.靈活軌跡上的駕駛場景重建和渲染

　　FlexDrive:Toward Trajectory Flexibility in Driving Scene Reconstruction and Rendering

　　作者：周靜秋*，范略*，黃林江，石曉宇，劉偲，張兆翔，李鴻升

　　利用3D高斯?jié)姙R技術(shù)，駕駛場景重建和渲染取得了顯著進展。然而，先前的研究大多集中在預(yù)記錄車輛路徑上的渲染質(zhì)量，難以推廣到路徑外的視角，這是由于缺乏這些視角的高質(zhì)量監(jiān)督。為解決這一問題，我們引入了逆視圖扭曲技術(shù)，生成緊湊且高質(zhì)量的圖像作為路徑外視角重建的監(jiān)督，從而實現(xiàn)這些視角的高質(zhì)量渲染。為了準確且穩(wěn)健地進行逆視圖扭曲，提出了一種深度引導(dǎo)策略，在優(yōu)化過程中實時獲取密集深度圖，克服了LiDAR深度數(shù)據(jù)的稀疏性和不完整性。我們的方法在廣泛使用的Waymo Open數(shù)據(jù)集上實現(xiàn)了優(yōu)異的路徑內(nèi)和路徑外重建與渲染性能。此外，提出了一個基于模擬器的基準測試，以獲取路徑外的真實數(shù)據(jù)并定量評估路徑外渲染性能，我們的方法在此方面顯著優(yōu)于以往方法。

　　FlexDrive方法可以在高速環(huán)境下模擬cut-in等行為，并保證視覺保真度。

　　29.R-TPT：通過測試時提示調(diào)整提高視覺語言模型的對抗魯棒性

　　R-TPT:Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning

　　作者：生力軍，梁堅，王子磊，赫然

　　隨著CLIP等視覺語言模型作為基礎(chǔ)模型的廣泛應(yīng)用，針對下游任務(wù)的微調(diào)方法層出不窮。然而，由于這些模型固有的脆弱性以及有限的開源選擇，視覺語言模型比傳統(tǒng)視覺模型面臨更高的對抗攻擊風(fēng)險?，F(xiàn)有的防御技術(shù)通常依賴于訓(xùn)練期間的對抗性微調(diào)，這需要標注數(shù)據(jù)且難以跨任務(wù)泛化。為了解決這些局限性，我們提出了R-TPT方法，通過在推理階段減輕對抗攻擊的影響來增強模型的魯棒性。我們首先通過消除經(jīng)典的邊際熵目標中對于對抗樣本沖突的損失項，僅保留點熵最小化。此外，我們引入了一種即插即用的基于可靠性的加權(quán)集成策略，該策略從可靠的增強視圖中聚合有用信息以加強防御。R-TPT方法在不需標注訓(xùn)練數(shù)據(jù)的情況下增強了對對抗攻擊的防御能力，同時為推理任務(wù)提供了高度的靈活性。

　　R-TPT的方法流程示意圖

　　30.通過大語言模型對步態(tài)識別特征進行序列建模

　　Bridging Gait Recognition And Large Language Models Sequence Modeling

　　作者：楊少鵬*，王繼隆*，侯賽輝，劉旭，曹春水，王亮，黃永禎

　　步態(tài)序列展現(xiàn)出與自然語言相似的序列結(jié)構(gòu)和上下文關(guān)系，其中每個元素——無論是單詞還是步態(tài)步驟——都與其前后元素相關(guān)聯(lián)。這種相似性使得步態(tài)序列可以轉(zhuǎn)化為包含身份信息的“文本”。大型語言模型（LLMs）旨在理解和生成序列數(shù)據(jù)，因此可以用于步態(tài)序列建模，以提升步態(tài)識別的性能?；谶@些見解，我們首次嘗試將LLMs應(yīng)用于步態(tài)識別，并將其稱為GaitLLM。我們提出了步態(tài)到語言模塊，將步態(tài)序列轉(zhuǎn)化為適合LLMs的文本格式，以及語言到步態(tài)模塊，將LLMs的輸出映射回步態(tài)特征空間，從而彌合LLM輸出與步態(tài)識別之間的差距。值得注意的是，GaitLLM利用LLMs強大的建模能力，而無需依賴復(fù)雜的架構(gòu)設(shè)計，僅通過少量可訓(xùn)練參數(shù)即可提升步態(tài)識別性能。我們的方法在四個流行的步態(tài)數(shù)據(jù)集上取得了最先進的結(jié)果，證明了LLMs在這一領(lǐng)域應(yīng)用的有效性。

　　GaitLLM的概念示意圖

　　31.在多模態(tài)大型語言模型的安全對齊中我們是否真的需要精心挑選的惡意數(shù)據(jù)？

　　Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models？

　　作者：王彥博，關(guān)霽洋，梁堅，赫然

　　多模態(tài)大型語言模型(MLLM)取得了重大進展，但其安全性對齊仍然有限。通常，當前的樊齊航開源MLLM依靠從其語言模塊繼承的對齊來避免有害內(nèi)容的生成。然而，缺乏專門為多模態(tài)輸入設(shè)計的安全措施會造成模態(tài)間的對齊差距，使MLLM容易受到視覺域攻擊，例如排版操縱攻擊。當前的安全對齊方法利用精心設(shè)計的安全數(shù)據(jù)集來增強模型防御能力，但仍不清楚模型從高質(zhì)量數(shù)據(jù)集學(xué)到了什么具體的特定知識或模式。通過比較實驗，我們發(fā)現(xiàn)對齊差距主要源于數(shù)據(jù)分布偏差，而圖像內(nèi)容、響應(yīng)質(zhì)量或數(shù)據(jù)集的對比行為對提高多模態(tài)安全性貢獻有限。為了進一步研究這一點并確定提高MLLM安全性的關(guān)鍵因素，我們建議在一小組良性的指令遵循數(shù)據(jù)上對MLLM進行微調(diào)，將響應(yīng)替換為簡單、清晰的拒絕回答格式。實驗表明，無需耗費大量人力收集高質(zhì)量惡意數(shù)據(jù)，只要微調(diào)集中存在特定比例的拒絕數(shù)據(jù)，模型安全性仍可得到顯著提升，這表明在多模態(tài)預(yù)訓(xùn)練或指令微調(diào)期間，安全性對齊不會丟失，而僅僅會被掩蓋。只需糾正底層數(shù)據(jù)偏差，即可縮小視覺領(lǐng)域的安全差距。

　　研究流程示意圖

　　32.PhysVLM:讓視覺語言模型理解機器人的物理可達性

　　PhysVLM:Enabling Visual Language Models to Understand Robotic Physical Reachability

　　作者：周偉杰，陶滿禮，趙朝陽，郭海云，董宏輝，唐明，王金橋

　　大模型作為具身智能體決策的“大腦”，是實現(xiàn)現(xiàn)實世界中泛化操作的關(guān)鍵要素之一，但環(huán)境的視覺感知與物理空間約束的協(xié)同理解仍是實現(xiàn)可靠操作的主要挑戰(zhàn)。本研究提出首個機器人物理空間具身大模型——PhysVLM，有效整合了對環(huán)境的視覺理解和對具身智能體的物理空間約束感知，從而生成更加可行和可靠的動作決策。研究亮點體現(xiàn)為：

　　1.具身空間-物理約束建模（S-P Map encoding）。將機器人物理空間約束轉(zhuǎn)化為可學(xué)習(xí)的視覺語義表征，使模型無需學(xué)習(xí)具體機械參數(shù)，即可實現(xiàn)跨機器人平臺的泛化能力。

　　2.視覺-物理空間協(xié)同推理架構(gòu)。PhysVLM創(chuàng)新性地采用雙分支特征編碼器設(shè)計，實現(xiàn)環(huán)境視覺語義與本體物理空間約束的特征交互，在保持通用視覺推理性能的同時，顯著增強對操作可行性的推理能力。

　　3.具身物理空間多模態(tài)數(shù)據(jù)集Phys100K。包括6類工業(yè)機械臂、10萬組操作場景，涵蓋RGB圖像—可達物理空間圖（S-P Map）—具身物理問答三元組數(shù)據(jù)。配套開發(fā)的EQA-phys評估基準包含帶有4類工業(yè)機械臂的仿真環(huán)境和問答數(shù)據(jù)。

　　實驗結(jié)果表明，PhysVLM相較于GPT-4o實現(xiàn)了14%的性能提升；在通用具身推理任務(wù)中，超越RoboMamba等具身多模態(tài)大模型（+8.6%）。所提方法展現(xiàn)出優(yōu)秀兼容性，與GPT-4o集成后，操作可行性判斷準確率提升7.1%。模型可準確識別機器人對物體的空間不可達性，并提出如“先利用地盤移動靠近目標再進行機械臂操作”等合理建議。

　　33.UniVAD:面向小樣本視覺異常檢測的跨領(lǐng)域統(tǒng)一模型

　　UniVAD:A Training-free Unified Model for Few-shot Visual Anomaly Detection

　　作者：古兆鵬，朱炳科，朱貴波，陳盈盈，唐明，王金橋

　　視覺異常檢測旨在識別圖像中偏離正常模式的異常樣本，涵蓋工業(yè)、邏輯、醫(yī)療等多個領(lǐng)域。由于這些領(lǐng)域之間存在數(shù)據(jù)分布差異，現(xiàn)有的異常檢測方法通常需要針對每個特定領(lǐng)域量身定制，采用專門設(shè)計的檢測技術(shù)和模型架構(gòu)，難以在不同領(lǐng)域之間泛化應(yīng)用，這阻礙了異常檢測的跨領(lǐng)域統(tǒng)一。

　　為解決這一問題，我們提出了一種無需訓(xùn)練的跨領(lǐng)域統(tǒng)一的小樣本異常檢測方法——UniVAD。UniVAD無需在特定領(lǐng)域數(shù)據(jù)上進行訓(xùn)練，僅在測試階段提供少量正常樣本作為參考，即可檢測先前從未見過的物品類別中的異常。具體而言，UniVAD采用基于視覺基礎(chǔ)模型和聚類方法的上下文組件聚類（C3）模塊精確分割圖像中的組件，并利用組件感知補丁匹配（CAPM）和圖增強組件建模（GECM）模塊分別檢測圖像中不同語義層次的異常，從而實現(xiàn)跨領(lǐng)域統(tǒng)一異常檢測。

　　在涵蓋工業(yè)、邏輯、醫(yī)療領(lǐng)域的九個數(shù)據(jù)集上的實驗結(jié)果表明，UniVAD在多個領(lǐng)域的小樣本異常檢測任務(wù)中均實現(xiàn)了最先進的性能，優(yōu)于特定領(lǐng)域的異常檢測模型。相關(guān)代碼已開源。

　　34.基于對話優(yōu)化的跨模態(tài)對齊的對話式行人檢索

　　Chat-based Person Retrieval via Dialogue-Refined Cross-Modal Alignment

　　作者：白楊，季榆程，曹敏，王金橋，葉茫

　　傳統(tǒng)基于文本的行人檢索依賴單次輸入的文本描述作為查詢。然而，在實際場景中，難以確保該查詢能夠完全反映用戶的檢索意圖。為解決這一問題，我們提出了一種新的檢索范式——對話式行人檢索，通過交互式對話作為查詢，并結(jié)合對話上下文逐步優(yōu)化查詢內(nèi)容，從而實現(xiàn)更精準的行人檢索。然而，該任務(wù)面臨的首要挑戰(zhàn)是缺乏可用的對話-圖像配對數(shù)據(jù)。為此，我們構(gòu)建了首個面向?qū)υ捠叫腥藱z索的數(shù)據(jù)集ChatPedes，該數(shù)據(jù)集利用大語言模型自動生成問題并模擬用戶響應(yīng)，從而完成對話構(gòu)建。此外，為了減少對話與圖像之間的模態(tài)差異，我們提出了一種對話優(yōu)化的跨模態(tài)對齊框架，該框架通過兩個自適應(yīng)屬性挖掘模塊，分別從對話和圖像中提取行人關(guān)鍵屬性，從而實現(xiàn)細粒度的跨模態(tài)對齊。同時，我們還設(shè)計了一種針對對話的數(shù)據(jù)增強策略——隨機輪次保留，以增強模型在不同對話長度下的泛化能力。

　　對話式行人檢索概述：對話構(gòu)建（Dialogue Building）通過對話歷史生成后續(xù)問題，提示用戶逐步提供更多關(guān)于目標行人的信息，最終形成關(guān)于目標行人的對話查詢（Dialogue Query）。對話優(yōu)化的跨模態(tài)對齊框架（DiaNA）旨在減少對話與圖像之間的模態(tài)差異，并利用可學(xué)習(xí)的屬性查詢提取關(guān)鍵信息，從而實現(xiàn)細粒度的跨模態(tài)對齊。

　　35.合成數(shù)據(jù)是持續(xù)視覺語言模型的一份優(yōu)雅禮物

　　Synthetic Data is an Elegant GIFT for Continual Vision-Language Models

　　作者：吳彬，施武軒，王金橋，葉茫

　　預(yù)訓(xùn)練視覺語言模型（VLM）需要通過持續(xù)學(xué)習(xí)來更新知識并適應(yīng)多種下游任務(wù)。然而，在持續(xù)微調(diào)的過程中，VLM不僅容易遺忘歷史下游任務(wù)，還可能遺忘預(yù)訓(xùn)練習(xí)得的通用知識，導(dǎo)致泛化能力退化。傳統(tǒng)方法依賴重放部分歷史數(shù)據(jù)來緩解遺忘，不適用于預(yù)訓(xùn)練數(shù)據(jù)通常無法獲取的VLM。本文提出合成數(shù)據(jù)輔助的持續(xù)微調(diào)（GIFT），利用擴散模型重現(xiàn)VLM的預(yù)訓(xùn)練和下游任務(wù)數(shù)據(jù)。我們設(shè)計了對比蒸餾損失和圖文對齊約束，通過匹配合成圖像和對應(yīng)的文本提示，引導(dǎo)VLM在知識蒸餾中回顧習(xí)得的知識。此外，為了降低合成數(shù)據(jù)量有限帶來的過擬合風(fēng)險并提升蒸餾效果，我們引入了自適應(yīng)權(quán)重鞏固，基于合成圖像-文本對中的Fisher信息實現(xiàn)更好的穩(wěn)定性-可塑性平衡。實驗結(jié)果表明，當提示詞分別由語義多樣的外部視覺概念和下游任務(wù)類別名構(gòu)建時，擴散模型生成的圖像能夠有效近似VLM的預(yù)訓(xùn)練和下游任務(wù)數(shù)據(jù)，從而有助于維持VLM在持續(xù)微調(diào)中的泛化能力并減輕災(zāi)難性遺忘。

　　GIFT框架圖。子圖（a）為基于合成數(shù)據(jù)的蒸餾，通過對比蒸餾損失對齊當前模型和歷史模型在匹配合成圖像-文本對時的輸出，通過圖文對齊約束修正教師模型可能存在的錯誤。子圖（b）為自適應(yīng)權(quán)重鞏固，使用合成圖像-文本對的Fisher信息加權(quán)L2約束，懲罰導(dǎo)致遺忘的參數(shù)更新。

　　36.運動感知的高效視頻多模態(tài)語言模型

　　Efficient Motion-Aware Video MLLM

　　作者：趙子嘉，霍宇琦，岳同天，郭龍騰，盧浩宇，王炳寧，陳煒鵬，劉靜

　　大多數(shù)當前的視頻多模態(tài)語言模型（MLLM）依賴于均勻幀采樣和圖像級編碼器，這導(dǎo)致了數(shù)據(jù)處理效率低下和有限的運動感知。為了解決這些問題，我們提出了EMA，一種高效的運動感知視頻多模態(tài)語言模型，利用壓縮視頻結(jié)構(gòu)作為輸入。我們提出了一種運動感知GOP（圖像組）編碼器，它在壓縮視頻流中的GOP單元內(nèi)融合空間和運動信息，生成緊湊且富有語義的視覺標記。通過在這種原生慢-快輸入架構(gòu)中，將較少但密集的RGB幀與更多但稀疏的運動向量結(jié)合，我們的方法減少了冗余并增強了運動表示。此外，我們還引入了MotionBench，一個評估四種運動類型（線性、曲線、旋轉(zhuǎn)和基于接觸的）運動理解的基準。實驗結(jié)果表明，EMA在MotionBench和流行的視頻問答基準上均達到了最先進的性能，同時降低了推理成本。此外，EMA還表現(xiàn)出強大的可擴展性，在長視頻理解基準上也展現(xiàn)了具有競爭力的性能。

　　基于GOP編碼模式的高效理解架構(gòu)

　　37.面向異步視頻生成的自回歸擴散生成方法

　　AR-Diffusion:Asynchronous Video Generation with Auto-Regressive Diffusion

　　作者：孫銘真，王衛(wèi)寧，李根，劉佳偉，孫家輝，馮萬泉，勞珊珊，周思宇，何茜，劉靜

　　視頻生成的任務(wù)需要合成視覺上逼真且時間上連貫的視頻幀?，F(xiàn)有的方法主要使用異步自回歸模型或同步擴散模型來解決這一挑戰(zhàn)。然而，異步自回歸模型通常存在誤差累積等問題，而同步擴散模型則受限于其對固定序列長度的依賴。為了解決這些問題，我們提出了一種新穎的模型——自回歸擴散模型（Auto-Regressive Diffusion,AR-Diffusion），它結(jié)合了自回歸模型和擴散模型的優(yōu)勢，實現(xiàn)了靈活、異步的視頻生成。具體來說，我們的方法利用擴散過程在訓(xùn)練和推理階段逐漸破壞視頻幀，從而減少這兩個階段之間的差異。受自回歸生成的啟發(fā)，我們在單個幀的破壞時間步上引入了非遞減約束，確保較早的幀比后續(xù)的幀保持更清晰的狀態(tài)。此外，我們設(shè)計了兩種專門的時間步調(diào)度器：FoPP調(diào)度器用于在訓(xùn)練期間平衡時間步采樣，AD調(diào)度器用于在推理期間實現(xiàn)靈活的時間步差異，支持同步和異步生成。大量實驗證明了我們提出的方法的優(yōu)越性，該方法在四個具有挑戰(zhàn)性的基準測試中取得了具有競爭力且領(lǐng)先的結(jié)果。

　　歡迎后臺留言、推薦您感興趣的話題、內(nèi)容或資訊！

　　如需轉(zhuǎn)載或投稿，請后臺私信。

我要收藏

點個贊吧

自動對焦：自動駕駛機器人

咨詢詳情：如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情，請加微信：ZiDongHuaX 。

微信聯(lián)盟：自動駕駛微信群、機器人微信群，各細分行業(yè)微信群：點擊這里進入。

鴻達安視：水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器　　　　　　查看各品牌在細分領(lǐng)域的定位宣傳語