CVPR 2025 | 自動化所新作速覽(二)
CVPR 2025|自動化所新作速覽(二)
IEEE國際計算機視覺與模式識別會議(CVPR),是計算機視覺領(lǐng)域三大頂級會議之一。CVPR 2025將于6月11日至15日在美國田納西州納什維爾舉辦。我們將分期對自動化所的錄用研究成果進行簡要介紹(排序不分先后),歡迎大家共同交流討論。

點擊上圖查看第一期
22.揭示關(guān)鍵細節(jié)以辨差異:基于骨架動作識別的全新原型視角
Revealing Key Details to See Differences:A Novel Prototypical Perspective for Skeleton-based Action Recognition
作者:劉宏達,劉云帆,任民,王昊,王云龍,孫哲南
在基于骨架的動作識別中,由于骨架表示缺乏圖像級的細節(jié)信息,區(qū)分具有相似關(guān)節(jié)軌跡的動作成為一個關(guān)鍵挑戰(zhàn)。我們發(fā)現(xiàn),相似動作的區(qū)分依賴于特定身體部位的微妙運動細節(jié),因此本文方法聚焦于局部骨架結(jié)構(gòu)的細粒度運動特征。為此,我們提出ProtoGCN,一種基于圖卷積網(wǎng)絡(luò)(GCN)的模型。該模型將整個骨架序列的動態(tài)分解為一系列可學(xué)習(xí)原型的組合,這些原型代表了不同的核心運動模式。通過對比原型重建結(jié)果,ProtoGCN能夠有效識別并增強相似動作的判別性表示。在不依賴復(fù)雜技巧的情況下,ProtoGCN在多個基準數(shù)據(jù)集(包括NTU RGB+D、NTU RGB+D 120、Kinetics-Skeleton和FineGYM)上均達到了最先進的性能,充分驗證了所提方法的有效性。
骨架及學(xué)習(xí)拓撲結(jié)構(gòu)的示意圖。如圖中(a)和(c)所示,對于相似動作“書寫”和“鍵盤打字”,基線模型雖然能夠關(guān)注手部相關(guān)關(guān)節(jié),但在揭示其獨特運動特征方面存在不足。相比之下,本文提出的圖原型重建機制能夠準確區(qū)分這兩個動作,這點從(b)和(d)所體現(xiàn)的顯著運動模式差異上得到了驗證。
23.在持續(xù)測試域自適應(yīng)中維持類間拓撲一致性
Maintaining Consistent Inter-Class Topology in Continual Test-Time Adaptation
作者:倪成功,呂凡,檀佳垚,胡伏原,姚睿,周濤
本文介紹了一種名為Topological Consistency Adaptation(TCA)的新型持續(xù)測試時自適應(yīng)(CTTA)方法,旨在解決測試場景中領(lǐng)域偏移和錯誤累積的挑戰(zhàn)。TCA通過引入類拓撲一致性約束,確保在連續(xù)自適應(yīng)過程中類間關(guān)系的穩(wěn)定性,最小化類中心的失真并保持拓撲結(jié)構(gòu)。此外,TCA還提出了一種類內(nèi)緊湊性損失,以保持類內(nèi)特征的緊湊性,間接支持類間穩(wěn)定性。同時,引入了一種批不平衡拓撲加權(quán)機制,以考慮每個批次內(nèi)類分布的不平衡,優(yōu)化中心距離并穩(wěn)定類間拓撲結(jié)構(gòu)。實驗結(jié)果表明,TCA方法在處理連續(xù)領(lǐng)域偏移方面表現(xiàn)出色,能夠確保特征分布的穩(wěn)定性,并顯著提高預(yù)測性能。在CIFAR-10-C、CIFAR-100-C和ImageNet-C三個基準任務(wù)上的廣泛實驗表明,TCA在平均錯誤率方面優(yōu)于其他方法,分別將平均錯誤率降低到14.7%、29.7%和59.3%。這表明,保持平衡和穩(wěn)定的類間拓撲以及類內(nèi)特征的均勻性,可以有效緩解CTTA中的錯誤累積問題。

框架概述。TCA首先關(guān)注類間特征分布的均勻性,利用增強的偽標記預(yù)測來計算偽質(zhì)心代理,從而使類間特征均勻化。隨后,TCA保持了類內(nèi)特征的緊湊分布,從而減輕了類特征分布內(nèi)的不平衡。最后,TCA根據(jù)詳細的歷史預(yù)測分布連續(xù)地維護類間質(zhì)心的動態(tài)權(quán)重,從而保持類間潛在的拓撲關(guān)系。
24.超越背景偏移:重新思考持續(xù)語義分割中的實例重放
Beyond Background Shift:Rethinking Instance Replay in Continual Semantic Segmentation
作者:尹紅梅,馮廷亮,呂凡,尚凡華,劉紅英,馮偉,萬亮
在這項工作中,我們聚焦于持續(xù)語義分割(CSS)任務(wù),其中分割網(wǎng)絡(luò)需要不斷學(xué)習(xí)新類別,同時避免遺忘已學(xué)類別的知識。盡管在分類任務(wù)中,存儲舊類別的圖像并將其直接納入新模型的訓(xùn)練已被證明可以有效緩解災(zāi)難性遺忘,但這一策略在CSS任務(wù)中存在顯著局限性。具體而言,存儲的圖像和新圖像通常只包含部分類別的標注,這可能導(dǎo)致未標注類別與背景混淆,從而增加模型擬合的難度。為了解決這一問題,本文提出了一種EIR方法,該方法不僅通過存儲舊類別的實例來保留舊知識,并同時消除背景混淆,還通過將存儲的實例與新圖像融合來緩解新數(shù)據(jù)中的背景偏移問題。通過有效解決存儲圖像和新圖像中的背景偏移,EIR能夠顯著緩解CSS任務(wù)中的災(zāi)難性遺忘,從而提升模型在CSS任務(wù)中的表現(xiàn)能力。實驗結(jié)果驗證了我們方法的有效性,EIR方案在CSS任務(wù)上顯著優(yōu)于當前最先進的方法。

圖1.傳統(tǒng)圖像重放方法與我們提出的重放方法的示意圖。(a)該圖展示了存儲圖像中僅標注了舊類別“horse”,而其他類別(新類別“person”和舊類別“car”)被標注為背景。此外,新圖像中的舊類別(“horse”)以及未來類別也被標注為背景。(b)我們的方法通過保留實例來避免存儲圖像中的混淆信息,并通過將這些實例融合到新圖像中來緩解背景偏移問題。

圖2.方法的詳細架構(gòu)圖。首先,根據(jù)類別從舊數(shù)據(jù)中采樣實例。隨后,在類別組合階段,通過舊模型識別潛在的舊類別。在實例選擇階段,從實例池中選擇潛在類別的實例。之后,計算實例在新圖像中的放置位置,并將其與新圖像融合生成融合圖像。最后,對融合圖像進行增強訓(xùn)練。
25.基于雙重語義引導(dǎo)的開放詞匯語義分割
Dual Semantic Guidance for Open Vocabulary Semantic Segmentation
作者:王正揚,馮廷亮,呂凡,尚凡華,馮偉,萬亮
開放詞匯語義分割旨在使模型能夠分割任意類別。目前,盡管像CLIP這樣的預(yù)訓(xùn)練視覺語言模型(VLM)通過從大規(guī)模數(shù)據(jù)中學(xué)習(xí)匹配文本和圖像表示為該任務(wù)奠定了堅實的基礎(chǔ),但它們?nèi)狈ο袼丶壸R別能力。大多數(shù)現(xiàn)有方法利用文本作為引導(dǎo)來實現(xiàn)像素級語義分割。然而,文本語義的固有偏差以及缺乏像素級監(jiān)督信息難以有效微調(diào)基于CLIP的模型頗具挑戰(zhàn)性。本文考慮同時捕獲圖像和文本中包含的語義信息,構(gòu)建雙重語義引導(dǎo)及相應(yīng)的像素級偽標注。本文提出增強區(qū)域感知來正確捕捉視覺語義引導(dǎo),并從文本中抓取名詞作為文本于一引導(dǎo),聯(lián)合微調(diào)基于CLIP的分割模型,從而實現(xiàn)良好的細粒度識別能力。綜合評估表明,在八種常用數(shù)據(jù)集上,我們的方法大幅超越了最先進的成果。

圖1.目前開放詞匯分割方法的不足以及我們雙重語義引導(dǎo)的示意圖。(a)該圖展示了僅依賴名詞會導(dǎo)致圖像表示在大類上收斂,存在語義偏差。(b)該圖展示了先前方法使用圖像-文本匹配來監(jiān)督分割的局限性,這類方法的會導(dǎo)致粗糙的分割,甚至是未分割的狗都被判定為分割完整。(c)我們的方法從圖像-文本對中捕獲雙重語義引導(dǎo),協(xié)同指導(dǎo)模型訓(xùn)練。
圖2.雙重語義引導(dǎo)生成階段的示意圖。(1)該圖的左部分展示了數(shù)據(jù)處理的流程,具體來說,我們通過SAM獲得實例集,并通過區(qū)域感知加強模塊提取實例特征,再經(jīng)過聚類篩選獲得視覺語義引導(dǎo)與對應(yīng)分割標簽。其次,我們提取文本中名詞,獲得文本語義引導(dǎo)。(2)該圖右部分展示了區(qū)域感知加強模塊。通過依據(jù)實例的掩碼改變注意力圖,加強對前景區(qū)域的感知。
26.打破線性注意力的低秩困境
Breaking the Low-rank Dilemma of Linear Attention
作者:樊齊航,黃懷波,赫然
Transformer模型中的Softmax注意力機制因其二次復(fù)雜度而計算代價高昂,在視覺應(yīng)用中面臨巨大挑戰(zhàn)。相比之下,線性注意力(Linear Attention)通過將計算復(fù)雜度降低到線性水平,提供了一種更加高效的解決方案。然而,線性注意力通常比Softmax注意力表現(xiàn)更差。我們的實驗表明,這種性能下降主要源于線性注意力輸出特征映射的低秩特性,導(dǎo)致其難以充分建模復(fù)雜的空間信息。
為了解決這一低秩問題,我們從KV緩沖區(qū)和輸出特征兩個角度對其秩進行了深入分析?;诖?,我們提出了Rank-Augmented Linear Attention(RALA),它在保持線性復(fù)雜度和高效性的同時,性能可與Softmax注意力相媲美。在RALA的基礎(chǔ)上,我們構(gòu)建了Rank-Augmented Vision Linear Transformer(RAVLT)。大量實驗表明,RAVLT在多種視覺任務(wù)上均能取得出色的性能。
對比Softmax注意力和不同線性注意力所輸出的特征圖。所有實驗均基于DeiT-T架構(gòu)進行,設(shè)N=196,d=64,圖中矩陣的滿秩為64。與Softmax注意力相比,各種線性注意力的輸出特征表現(xiàn)出明顯的低秩特性,這表明線性注意力所學(xué)習(xí)到的特征多樣性遠不及Softmax注意力。RALA解決了這一問題,有效提升了模型學(xué)習(xí)到特征的秩。
27.邁向駕駛場景的自由視角仿真
FreeSim:Toward Free-viewpoint Camera Simulation in Driving Scenes
作者:范略*,張淏*,王啟泰,李鴻升,張兆翔
我們提出了FreeSim,一種面向自動駕駛的相機模擬方法。FreeSim強調(diào)在記錄的自車軌跡之外的視角上實現(xiàn)高質(zhì)量渲染。在此類視角下,由于缺乏訓(xùn)練數(shù)據(jù),以往方法存在不可接受的性能下降。為解決數(shù)據(jù)稀缺問題,我們首先提出了一種生成增強模型,并搭配匹配的數(shù)據(jù)構(gòu)建策略。該模型能夠在略微偏離記錄軌跡的視角上生成高質(zhì)量圖像,條件是該視角的降質(zhì)渲染。隨后,我們提出了一種漸進式重建策略,從略微偏離軌跡的視角開始,逐步將未記錄視角的生成圖像加入重建過程,并逐步擴大偏離距離。通過這種漸進生成-重建流程,F(xiàn)reeSim支持在超過3米的大幅偏離下實現(xiàn)高質(zhì)量的軌跡外視角合成。
FreeSim方法使得大范圍相機偏移下仍然有著較高的保真度,支持自由視角的駕駛場景仿真。
28.靈活軌跡上的駕駛場景重建和渲染
FlexDrive:Toward Trajectory Flexibility in Driving Scene Reconstruction and Rendering
作者:周靜秋*,范略*,黃林江,石曉宇,劉偲,張兆翔,李鴻升
利用3D高斯?jié)姙R技術(shù),駕駛場景重建和渲染取得了顯著進展。然而,先前的研究大多集中在預(yù)記錄車輛路徑上的渲染質(zhì)量,難以推廣到路徑外的視角,這是由于缺乏這些視角的高質(zhì)量監(jiān)督。為解決這一問題,我們引入了逆視圖扭曲技術(shù),生成緊湊且高質(zhì)量的圖像作為路徑外視角重建的監(jiān)督,從而實現(xiàn)這些視角的高質(zhì)量渲染。為了準確且穩(wěn)健地進行逆視圖扭曲,提出了一種深度引導(dǎo)策略,在優(yōu)化過程中實時獲取密集深度圖,克服了LiDAR深度數(shù)據(jù)的稀疏性和不完整性。我們的方法在廣泛使用的Waymo Open數(shù)據(jù)集上實現(xiàn)了優(yōu)異的路徑內(nèi)和路徑外重建與渲染性能。此外,提出了一個基于模擬器的基準測試,以獲取路徑外的真實數(shù)據(jù)并定量評估路徑外渲染性能,我們的方法在此方面顯著優(yōu)于以往方法。
FlexDrive方法可以在高速環(huán)境下模擬cut-in等行為,并保證視覺保真度。
29.R-TPT:通過測試時提示調(diào)整提高視覺語言模型的對抗魯棒性
R-TPT:Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning
作者:生力軍,梁堅,王子磊,赫然
隨著CLIP等視覺語言模型作為基礎(chǔ)模型的廣泛應(yīng)用,針對下游任務(wù)的微調(diào)方法層出不窮。然而,由于這些模型固有的脆弱性以及有限的開源選擇,視覺語言模型比傳統(tǒng)視覺模型面臨更高的對抗攻擊風(fēng)險?,F(xiàn)有的防御技術(shù)通常依賴于訓(xùn)練期間的對抗性微調(diào),這需要標注數(shù)據(jù)且難以跨任務(wù)泛化。為了解決這些局限性,我們提出了R-TPT方法,通過在推理階段減輕對抗攻擊的影響來增強模型的魯棒性。我們首先通過消除經(jīng)典的邊際熵目標中對于對抗樣本沖突的損失項,僅保留點熵最小化。此外,我們引入了一種即插即用的基于可靠性的加權(quán)集成策略,該策略從可靠的增強視圖中聚合有用信息以加強防御。R-TPT方法在不需標注訓(xùn)練數(shù)據(jù)的情況下增強了對對抗攻擊的防御能力,同時為推理任務(wù)提供了高度的靈活性。
R-TPT的方法流程示意圖
30.通過大語言模型對步態(tài)識別特征進行序列建模
Bridging Gait Recognition And Large Language Models Sequence Modeling
作者:楊少鵬*,王繼隆*,侯賽輝,劉旭,曹春水,王亮,黃永禎
步態(tài)序列展現(xiàn)出與自然語言相似的序列結(jié)構(gòu)和上下文關(guān)系,其中每個元素——無論是單詞還是步態(tài)步驟——都與其前后元素相關(guān)聯(lián)。這種相似性使得步態(tài)序列可以轉(zhuǎn)化為包含身份信息的“文本”。大型語言模型(LLMs)旨在理解和生成序列數(shù)據(jù),因此可以用于步態(tài)序列建模,以提升步態(tài)識別的性能?;谶@些見解,我們首次嘗試將LLMs應(yīng)用于步態(tài)識別,并將其稱為GaitLLM。我們提出了步態(tài)到語言模塊,將步態(tài)序列轉(zhuǎn)化為適合LLMs的文本格式,以及語言到步態(tài)模塊,將LLMs的輸出映射回步態(tài)特征空間,從而彌合LLM輸出與步態(tài)識別之間的差距。值得注意的是,GaitLLM利用LLMs強大的建模能力,而無需依賴復(fù)雜的架構(gòu)設(shè)計,僅通過少量可訓(xùn)練參數(shù)即可提升步態(tài)識別性能。我們的方法在四個流行的步態(tài)數(shù)據(jù)集上取得了最先進的結(jié)果,證明了LLMs在這一領(lǐng)域應(yīng)用的有效性。
GaitLLM的概念示意圖
31.在多模態(tài)大型語言模型的安全對齊中我們是否真的需要精心挑選的惡意數(shù)據(jù)?
Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?
作者:王彥博,關(guān)霽洋,梁堅,赫然
多模態(tài)大型語言模型(MLLM)取得了重大進展,但其安全性對齊仍然有限。通常,當前的樊齊航開源MLLM依靠從其語言模塊繼承的對齊來避免有害內(nèi)容的生成。然而,缺乏專門為多模態(tài)輸入設(shè)計的安全措施會造成模態(tài)間的對齊差距,使MLLM容易受到視覺域攻擊,例如排版操縱攻擊。當前的安全對齊方法利用精心設(shè)計的安全數(shù)據(jù)集來增強模型防御能力,但仍不清楚模型從高質(zhì)量數(shù)據(jù)集學(xué)到了什么具體的特定知識或模式。通過比較實驗,我們發(fā)現(xiàn)對齊差距主要源于數(shù)據(jù)分布偏差,而圖像內(nèi)容、響應(yīng)質(zhì)量或數(shù)據(jù)集的對比行為對提高多模態(tài)安全性貢獻有限。為了進一步研究這一點并確定提高MLLM安全性的關(guān)鍵因素,我們建議在一小組良性的指令遵循數(shù)據(jù)上對MLLM進行微調(diào),將響應(yīng)替換為簡單、清晰的拒絕回答格式。實驗表明,無需耗費大量人力收集高質(zhì)量惡意數(shù)據(jù),只要微調(diào)集中存在特定比例的拒絕數(shù)據(jù),模型安全性仍可得到顯著提升,這表明在多模態(tài)預(yù)訓(xùn)練或指令微調(diào)期間,安全性對齊不會丟失,而僅僅會被掩蓋。只需糾正底層數(shù)據(jù)偏差,即可縮小視覺領(lǐng)域的安全差距。
研究流程示意圖
32.PhysVLM:讓視覺語言模型理解機器人的物理可達性
PhysVLM:Enabling Visual Language Models to Understand Robotic Physical Reachability
作者:周偉杰,陶滿禮,趙朝陽,郭海云,董宏輝,唐明,王金橋
大模型作為具身智能體決策的“大腦”,是實現(xiàn)現(xiàn)實世界中泛化操作的關(guān)鍵要素之一,但環(huán)境的視覺感知與物理空間約束的協(xié)同理解仍是實現(xiàn)可靠操作的主要挑戰(zhàn)。本研究提出首個機器人物理空間具身大模型——PhysVLM,有效整合了對環(huán)境的視覺理解和對具身智能體的物理空間約束感知,從而生成更加可行和可靠的動作決策。研究亮點體現(xiàn)為:
1.具身空間-物理約束建模(S-P Map encoding)。將機器人物理空間約束轉(zhuǎn)化為可學(xué)習(xí)的視覺語義表征,使模型無需學(xué)習(xí)具體機械參數(shù),即可實現(xiàn)跨機器人平臺的泛化能力。
2.視覺-物理空間協(xié)同推理架構(gòu)。PhysVLM創(chuàng)新性地采用雙分支特征編碼器設(shè)計,實現(xiàn)環(huán)境視覺語義與本體物理空間約束的特征交互,在保持通用視覺推理性能的同時,顯著增強對操作可行性的推理能力。
3.具身物理空間多模態(tài)數(shù)據(jù)集Phys100K。包括6類工業(yè)機械臂、10萬組操作場景,涵蓋RGB圖像—可達物理空間圖(S-P Map)—具身物理問答三元組數(shù)據(jù)。配套開發(fā)的EQA-phys評估基準包含帶有4類工業(yè)機械臂的仿真環(huán)境和問答數(shù)據(jù)。
實驗結(jié)果表明,PhysVLM相較于GPT-4o實現(xiàn)了14%的性能提升;在通用具身推理任務(wù)中,超越RoboMamba等具身多模態(tài)大模型(+8.6%)。所提方法展現(xiàn)出優(yōu)秀兼容性,與GPT-4o集成后,操作可行性判斷準確率提升7.1%。模型可準確識別機器人對物體的空間不可達性,并提出如“先利用地盤移動靠近目標再進行機械臂操作”等合理建議。
33.UniVAD:面向小樣本視覺異常檢測的跨領(lǐng)域統(tǒng)一模型
UniVAD:A Training-free Unified Model for Few-shot Visual Anomaly Detection
作者:古兆鵬,朱炳科,朱貴波,陳盈盈,唐明,王金橋
視覺異常檢測旨在識別圖像中偏離正常模式的異常樣本,涵蓋工業(yè)、邏輯、醫(yī)療等多個領(lǐng)域。由于這些領(lǐng)域之間存在數(shù)據(jù)分布差異,現(xiàn)有的異常檢測方法通常需要針對每個特定領(lǐng)域量身定制,采用專門設(shè)計的檢測技術(shù)和模型架構(gòu),難以在不同領(lǐng)域之間泛化應(yīng)用,這阻礙了異常檢測的跨領(lǐng)域統(tǒng)一。
為解決這一問題,我們提出了一種無需訓(xùn)練的跨領(lǐng)域統(tǒng)一的小樣本異常檢測方法——UniVAD。UniVAD無需在特定領(lǐng)域數(shù)據(jù)上進行訓(xùn)練,僅在測試階段提供少量正常樣本作為參考,即可檢測先前從未見過的物品類別中的異常。具體而言,UniVAD采用基于視覺基礎(chǔ)模型和聚類方法的上下文組件聚類(C3)模塊精確分割圖像中的組件,并利用組件感知補丁匹配(CAPM)和圖增強組件建模(GECM)模塊分別檢測圖像中不同語義層次的異常,從而實現(xiàn)跨領(lǐng)域統(tǒng)一異常檢測。
在涵蓋工業(yè)、邏輯、醫(yī)療領(lǐng)域的九個數(shù)據(jù)集上的實驗結(jié)果表明,UniVAD在多個領(lǐng)域的小樣本異常檢測任務(wù)中均實現(xiàn)了最先進的性能,優(yōu)于特定領(lǐng)域的異常檢測模型。相關(guān)代碼已開源。
34.基于對話優(yōu)化的跨模態(tài)對齊的對話式行人檢索
Chat-based Person Retrieval via Dialogue-Refined Cross-Modal Alignment
作者:白楊,季榆程,曹敏,王金橋,葉茫
傳統(tǒng)基于文本的行人檢索依賴單次輸入的文本描述作為查詢。然而,在實際場景中,難以確保該查詢能夠完全反映用戶的檢索意圖。為解決這一問題,我們提出了一種新的檢索范式——對話式行人檢索,通過交互式對話作為查詢,并結(jié)合對話上下文逐步優(yōu)化查詢內(nèi)容,從而實現(xiàn)更精準的行人檢索。然而,該任務(wù)面臨的首要挑戰(zhàn)是缺乏可用的對話-圖像配對數(shù)據(jù)。為此,我們構(gòu)建了首個面向?qū)υ捠叫腥藱z索的數(shù)據(jù)集ChatPedes,該數(shù)據(jù)集利用大語言模型自動生成問題并模擬用戶響應(yīng),從而完成對話構(gòu)建。此外,為了減少對話與圖像之間的模態(tài)差異,我們提出了一種對話優(yōu)化的跨模態(tài)對齊框架,該框架通過兩個自適應(yīng)屬性挖掘模塊,分別從對話和圖像中提取行人關(guān)鍵屬性,從而實現(xiàn)細粒度的跨模態(tài)對齊。同時,我們還設(shè)計了一種針對對話的數(shù)據(jù)增強策略——隨機輪次保留,以增強模型在不同對話長度下的泛化能力。
對話式行人檢索概述:對話構(gòu)建(Dialogue Building)通過對話歷史生成后續(xù)問題,提示用戶逐步提供更多關(guān)于目標行人的信息,最終形成關(guān)于目標行人的對話查詢(Dialogue Query)。對話優(yōu)化的跨模態(tài)對齊框架(DiaNA)旨在減少對話與圖像之間的模態(tài)差異,并利用可學(xué)習(xí)的屬性查詢提取關(guān)鍵信息,從而實現(xiàn)細粒度的跨模態(tài)對齊。
35.合成數(shù)據(jù)是持續(xù)視覺語言模型的一份優(yōu)雅禮物
Synthetic Data is an Elegant GIFT for Continual Vision-Language Models
作者:吳彬,施武軒,王金橋,葉茫
預(yù)訓(xùn)練視覺語言模型(VLM)需要通過持續(xù)學(xué)習(xí)來更新知識并適應(yīng)多種下游任務(wù)。然而,在持續(xù)微調(diào)的過程中,VLM不僅容易遺忘歷史下游任務(wù),還可能遺忘預(yù)訓(xùn)練習(xí)得的通用知識,導(dǎo)致泛化能力退化。傳統(tǒng)方法依賴重放部分歷史數(shù)據(jù)來緩解遺忘,不適用于預(yù)訓(xùn)練數(shù)據(jù)通常無法獲取的VLM。本文提出合成數(shù)據(jù)輔助的持續(xù)微調(diào)(GIFT),利用擴散模型重現(xiàn)VLM的預(yù)訓(xùn)練和下游任務(wù)數(shù)據(jù)。我們設(shè)計了對比蒸餾損失和圖文對齊約束,通過匹配合成圖像和對應(yīng)的文本提示,引導(dǎo)VLM在知識蒸餾中回顧習(xí)得的知識。此外,為了降低合成數(shù)據(jù)量有限帶來的過擬合風(fēng)險并提升蒸餾效果,我們引入了自適應(yīng)權(quán)重鞏固,基于合成圖像-文本對中的Fisher信息實現(xiàn)更好的穩(wěn)定性-可塑性平衡。實驗結(jié)果表明,當提示詞分別由語義多樣的外部視覺概念和下游任務(wù)類別名構(gòu)建時,擴散模型生成的圖像能夠有效近似VLM的預(yù)訓(xùn)練和下游任務(wù)數(shù)據(jù),從而有助于維持VLM在持續(xù)微調(diào)中的泛化能力并減輕災(zāi)難性遺忘。
GIFT框架圖。子圖(a)為基于合成數(shù)據(jù)的蒸餾,通過對比蒸餾損失對齊當前模型和歷史模型在匹配合成圖像-文本對時的輸出,通過圖文對齊約束修正教師模型可能存在的錯誤。子圖(b)為自適應(yīng)權(quán)重鞏固,使用合成圖像-文本對的Fisher信息加權(quán)L2約束,懲罰導(dǎo)致遺忘的參數(shù)更新。
36.運動感知的高效視頻多模態(tài)語言模型
Efficient Motion-Aware Video MLLM
作者:趙子嘉,霍宇琦,岳同天,郭龍騰,盧浩宇,王炳寧,陳煒鵬,劉靜
大多數(shù)當前的視頻多模態(tài)語言模型(MLLM)依賴于均勻幀采樣和圖像級編碼器,這導(dǎo)致了數(shù)據(jù)處理效率低下和有限的運動感知。為了解決這些問題,我們提出了EMA,一種高效的運動感知視頻多模態(tài)語言模型,利用壓縮視頻結(jié)構(gòu)作為輸入。我們提出了一種運動感知GOP(圖像組)編碼器,它在壓縮視頻流中的GOP單元內(nèi)融合空間和運動信息,生成緊湊且富有語義的視覺標記。通過在這種原生慢-快輸入架構(gòu)中,將較少但密集的RGB幀與更多但稀疏的運動向量結(jié)合,我們的方法減少了冗余并增強了運動表示。此外,我們還引入了MotionBench,一個評估四種運動類型(線性、曲線、旋轉(zhuǎn)和基于接觸的)運動理解的基準。實驗結(jié)果表明,EMA在MotionBench和流行的視頻問答基準上均達到了最先進的性能,同時降低了推理成本。此外,EMA還表現(xiàn)出強大的可擴展性,在長視頻理解基準上也展現(xiàn)了具有競爭力的性能。
基于GOP編碼模式的高效理解架構(gòu)
37.面向異步視頻生成的自回歸擴散生成方法
AR-Diffusion:Asynchronous Video Generation with Auto-Regressive Diffusion
作者:孫銘真,王衛(wèi)寧,李根,劉佳偉,孫家輝,馮萬泉,勞珊珊,周思宇,何茜,劉靜
視頻生成的任務(wù)需要合成視覺上逼真且時間上連貫的視頻幀?,F(xiàn)有的方法主要使用異步自回歸模型或同步擴散模型來解決這一挑戰(zhàn)。然而,異步自回歸模型通常存在誤差累積等問題,而同步擴散模型則受限于其對固定序列長度的依賴。為了解決這些問題,我們提出了一種新穎的模型——自回歸擴散模型(Auto-Regressive Diffusion,AR-Diffusion),它結(jié)合了自回歸模型和擴散模型的優(yōu)勢,實現(xiàn)了靈活、異步的視頻生成。具體來說,我們的方法利用擴散過程在訓(xùn)練和推理階段逐漸破壞視頻幀,從而減少這兩個階段之間的差異。受自回歸生成的啟發(fā),我們在單個幀的破壞時間步上引入了非遞減約束,確保較早的幀比后續(xù)的幀保持更清晰的狀態(tài)。此外,我們設(shè)計了兩種專門的時間步調(diào)度器:FoPP調(diào)度器用于在訓(xùn)練期間平衡時間步采樣,AD調(diào)度器用于在推理期間實現(xiàn)靈活的時間步差異,支持同步和異步生成。大量實驗證明了我們提出的方法的優(yōu)越性,該方法在四個具有挑戰(zhàn)性的基準測試中取得了具有競爭力且領(lǐng)先的結(jié)果。
歡迎后臺留言、推薦您感興趣的話題、內(nèi)容或資訊!
如需轉(zhuǎn)載或投稿,請后臺私信。
我要收藏
點個贊吧
轉(zhuǎn)發(fā)分享
咨詢詳情:如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:自動駕駛微信群、機器人微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領(lǐng)域的定位宣傳語
微信聯(lián)盟:自動駕駛微信群、機器人微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領(lǐng)域的定位宣傳語


評論排行