CVPR 2025 | 自動化所新作速覽(二)
CVPR 2025|自動化所新作速覽(二)
IEEE國際計(jì)算機(jī)視覺與模式識別會議(CVPR),是計(jì)算機(jī)視覺領(lǐng)域三大頂級會議之一。CVPR 2025將于6月11日至15日在美國田納西州納什維爾舉辦。我們將分期對自動化所的錄用研究成果進(jìn)行簡要介紹(排序不分先后),歡迎大家共同交流討論。

點(diǎn)擊上圖查看第一期
22.揭示關(guān)鍵細(xì)節(jié)以辨差異:基于骨架動作識別的全新原型視角
Revealing Key Details to See Differences:A Novel Prototypical Perspective for Skeleton-based Action Recognition
作者:劉宏達(dá),劉云帆,任民,王昊,王云龍,孫哲南
在基于骨架的動作識別中,由于骨架表示缺乏圖像級的細(xì)節(jié)信息,區(qū)分具有相似關(guān)節(jié)軌跡的動作成為一個(gè)關(guān)鍵挑戰(zhàn)。我們發(fā)現(xiàn),相似動作的區(qū)分依賴于特定身體部位的微妙運(yùn)動細(xì)節(jié),因此本文方法聚焦于局部骨架結(jié)構(gòu)的細(xì)粒度運(yùn)動特征。為此,我們提出ProtoGCN,一種基于圖卷積網(wǎng)絡(luò)(GCN)的模型。該模型將整個(gè)骨架序列的動態(tài)分解為一系列可學(xué)習(xí)原型的組合,這些原型代表了不同的核心運(yùn)動模式。通過對比原型重建結(jié)果,ProtoGCN能夠有效識別并增強(qiáng)相似動作的判別性表示。在不依賴復(fù)雜技巧的情況下,ProtoGCN在多個(gè)基準(zhǔn)數(shù)據(jù)集(包括NTU RGB+D、NTU RGB+D 120、Kinetics-Skeleton和FineGYM)上均達(dá)到了最先進(jìn)的性能,充分驗(yàn)證了所提方法的有效性。
骨架及學(xué)習(xí)拓?fù)浣Y(jié)構(gòu)的示意圖。如圖中(a)和(c)所示,對于相似動作“書寫”和“鍵盤打字”,基線模型雖然能夠關(guān)注手部相關(guān)關(guān)節(jié),但在揭示其獨(dú)特運(yùn)動特征方面存在不足。相比之下,本文提出的圖原型重建機(jī)制能夠準(zhǔn)確區(qū)分這兩個(gè)動作,這點(diǎn)從(b)和(d)所體現(xiàn)的顯著運(yùn)動模式差異上得到了驗(yàn)證。
23.在持續(xù)測試域自適應(yīng)中維持類間拓?fù)湟恢滦?/div>
Maintaining Consistent Inter-Class Topology in Continual Test-Time Adaptation
作者:倪成功,呂凡,檀佳垚,胡伏原,姚睿,周濤
本文介紹了一種名為Topological Consistency Adaptation(TCA)的新型持續(xù)測試時(shí)自適應(yīng)(CTTA)方法,旨在解決測試場景中領(lǐng)域偏移和錯(cuò)誤累積的挑戰(zhàn)。TCA通過引入類拓?fù)湟恢滦约s束,確保在連續(xù)自適應(yīng)過程中類間關(guān)系的穩(wěn)定性,最小化類中心的失真并保持拓?fù)浣Y(jié)構(gòu)。此外,TCA還提出了一種類內(nèi)緊湊性損失,以保持類內(nèi)特征的緊湊性,間接支持類間穩(wěn)定性。同時(shí),引入了一種批不平衡拓?fù)浼訖?quán)機(jī)制,以考慮每個(gè)批次內(nèi)類分布的不平衡,優(yōu)化中心距離并穩(wěn)定類間拓?fù)浣Y(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,TCA方法在處理連續(xù)領(lǐng)域偏移方面表現(xiàn)出色,能夠確保特征分布的穩(wěn)定性,并顯著提高預(yù)測性能。在CIFAR-10-C、CIFAR-100-C和ImageNet-C三個(gè)基準(zhǔn)任務(wù)上的廣泛實(shí)驗(yàn)表明,TCA在平均錯(cuò)誤率方面優(yōu)于其他方法,分別將平均錯(cuò)誤率降低到14.7%、29.7%和59.3%。這表明,保持平衡和穩(wěn)定的類間拓?fù)湟约邦悆?nèi)特征的均勻性,可以有效緩解CTTA中的錯(cuò)誤累積問題。

框架概述。TCA首先關(guān)注類間特征分布的均勻性,利用增強(qiáng)的偽標(biāo)記預(yù)測來計(jì)算偽質(zhì)心代理,從而使類間特征均勻化。隨后,TCA保持了類內(nèi)特征的緊湊分布,從而減輕了類特征分布內(nèi)的不平衡。最后,TCA根據(jù)詳細(xì)的歷史預(yù)測分布連續(xù)地維護(hù)類間質(zhì)心的動態(tài)權(quán)重,從而保持類間潛在的拓?fù)潢P(guān)系。
24.超越背景偏移:重新思考持續(xù)語義分割中的實(shí)例重放
Beyond Background Shift:Rethinking Instance Replay in Continual Semantic Segmentation
作者:尹紅梅,馮廷亮,呂凡,尚凡華,劉紅英,馮偉,萬亮
在這項(xiàng)工作中,我們聚焦于持續(xù)語義分割(CSS)任務(wù),其中分割網(wǎng)絡(luò)需要不斷學(xué)習(xí)新類別,同時(shí)避免遺忘已學(xué)類別的知識。盡管在分類任務(wù)中,存儲舊類別的圖像并將其直接納入新模型的訓(xùn)練已被證明可以有效緩解災(zāi)難性遺忘,但這一策略在CSS任務(wù)中存在顯著局限性。具體而言,存儲的圖像和新圖像通常只包含部分類別的標(biāo)注,這可能導(dǎo)致未標(biāo)注類別與背景混淆,從而增加模型擬合的難度。為了解決這一問題,本文提出了一種EIR方法,該方法不僅通過存儲舊類別的實(shí)例來保留舊知識,并同時(shí)消除背景混淆,還通過將存儲的實(shí)例與新圖像融合來緩解新數(shù)據(jù)中的背景偏移問題。通過有效解決存儲圖像和新圖像中的背景偏移,EIR能夠顯著緩解CSS任務(wù)中的災(zāi)難性遺忘,從而提升模型在CSS任務(wù)中的表現(xiàn)能力。實(shí)驗(yàn)結(jié)果驗(yàn)證了我們方法的有效性,EIR方案在CSS任務(wù)上顯著優(yōu)于當(dāng)前最先進(jìn)的方法。

圖1.傳統(tǒng)圖像重放方法與我們提出的重放方法的示意圖。(a)該圖展示了存儲圖像中僅標(biāo)注了舊類別“horse”,而其他類別(新類別“person”和舊類別“car”)被標(biāo)注為背景。此外,新圖像中的舊類別(“horse”)以及未來類別也被標(biāo)注為背景。(b)我們的方法通過保留實(shí)例來避免存儲圖像中的混淆信息,并通過將這些實(shí)例融合到新圖像中來緩解背景偏移問題。

圖2.方法的詳細(xì)架構(gòu)圖。首先,根據(jù)類別從舊數(shù)據(jù)中采樣實(shí)例。隨后,在類別組合階段,通過舊模型識別潛在的舊類別。在實(shí)例選擇階段,從實(shí)例池中選擇潛在類別的實(shí)例。之后,計(jì)算實(shí)例在新圖像中的放置位置,并將其與新圖像融合生成融合圖像。最后,對融合圖像進(jìn)行增強(qiáng)訓(xùn)練。
25.基于雙重語義引導(dǎo)的開放詞匯語義分割
Dual Semantic Guidance for Open Vocabulary Semantic Segmentation
作者:王正揚(yáng),馮廷亮,呂凡,尚凡華,馮偉,萬亮
開放詞匯語義分割旨在使模型能夠分割任意類別。目前,盡管像CLIP這樣的預(yù)訓(xùn)練視覺語言模型(VLM)通過從大規(guī)模數(shù)據(jù)中學(xué)習(xí)匹配文本和圖像表示為該任務(wù)奠定了堅(jiān)實(shí)的基礎(chǔ),但它們?nèi)狈ο袼丶壸R別能力。大多數(shù)現(xiàn)有方法利用文本作為引導(dǎo)來實(shí)現(xiàn)像素級語義分割。然而,文本語義的固有偏差以及缺乏像素級監(jiān)督信息難以有效微調(diào)基于CLIP的模型頗具挑戰(zhàn)性。本文考慮同時(shí)捕獲圖像和文本中包含的語義信息,構(gòu)建雙重語義引導(dǎo)及相應(yīng)的像素級偽標(biāo)注。本文提出增強(qiáng)區(qū)域感知來正確捕捉視覺語義引導(dǎo),并從文本中抓取名詞作為文本于一引導(dǎo),聯(lián)合微調(diào)基于CLIP的分割模型,從而實(shí)現(xiàn)良好的細(xì)粒度識別能力。綜合評估表明,在八種常用數(shù)據(jù)集上,我們的方法大幅超越了最先進(jìn)的成果。

圖1.目前開放詞匯分割方法的不足以及我們雙重語義引導(dǎo)的示意圖。(a)該圖展示了僅依賴名詞會導(dǎo)致圖像表示在大類上收斂,存在語義偏差。(b)該圖展示了先前方法使用圖像-文本匹配來監(jiān)督分割的局限性,這類方法的會導(dǎo)致粗糙的分割,甚至是未分割的狗都被判定為分割完整。(c)我們的方法從圖像-文本對中捕獲雙重語義引導(dǎo),協(xié)同指導(dǎo)模型訓(xùn)練。
圖2.雙重語義引導(dǎo)生成階段的示意圖。(1)該圖的左部分展示了數(shù)據(jù)處理的流程,具體來說,我們通過SAM獲得實(shí)例集,并通過區(qū)域感知加強(qiáng)模塊提取實(shí)例特征,再經(jīng)過聚類篩選獲得視覺語義引導(dǎo)與對應(yīng)分割標(biāo)簽。其次,我們提取文本中名詞,獲得文本語義引導(dǎo)。(2)該圖右部分展示了區(qū)域感知加強(qiáng)模塊。通過依據(jù)實(shí)例的掩碼改變注意力圖,加強(qiáng)對前景區(qū)域的感知。
26.打破線性注意力的低秩困境
Breaking the Low-rank Dilemma of Linear Attention
作者:樊齊航,黃懷波,赫然
Transformer模型中的Softmax注意力機(jī)制因其二次復(fù)雜度而計(jì)算代價(jià)高昂,在視覺應(yīng)用中面臨巨大挑戰(zhàn)。相比之下,線性注意力(Linear Attention)通過將計(jì)算復(fù)雜度降低到線性水平,提供了一種更加高效的解決方案。然而,線性注意力通常比Softmax注意力表現(xiàn)更差。我們的實(shí)驗(yàn)表明,這種性能下降主要源于線性注意力輸出特征映射的低秩特性,導(dǎo)致其難以充分建模復(fù)雜的空間信息。
為了解決這一低秩問題,我們從KV緩沖區(qū)和輸出特征兩個(gè)角度對其秩進(jìn)行了深入分析?;诖耍覀兲岢隽薘ank-Augmented Linear Attention(RALA),它在保持線性復(fù)雜度和高效性的同時(shí),性能可與Softmax注意力相媲美。在RALA的基礎(chǔ)上,我們構(gòu)建了Rank-Augmented Vision Linear Transformer(RAVLT)。大量實(shí)驗(yàn)表明,RAVLT在多種視覺任務(wù)上均能取得出色的性能。
對比Softmax注意力和不同線性注意力所輸出的特征圖。所有實(shí)驗(yàn)均基于DeiT-T架構(gòu)進(jìn)行,設(shè)N=196,d=64,圖中矩陣的滿秩為64。與Softmax注意力相比,各種線性注意力的輸出特征表現(xiàn)出明顯的低秩特性,這表明線性注意力所學(xué)習(xí)到的特征多樣性遠(yuǎn)不及Softmax注意力。RALA解決了這一問題,有效提升了模型學(xué)習(xí)到特征的秩。
27.邁向駕駛場景的自由視角仿真
FreeSim:Toward Free-viewpoint Camera Simulation in Driving Scenes
作者:范略*,張淏*,王啟泰,李鴻升,張兆翔
我們提出了FreeSim,一種面向自動駕駛的相機(jī)模擬方法。FreeSim強(qiáng)調(diào)在記錄的自車軌跡之外的視角上實(shí)現(xiàn)高質(zhì)量渲染。在此類視角下,由于缺乏訓(xùn)練數(shù)據(jù),以往方法存在不可接受的性能下降。為解決數(shù)據(jù)稀缺問題,我們首先提出了一種生成增強(qiáng)模型,并搭配匹配的數(shù)據(jù)構(gòu)建策略。該模型能夠在略微偏離記錄軌跡的視角上生成高質(zhì)量圖像,條件是該視角的降質(zhì)渲染。隨后,我們提出了一種漸進(jìn)式重建策略,從略微偏離軌跡的視角開始,逐步將未記錄視角的生成圖像加入重建過程,并逐步擴(kuò)大偏離距離。通過這種漸進(jìn)生成-重建流程,F(xiàn)reeSim支持在超過3米的大幅偏離下實(shí)現(xiàn)高質(zhì)量的軌跡外視角合成。
FreeSim方法使得大范圍相機(jī)偏移下仍然有著較高的保真度,支持自由視角的駕駛場景仿真。
28.靈活軌跡上的駕駛場景重建和渲染
FlexDrive:Toward Trajectory Flexibility in Driving Scene Reconstruction and Rendering
作者:周靜秋*,范略*,黃林江,石曉宇,劉偲,張兆翔,李鴻升
利用3D高斯?jié)姙R技術(shù),駕駛場景重建和渲染取得了顯著進(jìn)展。然而,先前的研究大多集中在預(yù)記錄車輛路徑上的渲染質(zhì)量,難以推廣到路徑外的視角,這是由于缺乏這些視角的高質(zhì)量監(jiān)督。為解決這一問題,我們引入了逆視圖扭曲技術(shù),生成緊湊且高質(zhì)量的圖像作為路徑外視角重建的監(jiān)督,從而實(shí)現(xiàn)這些視角的高質(zhì)量渲染。為了準(zhǔn)確且穩(wěn)健地進(jìn)行逆視圖扭曲,提出了一種深度引導(dǎo)策略,在優(yōu)化過程中實(shí)時(shí)獲取密集深度圖,克服了LiDAR深度數(shù)據(jù)的稀疏性和不完整性。我們的方法在廣泛使用的Waymo Open數(shù)據(jù)集上實(shí)現(xiàn)了優(yōu)異的路徑內(nèi)和路徑外重建與渲染性能。此外,提出了一個(gè)基于模擬器的基準(zhǔn)測試,以獲取路徑外的真實(shí)數(shù)據(jù)并定量評估路徑外渲染性能,我們的方法在此方面顯著優(yōu)于以往方法。
FlexDrive方法可以在高速環(huán)境下模擬cut-in等行為,并保證視覺保真度。
29.R-TPT:通過測試時(shí)提示調(diào)整提高視覺語言模型的對抗魯棒性
R-TPT:Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning
作者:生力軍,梁堅(jiān),王子磊,赫然
隨著CLIP等視覺語言模型作為基礎(chǔ)模型的廣泛應(yīng)用,針對下游任務(wù)的微調(diào)方法層出不窮。然而,由于這些模型固有的脆弱性以及有限的開源選擇,視覺語言模型比傳統(tǒng)視覺模型面臨更高的對抗攻擊風(fēng)險(xiǎn)?,F(xiàn)有的防御技術(shù)通常依賴于訓(xùn)練期間的對抗性微調(diào),這需要標(biāo)注數(shù)據(jù)且難以跨任務(wù)泛化。為了解決這些局限性,我們提出了R-TPT方法,通過在推理階段減輕對抗攻擊的影響來增強(qiáng)模型的魯棒性。我們首先通過消除經(jīng)典的邊際熵目標(biāo)中對于對抗樣本沖突的損失項(xiàng),僅保留點(diǎn)熵最小化。此外,我們引入了一種即插即用的基于可靠性的加權(quán)集成策略,該策略從可靠的增強(qiáng)視圖中聚合有用信息以加強(qiáng)防御。R-TPT方法在不需標(biāo)注訓(xùn)練數(shù)據(jù)的情況下增強(qiáng)了對對抗攻擊的防御能力,同時(shí)為推理任務(wù)提供了高度的靈活性。
R-TPT的方法流程示意圖
30.通過大語言模型對步態(tài)識別特征進(jìn)行序列建模
Bridging Gait Recognition And Large Language Models Sequence Modeling
作者:楊少鵬*,王繼隆*,侯賽輝,劉旭,曹春水,王亮,黃永禎
步態(tài)序列展現(xiàn)出與自然語言相似的序列結(jié)構(gòu)和上下文關(guān)系,其中每個(gè)元素——無論是單詞還是步態(tài)步驟——都與其前后元素相關(guān)聯(lián)。這種相似性使得步態(tài)序列可以轉(zhuǎn)化為包含身份信息的“文本”。大型語言模型(LLMs)旨在理解和生成序列數(shù)據(jù),因此可以用于步態(tài)序列建模,以提升步態(tài)識別的性能。基于這些見解,我們首次嘗試將LLMs應(yīng)用于步態(tài)識別,并將其稱為GaitLLM。我們提出了步態(tài)到語言模塊,將步態(tài)序列轉(zhuǎn)化為適合LLMs的文本格式,以及語言到步態(tài)模塊,將LLMs的輸出映射回步態(tài)特征空間,從而彌合LLM輸出與步態(tài)識別之間的差距。值得注意的是,GaitLLM利用LLMs強(qiáng)大的建模能力,而無需依賴復(fù)雜的架構(gòu)設(shè)計(jì),僅通過少量可訓(xùn)練參數(shù)即可提升步態(tài)識別性能。我們的方法在四個(gè)流行的步態(tài)數(shù)據(jù)集上取得了最先進(jìn)的結(jié)果,證明了LLMs在這一領(lǐng)域應(yīng)用的有效性。
GaitLLM的概念示意圖
31.在多模態(tài)大型語言模型的安全對齊中我們是否真的需要精心挑選的惡意數(shù)據(jù)?
Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?
作者:王彥博,關(guān)霽洋,梁堅(jiān),赫然
多模態(tài)大型語言模型(MLLM)取得了重大進(jìn)展,但其安全性對齊仍然有限。通常,當(dāng)前的樊齊航開源MLLM依靠從其語言模塊繼承的對齊來避免有害內(nèi)容的生成。然而,缺乏專門為多模態(tài)輸入設(shè)計(jì)的安全措施會造成模態(tài)間的對齊差距,使MLLM容易受到視覺域攻擊,例如排版操縱攻擊。當(dāng)前的安全對齊方法利用精心設(shè)計(jì)的安全數(shù)據(jù)集來增強(qiáng)模型防御能力,但仍不清楚模型從高質(zhì)量數(shù)據(jù)集學(xué)到了什么具體的特定知識或模式。通過比較實(shí)驗(yàn),我們發(fā)現(xiàn)對齊差距主要源于數(shù)據(jù)分布偏差,而圖像內(nèi)容、響應(yīng)質(zhì)量或數(shù)據(jù)集的對比行為對提高多模態(tài)安全性貢獻(xiàn)有限。為了進(jìn)一步研究這一點(diǎn)并確定提高M(jìn)LLM安全性的關(guān)鍵因素,我們建議在一小組良性的指令遵循數(shù)據(jù)上對MLLM進(jìn)行微調(diào),將響應(yīng)替換為簡單、清晰的拒絕回答格式。實(shí)驗(yàn)表明,無需耗費(fèi)大量人力收集高質(zhì)量惡意數(shù)據(jù),只要微調(diào)集中存在特定比例的拒絕數(shù)據(jù),模型安全性仍可得到顯著提升,這表明在多模態(tài)預(yù)訓(xùn)練或指令微調(diào)期間,安全性對齊不會丟失,而僅僅會被掩蓋。只需糾正底層數(shù)據(jù)偏差,即可縮小視覺領(lǐng)域的安全差距。
研究流程示意圖
32.PhysVLM:讓視覺語言模型理解機(jī)器人的物理可達(dá)性
PhysVLM:Enabling Visual Language Models to Understand Robotic Physical Reachability
作者:周偉杰,陶滿禮,趙朝陽,郭海云,董宏輝,唐明,王金橋
大模型作為具身智能體決策的“大腦”,是實(shí)現(xiàn)現(xiàn)實(shí)世界中泛化操作的關(guān)鍵要素之一,但環(huán)境的視覺感知與物理空間約束的協(xié)同理解仍是實(shí)現(xiàn)可靠操作的主要挑戰(zhàn)。本研究提出首個(gè)機(jī)器人物理空間具身大模型——PhysVLM,有效整合了對環(huán)境的視覺理解和對具身智能體的物理空間約束感知,從而生成更加可行和可靠的動作決策。研究亮點(diǎn)體現(xiàn)為:
1.具身空間-物理約束建模(S-P Map encoding)。將機(jī)器人物理空間約束轉(zhuǎn)化為可學(xué)習(xí)的視覺語義表征,使模型無需學(xué)習(xí)具體機(jī)械參數(shù),即可實(shí)現(xiàn)跨機(jī)器人平臺的泛化能力。
2.視覺-物理空間協(xié)同推理架構(gòu)。PhysVLM創(chuàng)新性地采用雙分支特征編碼器設(shè)計(jì),實(shí)現(xiàn)環(huán)境視覺語義與本體物理空間約束的特征交互,在保持通用視覺推理性能的同時(shí),顯著增強(qiáng)對操作可行性的推理能力。
3.具身物理空間多模態(tài)數(shù)據(jù)集Phys100K。包括6類工業(yè)機(jī)械臂、10萬組操作場景,涵蓋RGB圖像—可達(dá)物理空間圖(S-P Map)—具身物理問答三元組數(shù)據(jù)。配套開發(fā)的EQA-phys評估基準(zhǔn)包含帶有4類工業(yè)機(jī)械臂的仿真環(huán)境和問答數(shù)據(jù)。
實(shí)驗(yàn)結(jié)果表明,PhysVLM相較于GPT-4o實(shí)現(xiàn)了14%的性能提升;在通用具身推理任務(wù)中,超越RoboMamba等具身多模態(tài)大模型(+8.6%)。所提方法展現(xiàn)出優(yōu)秀兼容性,與GPT-4o集成后,操作可行性判斷準(zhǔn)確率提升7.1%。模型可準(zhǔn)確識別機(jī)器人對物體的空間不可達(dá)性,并提出如“先利用地盤移動靠近目標(biāo)再進(jìn)行機(jī)械臂操作”等合理建議。
33.UniVAD:面向小樣本視覺異常檢測的跨領(lǐng)域統(tǒng)一模型
UniVAD:A Training-free Unified Model for Few-shot Visual Anomaly Detection
作者:古兆鵬,朱炳科,朱貴波,陳盈盈,唐明,王金橋
視覺異常檢測旨在識別圖像中偏離正常模式的異常樣本,涵蓋工業(yè)、邏輯、醫(yī)療等多個(gè)領(lǐng)域。由于這些領(lǐng)域之間存在數(shù)據(jù)分布差異,現(xiàn)有的異常檢測方法通常需要針對每個(gè)特定領(lǐng)域量身定制,采用專門設(shè)計(jì)的檢測技術(shù)和模型架構(gòu),難以在不同領(lǐng)域之間泛化應(yīng)用,這阻礙了異常檢測的跨領(lǐng)域統(tǒng)一。
為解決這一問題,我們提出了一種無需訓(xùn)練的跨領(lǐng)域統(tǒng)一的小樣本異常檢測方法——UniVAD。UniVAD無需在特定領(lǐng)域數(shù)據(jù)上進(jìn)行訓(xùn)練,僅在測試階段提供少量正常樣本作為參考,即可檢測先前從未見過的物品類別中的異常。具體而言,UniVAD采用基于視覺基礎(chǔ)模型和聚類方法的上下文組件聚類(C3)模塊精確分割圖像中的組件,并利用組件感知補(bǔ)丁匹配(CAPM)和圖增強(qiáng)組件建模(GECM)模塊分別檢測圖像中不同語義層次的異常,從而實(shí)現(xiàn)跨領(lǐng)域統(tǒng)一異常檢測。
在涵蓋工業(yè)、邏輯、醫(yī)療領(lǐng)域的九個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,UniVAD在多個(gè)領(lǐng)域的小樣本異常檢測任務(wù)中均實(shí)現(xiàn)了最先進(jìn)的性能,優(yōu)于特定領(lǐng)域的異常檢測模型。相關(guān)代碼已開源。
34.基于對話優(yōu)化的跨模態(tài)對齊的對話式行人檢索
Chat-based Person Retrieval via Dialogue-Refined Cross-Modal Alignment
作者:白楊,季榆程,曹敏,王金橋,葉茫
傳統(tǒng)基于文本的行人檢索依賴單次輸入的文本描述作為查詢。然而,在實(shí)際場景中,難以確保該查詢能夠完全反映用戶的檢索意圖。為解決這一問題,我們提出了一種新的檢索范式——對話式行人檢索,通過交互式對話作為查詢,并結(jié)合對話上下文逐步優(yōu)化查詢內(nèi)容,從而實(shí)現(xiàn)更精準(zhǔn)的行人檢索。然而,該任務(wù)面臨的首要挑戰(zhàn)是缺乏可用的對話-圖像配對數(shù)據(jù)。為此,我們構(gòu)建了首個(gè)面向?qū)υ捠叫腥藱z索的數(shù)據(jù)集ChatPedes,該數(shù)據(jù)集利用大語言模型自動生成問題并模擬用戶響應(yīng),從而完成對話構(gòu)建。此外,為了減少對話與圖像之間的模態(tài)差異,我們提出了一種對話優(yōu)化的跨模態(tài)對齊框架,該框架通過兩個(gè)自適應(yīng)屬性挖掘模塊,分別從對話和圖像中提取行人關(guān)鍵屬性,從而實(shí)現(xiàn)細(xì)粒度的跨模態(tài)對齊。同時(shí),我們還設(shè)計(jì)了一種針對對話的數(shù)據(jù)增強(qiáng)策略——隨機(jī)輪次保留,以增強(qiáng)模型在不同對話長度下的泛化能力。
對話式行人檢索概述:對話構(gòu)建(Dialogue Building)通過對話歷史生成后續(xù)問題,提示用戶逐步提供更多關(guān)于目標(biāo)行人的信息,最終形成關(guān)于目標(biāo)行人的對話查詢(Dialogue Query)。對話優(yōu)化的跨模態(tài)對齊框架(DiaNA)旨在減少對話與圖像之間的模態(tài)差異,并利用可學(xué)習(xí)的屬性查詢提取關(guān)鍵信息,從而實(shí)現(xiàn)細(xì)粒度的跨模態(tài)對齊。
35.合成數(shù)據(jù)是持續(xù)視覺語言模型的一份優(yōu)雅禮物
Synthetic Data is an Elegant GIFT for Continual Vision-Language Models
作者:吳彬,施武軒,王金橋,葉茫
預(yù)訓(xùn)練視覺語言模型(VLM)需要通過持續(xù)學(xué)習(xí)來更新知識并適應(yīng)多種下游任務(wù)。然而,在持續(xù)微調(diào)的過程中,VLM不僅容易遺忘歷史下游任務(wù),還可能遺忘預(yù)訓(xùn)練習(xí)得的通用知識,導(dǎo)致泛化能力退化。傳統(tǒng)方法依賴重放部分歷史數(shù)據(jù)來緩解遺忘,不適用于預(yù)訓(xùn)練數(shù)據(jù)通常無法獲取的VLM。本文提出合成數(shù)據(jù)輔助的持續(xù)微調(diào)(GIFT),利用擴(kuò)散模型重現(xiàn)VLM的預(yù)訓(xùn)練和下游任務(wù)數(shù)據(jù)。我們設(shè)計(jì)了對比蒸餾損失和圖文對齊約束,通過匹配合成圖像和對應(yīng)的文本提示,引導(dǎo)VLM在知識蒸餾中回顧習(xí)得的知識。此外,為了降低合成數(shù)據(jù)量有限帶來的過擬合風(fēng)險(xiǎn)并提升蒸餾效果,我們引入了自適應(yīng)權(quán)重鞏固,基于合成圖像-文本對中的Fisher信息實(shí)現(xiàn)更好的穩(wěn)定性-可塑性平衡。實(shí)驗(yàn)結(jié)果表明,當(dāng)提示詞分別由語義多樣的外部視覺概念和下游任務(wù)類別名構(gòu)建時(shí),擴(kuò)散模型生成的圖像能夠有效近似VLM的預(yù)訓(xùn)練和下游任務(wù)數(shù)據(jù),從而有助于維持VLM在持續(xù)微調(diào)中的泛化能力并減輕災(zāi)難性遺忘。
GIFT框架圖。子圖(a)為基于合成數(shù)據(jù)的蒸餾,通過對比蒸餾損失對齊當(dāng)前模型和歷史模型在匹配合成圖像-文本對時(shí)的輸出,通過圖文對齊約束修正教師模型可能存在的錯(cuò)誤。子圖(b)為自適應(yīng)權(quán)重鞏固,使用合成圖像-文本對的Fisher信息加權(quán)L2約束,懲罰導(dǎo)致遺忘的參數(shù)更新。
36.運(yùn)動感知的高效視頻多模態(tài)語言模型
Efficient Motion-Aware Video MLLM
作者:趙子嘉,霍宇琦,岳同天,郭龍騰,盧浩宇,王炳寧,陳煒鵬,劉靜
大多數(shù)當(dāng)前的視頻多模態(tài)語言模型(MLLM)依賴于均勻幀采樣和圖像級編碼器,這導(dǎo)致了數(shù)據(jù)處理效率低下和有限的運(yùn)動感知。為了解決這些問題,我們提出了EMA,一種高效的運(yùn)動感知視頻多模態(tài)語言模型,利用壓縮視頻結(jié)構(gòu)作為輸入。我們提出了一種運(yùn)動感知GOP(圖像組)編碼器,它在壓縮視頻流中的GOP單元內(nèi)融合空間和運(yùn)動信息,生成緊湊且富有語義的視覺標(biāo)記。通過在這種原生慢-快輸入架構(gòu)中,將較少但密集的RGB幀與更多但稀疏的運(yùn)動向量結(jié)合,我們的方法減少了冗余并增強(qiáng)了運(yùn)動表示。此外,我們還引入了MotionBench,一個(gè)評估四種運(yùn)動類型(線性、曲線、旋轉(zhuǎn)和基于接觸的)運(yùn)動理解的基準(zhǔn)。實(shí)驗(yàn)結(jié)果表明,EMA在MotionBench和流行的視頻問答基準(zhǔn)上均達(dá)到了最先進(jìn)的性能,同時(shí)降低了推理成本。此外,EMA還表現(xiàn)出強(qiáng)大的可擴(kuò)展性,在長視頻理解基準(zhǔn)上也展現(xiàn)了具有競爭力的性能。
基于GOP編碼模式的高效理解架構(gòu)
37.面向異步視頻生成的自回歸擴(kuò)散生成方法
AR-Diffusion:Asynchronous Video Generation with Auto-Regressive Diffusion
作者:孫銘真,王衛(wèi)寧,李根,劉佳偉,孫家輝,馮萬泉,勞珊珊,周思宇,何茜,劉靜
視頻生成的任務(wù)需要合成視覺上逼真且時(shí)間上連貫的視頻幀。現(xiàn)有的方法主要使用異步自回歸模型或同步擴(kuò)散模型來解決這一挑戰(zhàn)。然而,異步自回歸模型通常存在誤差累積等問題,而同步擴(kuò)散模型則受限于其對固定序列長度的依賴。為了解決這些問題,我們提出了一種新穎的模型——自回歸擴(kuò)散模型(Auto-Regressive Diffusion,AR-Diffusion),它結(jié)合了自回歸模型和擴(kuò)散模型的優(yōu)勢,實(shí)現(xiàn)了靈活、異步的視頻生成。具體來說,我們的方法利用擴(kuò)散過程在訓(xùn)練和推理階段逐漸破壞視頻幀,從而減少這兩個(gè)階段之間的差異。受自回歸生成的啟發(fā),我們在單個(gè)幀的破壞時(shí)間步上引入了非遞減約束,確保較早的幀比后續(xù)的幀保持更清晰的狀態(tài)。此外,我們設(shè)計(jì)了兩種專門的時(shí)間步調(diào)度器:FoPP調(diào)度器用于在訓(xùn)練期間平衡時(shí)間步采樣,AD調(diào)度器用于在推理期間實(shí)現(xiàn)靈活的時(shí)間步差異,支持同步和異步生成。大量實(shí)驗(yàn)證明了我們提出的方法的優(yōu)越性,該方法在四個(gè)具有挑戰(zhàn)性的基準(zhǔn)測試中取得了具有競爭力且領(lǐng)先的結(jié)果。
歡迎后臺留言、推薦您感興趣的話題、內(nèi)容或資訊!
如需轉(zhuǎn)載或投稿,請后臺私信。
我要收藏
點(diǎn)個(gè)贊吧
轉(zhuǎn)發(fā)分享
咨詢詳情:如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:自動駕駛微信群、機(jī)器人微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語
微信聯(lián)盟:自動駕駛微信群、機(jī)器人微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語


評論排行