AAAI 2025 | 自動化所新作速覽(二)

引導(dǎo)多智能體強化學(xué)習(xí)的策略與人類常識對齊是一個具有挑戰(zhàn)性的問題,這主要源于將常識建模為獎勵的復(fù)雜性,特別是在復(fù)雜的長時序任務(wù)中。最近的研究表明,通過獎勵塑造(如基于勢函數(shù)的獎勵)可以有效提升策略的對齊效果。然而,現(xiàn)有方法主要依賴專家設(shè)計基于規(guī)則的獎勵,這通常需要大量人力,并且缺乏對常識的高層語義理解。為了解決這一問題,我們提出了一種基于層次化視覺獎勵塑造的方法,充分結(jié)合了視覺語言模型(VLM)的輕量化優(yōu)勢和視覺大語言模型(vLLM)的推理能力。在底層,一個VLM作為通用勢函數(shù),利用其內(nèi)在的語義理解能力,引導(dǎo)策略與人類常識對齊。在頂層,我們設(shè)計了一個基于vLLM的自適應(yīng)技能選擇模塊,用以幫助策略適應(yīng)長時任務(wù)中的不確定性和變化。該模塊通過指令、視頻回放和訓(xùn)練記錄,動態(tài)選擇預(yù)設(shè)池中的適用勢函數(shù)。此外,我們的方法可從理論上證明不改變最優(yōu)策略。我們在 Google Research Football 環(huán)境中進行的大量實驗表明,該方法不僅實現(xiàn)了更高的勝率,還能夠有效地將策略與人類常識對齊。
近期基于大規(guī)模語言模型的研究在數(shù)學(xué)推理能力上取得了顯著提升,尤其是在基礎(chǔ)難度的數(shù)學(xué)問題上。但是面對高中及大學(xué)以上水平的復(fù)雜問題時,現(xiàn)階段模型的表現(xiàn)仍然有很大提升空間。本文通過對人類解決數(shù)學(xué)問題的過程進行分析,將解決數(shù)學(xué)問題的思維過程分解為選擇合適的數(shù)學(xué)定理知識和做出分步解答兩個階段。在此基礎(chǔ)上,對思維鏈方法進行擴展,提出了在思維鏈的前置引入思考特定數(shù)學(xué)定理的過程,這一過程對解答的質(zhì)量及緩解幻覺有著重要的約束作用,但是在以往語言模型數(shù)學(xué)推理的研究中被忽略。因此,本文提出學(xué)習(xí)定理原理的概念,并創(chuàng)建了一個包含(問題,定理,解)三元組的數(shù)學(xué)推理數(shù)據(jù)集,用于將針對具體問題選擇特定定理的方法傳遞給特定模型。在此基礎(chǔ)上,本文模仿人類教學(xué)方法,提出一種面向定理的多層次指令進化策略,以緩解定理匹配數(shù)據(jù)標注困難的問題,并從各個角度促進對定理應(yīng)用方法的理解。在多個公開數(shù)學(xué)推理數(shù)據(jù)集上的評估結(jié)果顯示了本文所提出方法的有效性,尤其是在域外場景和涉及大學(xué)及以上的高水平數(shù)學(xué)問題上。
在多智能體博弈的模仿學(xué)習(xí)離線數(shù)據(jù)集中,通常包含展現(xiàn)多樣化策略的玩家軌跡,因此需要采取措施防止學(xué)習(xí)算法獲取不良行為。對這些軌跡進行表示學(xué)習(xí)是一種有效的方法,每條軌跡的策略表示可以刻畫每個演示者所采用的策略。然而,現(xiàn)有的學(xué)習(xí)策略往往需要玩家身份信息或依賴于較強的假設(shè),這些假設(shè)在一般的多智能體博弈數(shù)據(jù)集中未必適用。本文提出了策略表示增強模仿學(xué)習(xí)(Strategy Representation for Imitation Learning,STRIL)框架,該框架包含三大部分:(1) 在多智能體博弈中有效地學(xué)習(xí)軌跡對應(yīng)策略表示;(2) 基于這些策略表示估計提出的指標;(3) 利用指標篩去次優(yōu)數(shù)據(jù)。STRIL是一種插入式方法,可以集成到現(xiàn)有的模仿學(xué)習(xí)算法中。我們在多個競爭性多智能體場景中驗證了STRIL的有效性,包括雙人Pong、有限注德州撲克和四子棋。我們的方法成功獲取了策略表示和對應(yīng)指標,從而識別出主導(dǎo)軌跡,并顯著提升了這些環(huán)境中現(xiàn)有模仿學(xué)習(xí)算法的性能。
點云補全旨在從不完整的點云中重建完整的三維形狀,這對于三維物體檢測、分割和重建等任務(wù)至關(guān)重要。盡管點云分析技術(shù)不斷進步,但特征提取方法仍然面臨明顯的局限性。在大多數(shù)方法中用作輸入的點云的稀疏采樣通常會導(dǎo)致一定的全局結(jié)構(gòu)信息丟失。同時,傳統(tǒng)的局部特征提取方法通常難以捕捉復(fù)雜的幾何細節(jié)。為了克服這些缺點,我們引入了 PointCFormer,這是一個針對點云補全中的穩(wěn)健全局保留和精確局部細節(jié)捕捉進行了優(yōu)化的Transformer框架。這個框架有幾個關(guān)鍵優(yōu)勢。
首先,我們提出了一種基于關(guān)系的局部特征提取方法來感知局部精細的幾何特征。該方法在目標點與其k個最近鄰點之間建立了細粒度的關(guān)系度量,量化了每個相鄰點對目標點局部特征的貢獻。其次,我們引入了一個漸進式特征提取器,將我們的局部特征感知方法與自注意力相結(jié)合。它從更密集的點采樣作為輸入開始,迭代查詢長距離全局依賴關(guān)系和局部鄰域關(guān)系。此提取器保持了增強的全局結(jié)構(gòu)和精細的局部細節(jié),而不會產(chǎn)生大量的計算開銷。此外,我們在隱空間中生成點代理后設(shè)計了一個校正模塊,以重新引入來自輸入點的更密集信息,從而增強點代理的表示能力。PointCFormer 在幾個廣泛使用的基準上展示了最先進的性能。
音頻驅(qū)動的數(shù)字人生成需要在處理多樣化輸入肖像及復(fù)雜的音頻與面部動作相關(guān)性時,實現(xiàn)音視頻數(shù)據(jù)的無縫融合。針對這一挑戰(zhàn),我們提出了一個名為 GoHD的魯棒框架,用于從包含任意動作與身份信息的參考人臉圖像生成高度逼真、生動且可控的說話視頻。GoHD 包含三個關(guān)鍵創(chuàng)新模塊:首先,采用隱空間向量分解技術(shù)實現(xiàn)人臉驅(qū)動模塊,提升了對任意風(fēng)格輸入人臉圖像的泛化能力。該模塊實現(xiàn)了動作與身份信息的高度解耦,并通過引入眼神方向的控制糾正了之前方法易忽視的不自然眼部運動。其次,設(shè)計了基于conformer結(jié)構(gòu)的條件擴散模型,以確保生成的頭部姿態(tài)能夠感知語音韻律。最后,為了在有限的訓(xùn)練數(shù)據(jù)下估計出與音頻同步的逼真表情,提出了兩階段訓(xùn)練策略,分別對頻繁且?guī)嚓P(guān)的唇部動作進行蒸餾,并與生成其他時間依賴性但與音頻相關(guān)性較低的動作(如眨眼和皺眉)進行解耦。大量實驗驗證了 GoHD 卓越的泛化能力,展示了其在任意輸入上的逼真說話人生成效果。
本文提出了RECAD,包含一個新的柵格化草圖+拉伸的建模表示以及基于這種表示的CAD模型生成框架。與傳統(tǒng)方法使用離散的參數(shù)化線段序列表示草圖不同,RECAD采用柵格圖像來表示草圖,這種方法具有多個優(yōu)勢:1)打破了線段/曲線類型和數(shù)量的限制,提供了更強的幾何表達能力;2)能夠在連續(xù)的潛在空間中進行插值;3)允許用戶更直觀地控制輸出結(jié)果。在技術(shù)實現(xiàn)上,RECAD使用了兩個擴散網(wǎng)絡(luò):第一個網(wǎng)絡(luò)基于拉伸數(shù)量和類型生成拉伸框,第二個網(wǎng)絡(luò)基于這些拉伸框生成草圖圖像。通過結(jié)合這兩個網(wǎng)絡(luò),RECAD能夠有效地生成基于草圖和拉伸的CAD模型。實驗結(jié)果表明,RECAD在無條件生成方面取得了良好的性能,同時在條件生成和輸出編輯方面也展現(xiàn)出良好的效果。
近年來,擴散模型在視覺生成領(lǐng)域取得了顯著突破。然而,生成真實的人體圖像,尤其是手部和面部等復(fù)雜結(jié)構(gòu)部位,仍然面臨重大挑戰(zhàn)。這些問題主要源于人體結(jié)構(gòu)的復(fù)雜性及在生成過程中的信息丟失。針對這一問題,我們提出了一種名為 RealisHuman 的新型后處理框架。該方法分為兩個階段:第一階段通過“部位細節(jié)編碼器”(Part Detail Encoder)結(jié)合畸形部位的參考信息與 3D 姿態(tài)估計結(jié)果,生成真實的人體局部圖像,確保生成部分的細節(jié)一致性和高質(zhì)量;第二階段將生成的局部圖像無縫地嵌入原始圖像,通過局部區(qū)域的重繪技術(shù),實現(xiàn)自然過渡,避免“剪貼”痕跡。實驗結(jié)果表明,RealisHuman 顯著提高了生成圖像的真實感和一致性,并在不同風(fēng)格的圖像生成任務(wù)中表現(xiàn)出較強的泛化能力。此外,相較于現(xiàn)有的手部修復(fù)方法 HandRefiner,RealisHuman 在保留手部細節(jié)、修復(fù)小型手部區(qū)域以及保持整體圖像一致性方面表現(xiàn)更優(yōu)。
在雷達-相機3D物體檢測中,雷達點云稀疏且噪聲較大,這使得相機和雷達模態(tài)的融合變得困難。為了解決這個問題,我們提出了一種新的基于Query的檢測方法,稱為RCTrans。具體而言,我們首先設(shè)計了一個雷達稠密化編碼器,用以豐富稀疏的有效雷達Token,然后將其與圖像Token拼接。由此,我們可以充分探索每個興趣區(qū)域的3D信息,并減少在融合階段無效Token的干擾。接著,我們設(shè)計了一個可剪枝的序列解碼器,根據(jù)所獲得的Token和隨機初始化的Query來預(yù)測3D框。為了緩解雷達點云中的高度模糊性,我們通過序列融合結(jié)構(gòu)逐漸定位物體的位置。這有助于在Token和Query之間獲得更精確和靈活的對應(yīng)關(guān)系。我們在解碼器中采用了剪枝策略,這可以在推理過程中節(jié)省大量時間,并防止Query失去其獨特性。我們在大規(guī)模nuScenes數(shù)據(jù)集上進行了廣泛的實驗,證明了該方法的優(yōu)越性。
工具學(xué)習(xí)使大語言模型能夠通過調(diào)用工具與外部環(huán)境互動,豐富了大語言模型的準確性和能力范圍。然而,以往的研究主要集中在提高模型的工具使用準確性和對新工具的泛化能力上,過度強迫大語言模型學(xué)習(xí)特定的工具調(diào)用模式,而沒有考慮到對模型通用性能的損害。這偏離了實際應(yīng)用和整合工具以增強模型的初衷。為了解決這個問題,我們通過檢查模型組件的隱藏表示變化和使用基于梯度的重要性分數(shù)來剖析這種能力沖突現(xiàn)象。基于分析結(jié)果,我們提出了一種基于組件重要性的工具使用能力注入方法(CITI)。根據(jù)組件的梯度重要性評分,它通過對不同組件應(yīng)用不同的訓(xùn)練策略來緩解微調(diào)過程中引起的能力沖突。對重要組件,CITI應(yīng)用混合LoRA專家結(jié)構(gòu)(MOLoRA)來學(xué)習(xí)工具調(diào)用的知識;對于不重要的組件,它微調(diào)大語言模型的主干網(wǎng)絡(luò)中的參數(shù),同時保持其他參數(shù)不變。CITI能夠有效增強模型的工具使用能力,而不會過度犧牲其一般性能。實驗結(jié)果表明,我們的方法在一系列評估指標上取得了出色的表現(xiàn)。
知識編輯旨在更新大語言模型中過時或錯誤的知識。然而,目前的知識編輯方法在終身編輯方面的可擴展性有限。本研究探討了知識編輯在終身編輯中失敗的根本原因。我們從線性關(guān)聯(lián)記憶推導(dǎo)的閉式解出發(fā),該解是當(dāng)前最先進知識編輯方法的理論基礎(chǔ)。我們將這一解從單次編輯擴展到終身編輯,并通過嚴格的數(shù)學(xué)推導(dǎo),在最終解中發(fā)現(xiàn)了一個干擾項,這表明編輯知識可能會影響無關(guān)知識。對干擾項的進一步分析揭示了其與知識表示之間疊加現(xiàn)象的密切關(guān)系。也就是說,當(dāng)語言模型中不存在知識疊加時,干擾項消失,從而實現(xiàn)無損的知識編輯。通過對眾多語言模型的實驗,我們發(fā)現(xiàn)知識疊加具有普遍性,其表現(xiàn)為高峭度、零均值和重尾分布,并遵循清晰的擴展定律。最終,通過結(jié)合理論和實驗,我們證明了知識疊加是終身編輯失敗的根本原因。此外,本研究首次從疊加的視角探討了知識編輯,并廣泛觀察到眾多真實語言模型中的知識疊加現(xiàn)象。
近年來,大型語言模型(LLMs,如GPT-4、LLaMA3-70B)在復(fù)雜推理任務(wù)中表現(xiàn)出色,但其龐大的參數(shù)規(guī)模和高計算成本限制了在資源受限環(huán)境中的應(yīng)用。小型語言模型(SLMs,參數(shù)量小于7B)雖然計算效率高效,但在處理需要結(jié)合通用認知能力和領(lǐng)域?qū)I(yè)知識的復(fù)雜推理任務(wù)時表現(xiàn)較差。針對這一挑戰(zhàn),本文提出神經(jīng)-符號協(xié)作蒸餾(NesyCD)。該方法將復(fù)雜任務(wù)所需的能力劃分為兩大類:一類是普遍適用的通用能力,這類能力適合通過神經(jīng)網(wǎng)絡(luò)模型進行建模與處理;另一類則是特定應(yīng)用場景下的專用能力和專業(yè)知識,這類能力更適合利用符號系統(tǒng)進行精確表達與記錄。具體而言,NesyCD通過傳統(tǒng)的神經(jīng)蒸餾方法,將LLMs中的通用認知能力遷移到SLMs中;而對于復(fù)雜推理任務(wù)中所需的領(lǐng)域?qū)I(yè)知識,則采用符號知識蒸餾方法,將LLMs中的專業(yè)知識提取并存儲到符號知識庫中。實驗結(jié)果表明,NesyCD顯著提升了SLMs在復(fù)雜推理任務(wù)中的表現(xiàn)。例如,經(jīng)過NesyCD訓(xùn)練的LLaMA3-8B和Qwen2-7B在多個任務(wù)上的性能超越了GPT-3.5-turbo,并接近LLaMA3-70B。該方法為資源受限環(huán)境下的高效推理提供了新思路。
大語言模型(LLM)的海量預(yù)訓(xùn)練數(shù)據(jù)中,可能包含版權(quán)、隱私、或者不良信息,使得LLM容易生成未授權(quán)、私人、或者冒犯性內(nèi)容。為了消除此類語料對模型帶來的不利影響,知識遺忘作為一種有前景的解決方案應(yīng)運而生(圖1a展示了使模型遺忘與著名作家J.K.羅琳相關(guān)知識的一個實例)。然而,現(xiàn)有的知識遺忘手段得到的模型較為脆弱,容易受到手動設(shè)計的對抗性用戶輸入的干擾。因此,我們首先提出一種動態(tài)的、自動的攻擊框架,用來定量評估模型遺忘特定知識后的穩(wěn)定性。如圖1b所示,我們通過優(yōu)化一個通用的攻擊性后綴,以最大化遺忘后模型生成相關(guān)知識的概率。實驗結(jié)果表明,即便在未直接暴露遺忘后模型的情況下,在54%的測試問題中,原本應(yīng)被遺忘的知識仍可被成功恢復(fù)。為了修復(fù)遺忘過程的脆弱性,我們提出了基于隱式對抗攻擊的模型知識遺忘提升方法。具體而言,該方法分為兩個優(yōu)化階段(如圖1c所示)。第一階段為攻擊過程,通過優(yōu)化模型隱空間中的噪聲向量,以引導(dǎo)模型生成特定知識;第二階段則為防御過程,固定噪聲向量,轉(zhuǎn)而優(yōu)化模型參數(shù),以抑制特定知識的生成。實驗結(jié)果表明,我們提出的方法在多個公開的遺忘數(shù)據(jù)集上取得了顯著效果。在提升模型遺忘有效性53.4%的同時,僅導(dǎo)致11.3%的鄰接知識損失,并且?guī)缀醪粚δP偷耐ㄓ媚芰Ξa(chǎn)生任何負面影響。
微信聯(lián)盟:人工智能微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領(lǐng)域的定位宣傳語


評論排行