【ZiDongHua 之會展賽培壇收錄關鍵詞: 中國科學院自動化研究所 智能決策 自動駕駛 ChatGPT】
  
  第三屆智能決策論壇回顧 | 多智能體強化學習分論壇
  
  人工智能作為當前最具革命性的技術之一,正在從感知向認知、決策的縱深方向發(fā)展。中國科學院自動化研究所長期堅持“智能科學與技術”研究,確立了“自主進化智能”的核心發(fā)展目標,將“博弈決策智能系統(tǒng)”作為主攻方向之一。2024年4月13至14日,自動化所舉辦“第三屆智能決策論壇”,聚焦大模型、群體智能、強化學習等前沿學術領域,探討決策智能的未來發(fā)展之路。本系列文章將分專題對論壇報告進行梳理。今天,我們會詳細回顧「多智能體強化學習分論壇」的四大報告,歡迎學界、業(yè)界同仁及人工智能愛好者共同交流探討。
  
  
  
  #報告1
  
  博弈交互學習
  
  ——一種復雜系統(tǒng)決策問題的求解范式
  
  報告人:興軍亮
  
  清華大學研究員
  
  報告要點:
  
  ? 報告總結了復雜系統(tǒng)決策問題研究面臨的主要技術挑戰(zhàn)。
  
  ? 興軍亮研究員分享了其提出的博弈交互學習復雜系統(tǒng)決策問題求解范式、知識數(shù)據(jù)混合驅(qū)動學習的技術路線以及由此取得的研究進展。
  
  ? 興軍亮研究員分享了其提出的能夠吸收人類知識的規(guī)劃器-執(zhí)行器-評估器(PAE)算法訓練架構,可以大幅提升現(xiàn)有RL算法探索效率,為構建人類可參與的交互式博弈學習范式提供研究和算法基礎。
  
  
  
  興軍亮研究員首先介紹了復雜系統(tǒng)智能決策問題的研究背景,從感知智能、認知智能到復雜系統(tǒng)決策智能,深入回顧了深度學習引發(fā)的人工智能研究熱潮在過去十余年來的主要進展。然而面向復雜系統(tǒng)的決策問題還存在諸多技術瓶頸,興軍亮研究員指出,復雜系統(tǒng)所呈現(xiàn)出的多尺度性、多層次性和時空演化性給相關研究帶來了極大挑戰(zhàn),強對抗環(huán)境下的復雜系統(tǒng)智能決策問題還需要大量研究。
  
  復雜系統(tǒng)決策問題的應用場景多為巨復雜、高動態(tài)、不確定的強對抗環(huán)境,面臨著難建模、難計算、難解釋等技術挑戰(zhàn),興軍亮對其中的主要技術挑戰(zhàn)進行了總結:包括稀疏獎勵和長時依賴、缺數(shù)據(jù)少知識難學習、在線適應與遷移難實現(xiàn)、復雜異構群體協(xié)作競爭、進化目標不確定難評價等。針對上述技術挑戰(zhàn),興軍亮提出了一種博弈交互學習的研究范式,其主要思路是將傳統(tǒng)的計算博弈理論方法和最新的機器學習算法技術融合到一個框架中進行建模計算,同時利用人機交互過程對學習結果、學習過程以及模型機理的可解釋性進行探究。
  
  基于博弈交互學習研究范式,在解決具體問題的過程中進一步設計了知識數(shù)據(jù)混合驅(qū)動學習的技術路線,目的是通過吸納知識推理學習和數(shù)據(jù)擬合學習的各自優(yōu)勢,實現(xiàn)知識和數(shù)據(jù)雙向的迭代增強。這一技術路線的實現(xiàn)主要分為三個過程:第一步,由知識推理模型引導數(shù)據(jù)學習;第二步,由數(shù)據(jù)學習結果驅(qū)動知識發(fā)現(xiàn):第三步,是不斷重復上述兩步實現(xiàn)雙向迭代增強。學習驅(qū)動典型復雜系統(tǒng)從初始狀態(tài)到有序、再到高級決策的完整智能生成過程。
  
  興軍亮團隊近年來依托博弈交互學習的求解范式和知識數(shù)據(jù)混合驅(qū)動學習的技術路線,圍繞智能體與環(huán)境(單體探索)、智能體之間(群體博弈)、以及智能體與人(人機混合)的交互學習問題開展核心算法研究,取得了系列成果。
  
  興軍亮重點介紹了引入人類外部知識的高效探索AI。人類擅長從外部知識中吸收有益見解。這種能力對于AI同樣重要。但目前的RL智能體仍需通過大量試錯來進行學習。興軍亮提出了一種能夠吸收人類知識的規(guī)劃器-執(zhí)行器-評估器(PAE)算法訓練架構:外部知識以自然語言的形式呈現(xiàn),規(guī)劃器由易到難提供外部知識,執(zhí)行器遵循指導逐漸掌握復雜技能,評估器以獎勵同時驅(qū)動規(guī)劃器和執(zhí)行器更新。該算法可以大幅提升現(xiàn)有RL算法探索效率,為構建人類可參與的交互式博弈學習范式提供研究和算法基礎。
  
  出于真實模擬、有限邊界、天使標準、無損探索、有趣益智的考慮,興軍亮團隊采用各類不同游戲作為實驗環(huán)境。他逐一展示了圍繞Atari游戲、星際爭霸、德州撲克、國標麻將、王者榮耀、足球比賽等典型游戲所開發(fā)的一系列AI的應用效果。
  
  最后,興軍亮指出,現(xiàn)有博弈學技術需要利用海量訓練數(shù)據(jù)、消耗巨大計算資源、采用暴力學習復雜映射關系?,F(xiàn)有問題求解范式也仍存在著學習過程不透明,進化機理不明確,無法實現(xiàn)知識演化的主要問題。他將繼續(xù)以知識演化為目標,通過知識表征、抽象、遷移,突破知識推理和數(shù)據(jù)學習融合的混合驅(qū)動交互學習決策技術,創(chuàng)新知識數(shù)據(jù)雙向循環(huán)、迭代增強的技術解決方案,實現(xiàn)面向復雜系統(tǒng)的可共進增強的人機混合智能。
  
  #報告2
  
  深度強化學習的挑戰(zhàn)及落地
  
  報告人:郝建業(yè)
  
  天津大學副教授
  
  華為諾亞決策推理實驗室主任
  
  報告要點:
  
  ? 在全新的大模型學習范式下,強化學習仍在決策模型中扮演著重要的作用。
  
  ? 郝建業(yè)副教授分享了策略表征、世界模型和高效探索的新思路,可支撐在線強化學習獲取高質(zhì)量數(shù)據(jù)。
  
  ? 郝建業(yè)副教授團隊構建了具備5種不同類型反饋、1500萬時間步的標注數(shù)據(jù)、超過30種仿真環(huán)境、不同獎勵模型擬合方法的開源RLHF通用平臺和基準Uni-RLHF,推動該領域的進一步發(fā)展。
  
 
  
  郝建業(yè)副教授首先快速梳理了傳統(tǒng)強化學習范式,包括離線強化學習以及在線強化學習中的on-policy學習和off-policy學習。在剛剛到來的大模型時代,決策領域又產(chǎn)生了全新的兩階段學習范式:預訓練 + 微調(diào),即第一階段進行離線預訓練:采集海量數(shù)據(jù),用離線方法訓練一個具有一定泛化性的預訓練策略或世界模型;然后第二階段進行在線微調(diào):將第一階段得到的策略或世界模型在線地與環(huán)境進行少量的交互迭代,得到當前真實任務下的一個魯棒策略。郝建業(yè)強調(diào),在全新的大模型學習范式下,強化學習仍在決策模型中扮演著重要的作用。
  
  高效的離線預訓練離不開海量高質(zhì)量的數(shù)據(jù)。郝建業(yè)提出利用高效在線強化學算法自動獲取和收集多樣化場景下的海量數(shù)據(jù),主要創(chuàng)新性體現(xiàn)在三個方面:策略表征、世界模型和高效探索。
  
  策略表征拓展的值函數(shù):將策略表征引入到價值函數(shù)中,在GPI過程中每次根據(jù)當前策略采樣的樣本估計改進之后的策略時,利用策略表征拓展的值函數(shù),借由神經(jīng)網(wǎng)絡的泛化性對改進之后策略做泛化,從而降低強化學習算法跟環(huán)境采樣的成本。理論分析證明了該方法的收斂性。對于多智能體場景,決策空間隨著智能體數(shù)量的增加而指數(shù)級增長,因此需要考慮對策略空間在建模階段做一個約減。郝建業(yè)提出置換不變性和置換等變性兩個屬性,減少同類型策略的重復學習,利用超網(wǎng)絡架構在任何多智能體學習框架前后中增添置換不變性和置換等變性的考量,從而降低策略的擬合難度。
  
  將世界模型與上述置換不變性和置換等變性屬性相結合:針對蒙特卡洛樹搜索進行的策略搜索,設計上述兩種屬性的世界模型,從而實現(xiàn)在多智能體的復雜策略空間的高效樹搜索。上述僅依靠置換不變性和置換等變性考量的多智能體方法已經(jīng)取得出色的成績,在添加相應世界模型后,性能將得到進一步的提升。
  
  策略表征與高效探索相融合:提出了強化學習與演化學習相融合的學習方法ERL-Re2,演化學習雖然可以幫助強化學習探索到更好的策略,跳出局部最優(yōu),但是它需要跟環(huán)境做大量的并行交互。因此將策略表征直接帶入到評估模型中,可以近似預測出當前策略的好壞,從而極大降低策略與環(huán)境的交互成本,達到“1+1>2”的效果。
  
  郝建業(yè)接下來簡要回顧了離線學習中的策略約束方法和價值約束方法,同時概述了當下最有潛力實現(xiàn)魯棒泛化策略的兩個架構Transformer和Diffusion Model。類比大模型的訓練,郝建業(yè)認為在決策領域同樣需要RLHF的過程。針對當前RLHF面臨的三個棘手問題:只有二元反饋信息、標注成本極高以及缺乏好的獎勵模型,郝建業(yè)團隊構建了的具備5種不同類型反饋、1500萬時間步的標注數(shù)據(jù)、超過30種仿真環(huán)境、不同獎勵模型擬合方法的開源RLHF通用平臺和基準Uni-RLHF,推動該領域的進一步發(fā)展。
  
  最后,郝建業(yè)還分享了過去兩年他和研究團隊利用兩階段訓練范式產(chǎn)出的兩個在工業(yè)界實際落地的項目。第一,在強交互博弈場景如路口或多車處的自動駕駛技術,根據(jù)真車實際路測的結果可知,兩階段訓練范式可以幫助自動駕駛汽車大大提升換道的靈活性與正確性。第二,芯片設計中上百個模塊宏觀布局的多約束多目標優(yōu)化問題,利用工業(yè)界芯片設計的相關數(shù)據(jù)進行離線訓練后,在線學習階段算法僅需交互很少的次數(shù)就可以獲得遠遠超過已有方法的優(yōu)異性能。
  
  #報告3
  
  開放環(huán)境下的多智能體強化學習
  
  報告人:溫穎
  
  上海交通大學副教授
  
  報告要點:
  
  ? 報告探討了多模態(tài)預訓練大模型為智能體交互決策提供泛化的可能性與挑戰(zhàn),分享了跨任務的環(huán)境與策略學習、大規(guī)?;旌喜┺牟呗詫W習、環(huán)境變化下的在線自適應等技術創(chuàng)新,暢想了決策智能在多智能體游戲AI、生產(chǎn)調(diào)度和機器人任務中的無限潛力。
 
  溫穎副教授圍繞多智能體合作和復雜雙人零和博弈簡要回顧了多智能體深度強化學習自2016年來的發(fā)展。他指出,在開放環(huán)境下,現(xiàn)有多智能體強化學習算法始終面臨泛化性能十分低下的挑戰(zhàn),包括:任務的異構性與多樣性、合作/競爭博弈學習算法以及混合動機博弈的學習目標對齊。圍繞上述挑戰(zhàn),溫穎副教授分享了其團隊的研究成果。
  
  1. 跨任務的環(huán)境與策略學習
  
  溫穎首先介紹了基于Transformer架構的在線/離線策略學習。受Decision-Transformer啟發(fā),將多智能體決策也視為一個序列化決策的過程,用統(tǒng)一的網(wǎng)絡對所有智能體進行序列建模,通過每個智能體在序列中所處的“位置”對其區(qū)分。這種做法能夠充分利用訓練樣本,在提升同構智能體訓練效率的同時,減小異構智能體策略間的互相干擾。該方法保證單調(diào)提升的情況下,允許所有策略同時訓練,極大降低大規(guī)模智能體訓練的時間成本。
  
  進一步地,以決策大模型為中心展開泛化決策控制研究,統(tǒng)一決策感知與輸出空間建模,將不同任務數(shù)據(jù)處理成統(tǒng)一的Token實現(xiàn)“數(shù)據(jù)模態(tài)統(tǒng)一”,并將所有任務都轉(zhuǎn)化為序列建模任務實現(xiàn)“任務統(tǒng)一”。其多模態(tài)決策大模型DB1在超過870個任務上測試,其中在80%的任務上性能超過專家性能50%。
  
  面對語言智能體根據(jù)任務反饋微調(diào)所面臨的學習目標不匹配和優(yōu)化粒度差異的挑戰(zhàn),溫穎提出基于最大熵正則的詞元層次策略優(yōu)化,將原始最大化獎勵目標轉(zhuǎn)化為最優(yōu)決策序列的概率建模問題,使用詞元級軟貝爾曼更新以及詞元級策略更新以完成優(yōu)化粒度的對齊。另一方面,利用AlphaZero式的樹搜索改善大型語言模型的解碼過程,通過樹搜索增強LLM的推理能力,為訓練集提供改進的軌跡。溫穎團隊提出的TS-LLM為LLM訓練提供新的范式,通過策略精煉和價值函數(shù)學習進一步提升模型性能。
  
  2. 大規(guī)模混合博弈策略學習
  
  溫穎首先介紹了混合動機博弈的學習目標對齊問題,希望對齊個體與集體獎勵。由于個體損失最小化可能導致個體之間或個體與集體目標之間的沖突,通過構建可微的混合動機博弈DMG,并提出AgA算法,實現(xiàn)從梯度角度對齊個體和集體目標。該方法在公共利益等混合博弈問題中有出色的表現(xiàn)。
  
  針對團隊博弈的合作相關均衡與求解,溫穎將傳統(tǒng)1對1的純競爭博弈擴展為n對m的合作競爭混合型博弈問題,在該問題中可以把所有智能體考慮成一個大智能體進行求解。然而尋找不可利用的CTME均衡具有很高的計算復雜性,一旦有智能體背叛團隊,就無法收斂到CTME均衡。于是溫穎提出團隊博弈中合作受限下的不可利用的rCTME均衡,在僅有部分智能體進行合作的情況下,利用團隊合作因子衡量團隊合作的強度,從而在個體納什均衡與CTME均衡之間進行權衡。
  
  3. 環(huán)境變化下的在線自適應
  
  溫穎提出關節(jié)動力自適應模型ADAPT,利用知識蒸餾的架構,實現(xiàn)機器人自動適應不同程度的關節(jié)執(zhí)行器失能的情況,增強復雜環(huán)境中四足機器人對自身執(zhí)行器狀態(tài)的魯棒性;對于即時合作或零樣本協(xié)作問題,充分利用離線數(shù)據(jù)訓練即時協(xié)作智能體,直接學習任意對手的最佳應對,并在線不斷修正。基于零樣本強化學習的思路,將不同的對手視為不同的狀態(tài)-獎勵分布,從而得到不同的獎勵函數(shù)編碼。在訓練階段,從離線數(shù)據(jù)中挑選分布不同的若干組軌跡作為獎勵函數(shù)先驗,訓練編解碼器和強化學習策略。在在線部署時,僅需進行零樣本或少樣本的交互即可在測試中取得優(yōu)秀的效果。
  
  溫穎指出,多模態(tài)預訓練大模型為智能體交互決策提供了泛化的可能性與基礎。AIGA的關鍵在于A(Action),可以降本增效并廣泛應用在復雜的現(xiàn)實生產(chǎn)活動中,為更廣泛、更動態(tài)和更復雜的任務給出最優(yōu)策略。決策智能在多智能體游戲AI、生產(chǎn)調(diào)度和機器人任務中的都有無限潛力。以ChatGPT為代表的產(chǎn)品將成為人類大腦的延伸,提供更智能、高效、自然的與人交互的方式,同時還能通過工具的使用幫助人類更好地與世界互動。
  
  #報告4
  
  開放環(huán)境智能博弈:大規(guī)模智能體策略的魯棒性和泛化性學習
  
  報告人:彭佩璽
  
  北京大學助理教授
  
  報告要點:
  
  ? 報告分析了大規(guī)模智能體策略學習的面臨的魯棒性和泛化性兩個難點。
  
  ? 針對魯棒性難題,報告分享了基于中心化優(yōu)化的分布式策略學習框架,通過逐步優(yōu)化,可以實現(xiàn)策略的穩(wěn)步提升,學習性能達到了SOTA的中心化學習方法的水平,并遠超其他分布式學習方法。
  
  ? 針對泛化性難題,報告分享了智能體學習中的潛在變量推理假設,并通過實踐驗證了其在跨場景遷移方面的優(yōu)勢。
 
  彭佩璽助理教授首先提出了大規(guī)模智能體策略學習的兩個難點:一是魯棒性。對于每一個智能體而言,其狀態(tài)轉(zhuǎn)移和獎勵函數(shù)與其他智能體相關,在同樣觀測下做出同樣的動作可能會收到不同的獎勵和狀態(tài)轉(zhuǎn)移。對于神經(jīng)網(wǎng)絡來說,相當于一個樣本有不同甚至完全相反的標簽,這會讓學習變得非常不穩(wěn)定。二是泛化性。大規(guī)模智能體策略訓練代價極大,不僅消耗算力,還會對實際社會產(chǎn)生很大風險,因此需要訓練好的策略模型能在未訓練環(huán)境下具有一定的泛化性。
  
  為解決大規(guī)模智能體策略的魯棒性學習問題,彭佩璽提出了基于中心化優(yōu)化的分布式策略學習框架。該框架通過中心化優(yōu)化的方式來求解策略,并借鑒反事實推理建模每個智能體的分布式策略。中心化優(yōu)化使得策略更加魯棒,而分布式策略使得神經(jīng)網(wǎng)絡能夠更容易地學習?;谶@一思想,通過仿真或者價值網(wǎng)絡進行中心化的態(tài)勢價值估計,再使用中心化優(yōu)化算法,求解中心化策略。中心化的策略作為一個標簽反饋給分布式的策略網(wǎng)絡,策略網(wǎng)絡再在仿真環(huán)境進行自博弈,產(chǎn)生新的博弈價值。
  
  根據(jù)博弈類型的不同,彭佩璽分別為混合策略博弈和純策略博弈提出了不同的優(yōu)化算法。對于混合策略博弈,提出多智能體動態(tài)不后悔策略,希望策略在評估的過程中后悔值趨近0。由于無法在多項式復雜度的時間內(nèi)求解該問題,于是對多智能體的不后悔策略進行近似求解。在每次更新時固定其他智能體策略,利用單智能體不后悔策略求解算法更新當前智能體的不后悔策略,進行迭代式逼近。對于純策略博弈問題,由于中心化優(yōu)化算法無法在多項式內(nèi)時間內(nèi)進行求解,彭佩璽提出從全局最優(yōu)求解退化為納什均衡求解。使用最優(yōu)反應算法,在每次迭代中固定其他智能體動作,求解當前智能體的最優(yōu)動作。在理想情況下,基于策略網(wǎng)絡自博弈的狀態(tài)價值大于或等于基于專家知識的狀態(tài)價值,實現(xiàn)策略的穩(wěn)步提升。
  
  雖然基于中心化優(yōu)化的分布式策略學習取得了成功,但在智能體數(shù)目增加時,中心化優(yōu)化算法卻顯示出了極大弊端。為此,彭佩璽進一步分享了僅靠分布式學習的基于動態(tài)信念學習的分布式智能體學習機制。受人類決策時的信念通路與決策通路啟發(fā),彭佩璽團隊嘗試讓智能體去預測其他智能體的行為,將預測當做貝葉斯先驗以指導學習。再進一步借鑒Transformer的Q-K-V過程挖掘出適合訓練動態(tài)信念的樣本用于輔助訓練。該方法的學習性能達到了SOTA的中心化學習方法的水平,并遠超其分他布式學習方法。
  
  為進一步提高大規(guī)模智能體策略學習的泛化性,基于上述信念學習的模型,彭佩璽團隊嘗試把小規(guī)模的訓練場景遷移到大規(guī)模的場景。
  
  在大規(guī)模智能體學習中,每個智能體有單獨的狀態(tài)轉(zhuǎn)移、獎勵和策略函數(shù),構成了策略泛化的難點之一。為了提升泛化性,彭佩璽團隊提出智能體學習中的潛在變量推理。假設存在一潛在變量代表智能體特性,在推理過程中,利用智能體的軌跡對智能體的特性進行推理。由于傳統(tǒng)策略函數(shù)只利用當前觀測作為輸入,無法建模智能體本身的特性,因此會造成策略模型難以泛化,而把每個智能體的特性用潛在變量表示,從而把共性的部分用函數(shù)來建模,就能提升策略模型的泛化性。此外,潛在變量不但可以提升模型的泛化性,還可以平衡開發(fā)與探索,與內(nèi)在獎勵相結合提升模型的魯棒性。該方法在濟南、杭州、深圳和紐約等城市的交通燈控制任務上遠超傳統(tǒng)優(yōu)化類方法和強化學習方法,同時在杭州訓練的模型可以直接遷移到其他城市,做到跨場景遷移性能下降最小。
  
  最后,彭佩璽分享了以神經(jīng)網(wǎng)絡群體進化算法為基礎的混合博弈聯(lián)盟訓練的實際應用,并對多模態(tài)強化學習以及類腦博弈與脈沖強化等方向成果進行了概述,暢想大規(guī)模智能體策略魯棒性學習和泛化性學習的無限未來。