【ZiDongHua之會展賽培壇收錄關(guān)鍵詞:中科院自動化所 深度學(xué)習(xí) 人工智能  】
 
 
  中科院自動化所多模態(tài)人工智能系統(tǒng)全國重點實驗室將主辦第九屆深度強化學(xué)習(xí)理論與應(yīng)用研討會  
 
 
  【第九屆深度強化學(xué)習(xí)理論與應(yīng)用研討會】
 
  "從具身到后訓(xùn)練,強化學(xué)習(xí)在線"
 
  主辦單位
 
  中國科學(xué)院自動化研究所多模態(tài)人工智能系統(tǒng)全國重點實驗室
 
  中國自動化學(xué)會
 
  承辦單位
 
  中國科學(xué)院自動化研究所深度強化學(xué)習(xí)團隊
 
  中國自動化學(xué)會數(shù)據(jù)驅(qū)動控制、學(xué)習(xí)與優(yōu)化專委會
 
  時間地點
 
  2025年1月17日-18日,中國北京
 
  ?序言?
 
  2024年,具身智能可能是人工智能領(lǐng)域最火的一個詞。與離身智能的大模型相比,其考慮物理世界的三維空間、以及實體約束,將大模型拓展到了更廣泛的應(yīng)用。對于大模型研究,也從大語言模型、發(fā)展到視覺語言模型,再到視覺語言動作模型和世界模型,以支撐具身決策。下半年,主流聲音逐漸認(rèn)為預(yù)訓(xùn)練的規(guī)模定律所帶來的模型性能提升已到了瓶頸,以后訓(xùn)練推理為代表的OpenAI的o1成為提升大模型性能的新范式,強化學(xué)習(xí)方法是主要支撐技術(shù)。國內(nèi)外對o1的各種復(fù)現(xiàn)層出不窮,逐漸演變?yōu)榘賝大戰(zhàn)。不到半年時間,從o1發(fā)展到o3,數(shù)學(xué)、代碼競賽和科學(xué)分析等方面的能力實現(xiàn)大躍遷,令人驚嘆!
 
  國內(nèi)研究學(xué)者在上述提到的具身智能、世界模型、后訓(xùn)練推理、大規(guī)模群體博弈等人工智能領(lǐng)域的最新熱點方向提出了創(chuàng)新的思路,并進(jìn)行了機器人、自動駕駛、無人機群等領(lǐng)域的應(yīng)用驗證。今年召開的“第九屆深度強化學(xué)習(xí)理論與應(yīng)用研討會”特邀多位深度強化學(xué)習(xí)及相關(guān)領(lǐng)域的知名學(xué)者分享最新研究進(jìn)展,共同探討新的機遇和挑戰(zhàn)。
 
  本次活動由中國科學(xué)院自動化研究所多模態(tài)人工智能系統(tǒng)全國重點實驗室和中國自動化學(xué)會主辦,中國科學(xué)院自動化研究所深度強化學(xué)習(xí)團隊、中國自動化學(xué)會數(shù)據(jù)驅(qū)動控制、學(xué)習(xí)與優(yōu)化專業(yè)委員會承辦,于2025年1月17日-18日在中國科學(xué)院自動化研究所線下舉行,歡迎關(guān)注和寶貴意見。
 
  --趙冬斌研究員
 
  ?研討會嘉賓?
 
 
  ?日程安排?
 
 
  ?報告簡介?
 
  9:10-9:50:具身協(xié)同交互與學(xué)習(xí)
 
  報告人:劉華平,清華大學(xué)長聘教授,國家杰青
 
  主持人:趙冬斌研究員
 
  摘要:當(dāng)前,復(fù)雜高動態(tài)環(huán)境對機器人的感知與學(xué)習(xí)提出了更加迫切的需求。集群系統(tǒng)為多機器人協(xié)同應(yīng)用帶來了效能倍增與應(yīng)用突破,同時也對群體智能的感知、學(xué)習(xí)的理論研究與工程應(yīng)用帶來了巨大的挑戰(zhàn)。本報告面向態(tài)勢理解在適應(yīng)異構(gòu)機器人平臺感知、動作的能力差異,以及適應(yīng)廣域動態(tài)場景高效、魯棒的感知這兩大類多機器人協(xié)同任務(wù)需求,針對如何利用異構(gòu)多機器人的感知與學(xué)習(xí)能力實現(xiàn)集群增效與行為涌現(xiàn),介紹相關(guān)的研究進(jìn)展。重點介紹具身學(xué)習(xí)的相關(guān)進(jìn)展。
 
  簡歷:劉華平,清華大學(xué)計算機科學(xué)與技術(shù)系教授,中國人工智能學(xué)會理事,國家杰出青年科學(xué)基金獲得者。擔(dān)任Robotics Sciences and Systems(RSS)的領(lǐng)域主席,International Journal of Robotics Research的Senior Editor。主要研究方向為智能機器人的多模態(tài)感知、學(xué)習(xí)與控制技術(shù)。
 
  9:50-10:30:視覺感知與自動駕駛
 
  報告人:魯繼文,清華大學(xué)長聘教授,國家杰青
 
  主持人:李浩然副研究員
 
  摘要:自動駕駛是人工智能與機器人領(lǐng)域的研究熱點,在工業(yè)、農(nóng)業(yè)、服務(wù)業(yè)等有著重要的應(yīng)用前景。報告將回顧自動駕駛視覺感知近年來的研究進(jìn)展,主要包括面向三維點云數(shù)據(jù)、圖像視頻數(shù)據(jù)、多視角環(huán)視數(shù)據(jù)等方法與技術(shù),以及在場景生成與理解、占據(jù)分割與預(yù)測、端到端自動駕駛等任務(wù)中的應(yīng)用,最后對未來發(fā)展趨勢進(jìn)行展望。
 
  簡歷:魯繼文,清華大學(xué)長聘教授,博士生導(dǎo)師,自動化系副主任,國家杰出青年科學(xué)基金獲得者,IEEE/IAPR Fellow,全國重點實驗室副主任,國際期刊Pattern Recognition Letters主編,中國仿真學(xué)會理事、視覺計算與仿真專業(yè)委員會主任,中國自動化學(xué)會專家咨詢工作委員會副主任。主要研究計算機視覺、模式識別、具身智能、人工智能安全,發(fā)表IEEE T-PAMI論文40余篇,獲授權(quán)國家發(fā)明專利60余項,主持國家重點研發(fā)計劃項目1項,國家自然科學(xué)基金重點項目3項,北京市重點項目2項,擔(dān)任國際期刊IEEE T-IP/T-MM/T-CSVT/T-BIOM編委,國際會議ICME2022大會主席和ACCV2026、FG2023、VCIP2022程序主席,獲公安部科學(xué)技術(shù)獎一等獎1項,中國電子學(xué)會自然科學(xué)獎一等獎2項,培養(yǎng)7名博士生獲北京市、中國人工智能學(xué)會、中國圖象圖形學(xué)學(xué)會優(yōu)秀博士學(xué)位論文。
 
  10:40-11:20:基于大模型的慢思考技術(shù)探索
 
  報告人:趙鑫,中國人民大學(xué)高瓴人工智能學(xué)院教授,國家優(yōu)青
 
  主持人:張啟超副研究員
 
  摘要:最近以o1為代表的大模型慢思考技術(shù)收到了較大關(guān)注,慢思考模型通過生成長程的思考過程來解決更具挑戰(zhàn)性的問題,在多個應(yīng)用科學(xué)問答場景都取得了較大突破。然而工業(yè)界對于慢思考技術(shù)的封鎖比較嚴(yán)重,大部分技術(shù)目前仍然處于黑箱狀態(tài),亟需學(xué)術(shù)界進(jìn)行“破解”。本次報告將聚焦大模型慢思考的基礎(chǔ)技術(shù)與實現(xiàn)方法,對于其中可能涉及到的技術(shù)路徑進(jìn)行探索,主要圍繞講者團隊對于o1復(fù)現(xiàn)的兩篇論文《Enhancing LLM Reasoning with Reward-guided Tree Search》和《Imitate,Explore,and Self-Improve:A Reproduction Report on Slow-thinking Reasoning Systems》進(jìn)行介紹,希望能夠喚起更多人一起加入“解密”慢思考模型的隊伍。
 
  簡歷:趙鑫,中國人民大學(xué)高瓴人工智能學(xué)院教授。2014年7月于北京大學(xué)獲得博士學(xué)位,隨后進(jìn)入中國人民大學(xué)工作至今。研究領(lǐng)域為信息檢索與自然語言處理,共計發(fā)表論文200余篇,谷歌學(xué)術(shù)引用2.6萬余次,曾主導(dǎo)研發(fā)了玉蘭大語言模型,組織編寫了大語言模型綜述論文《A Survey of Large Language Models》(預(yù)印版文章)以及《大語言模型》中文書。曾榮獲2020年吳文俊人工智能優(yōu)秀青年獎、ECIR 2021時間檢驗獎,CCF-IEEE CS青年科學(xué)家獎。
 
  11:20-12:00:基于模因演化的大規(guī)模多智能體強化學(xué)習(xí)研究
 
  報告人:候亞慶,大連理工大學(xué)副教授
 
  主持人:朱圓恒副研究員
 
  摘要:“群體智能”、“自主無人系統(tǒng)”等人工智能基礎(chǔ)理論概念和關(guān)鍵共性技術(shù)是未來驅(qū)動我國經(jīng)濟、社會和國防事業(yè)發(fā)展的關(guān)鍵要素。面向未來大規(guī)模多智能體系統(tǒng)在自主智能、群體智能、對抗智能等方面緊迫的技術(shù)需求,本報告圍繞大規(guī)模多智能體協(xié)同決策方法設(shè)計以及應(yīng)用驗證相關(guān)研究開展一系列探索,通過引入社會學(xué)與生物學(xué)中模因計算的相關(guān)理論,分析模因在文化演化以及社會性群體智能中的本質(zhì)特性,研究多智能體模因知識的通用表達(dá)以及基本演化模型,建立和推導(dǎo)多智能體之間非線性、非歐式距離的高階動態(tài)拓?fù)潢P(guān)聯(lián)關(guān)系,提出多智能體信息交互與群組對抗策略,完成復(fù)雜多智能體協(xié)作與博弈對抗在仿真(經(jīng)典視頻游戲)以及半物理實體仿真場景(無人機群組協(xié)同)的驗證。相關(guān)研究為多智能體強化學(xué)習(xí)解決大規(guī)模多智能體協(xié)同決策問題提供新的理論突破方向,可以促進(jìn)多智能體協(xié)同決策方法在自主智能無人系統(tǒng)中的應(yīng)用。
 
  簡歷:候亞慶,大連理工大學(xué)計算機科學(xué)與技術(shù)學(xué)院副教授、博士生導(dǎo)師,入選第八屆中國科協(xié)“青年人才托舉”工程、遼寧省興遼英才計劃青年拔尖人才等計劃,長期從事復(fù)雜系統(tǒng)、群體智能、智能優(yōu)化及其在工業(yè)生產(chǎn)、軍事國防等領(lǐng)域?qū)嶋H工程應(yīng)用方面的研究,取得了一系列創(chuàng)新性成果,創(chuàng)造了顯著的經(jīng)濟和社會效益。近五年,在IEEE TEVC、IEEE CIM、CVPR、ACM MM等國際著名期刊或會議發(fā)表/錄用論文多篇;出版Springer英文專著1部。曾主持JKW智能科技重大專項、國家自然科學(xué)基金面上/青年項目、裝備預(yù)研重點實驗室基金、教育部中國高校產(chǎn)學(xué)研創(chuàng)新基金、大連市創(chuàng)新基金、大連市留學(xué)回國人員創(chuàng)新創(chuàng)業(yè)計劃等國家、省市級縱向項目,以及解放軍某試驗基地、解放軍某研究院、航空601所、航天二院206所等國防重點單位委托項目10余項。目前擔(dān)任IEEE CIS Task Force on“Memetic Computing”主席,IEEE TETCI副主編、IEEE TCDS副主編、Memetic Computing Journal編委、圖學(xué)學(xué)報編委等。