中科院自動化所多模態(tài)人工智能系統(tǒng)全國重點實驗室將主辦第九屆深度強化學(xué)習(xí)理論與應(yīng)用研討會

時間：2025-01-14 17:22:01 發(fā)布：tgy 來源：深度強化學(xué)習(xí) CASIA 第一對焦：中科院自動化所

　　【ZiDongHua之會展賽培壇收錄關(guān)鍵詞：中科院自動化所深度學(xué)習(xí) 人工智能】

　　中科院自動化所多模態(tài)人工智能系統(tǒng)全國重點實驗室將主辦第九屆深度強化學(xué)習(xí)理論與應(yīng)用研討會

　　【第九屆深度強化學(xué)習(xí)理論與應(yīng)用研討會】

　　"從具身到后訓(xùn)練，強化學(xué)習(xí)在線"

　　主辦單位

　　中國科學(xué)院自動化研究所多模態(tài)人工智能系統(tǒng)全國重點實驗室

　　中國自動化學(xué)會

　　承辦單位

　　中國科學(xué)院自動化研究所深度強化學(xué)習(xí)團隊

　　中國自動化學(xué)會數(shù)據(jù)驅(qū)動控制、學(xué)習(xí)與優(yōu)化專委會

　　時間地點

　　2025年1月17日-18日，中國北京

　　?序言?

　　2024年，具身智能可能是人工智能領(lǐng)域最火的一個詞。與離身智能的大模型相比，其考慮物理世界的三維空間、以及實體約束，將大模型拓展到了更廣泛的應(yīng)用。對于大模型研究，也從大語言模型、發(fā)展到視覺語言模型，再到視覺語言動作模型和世界模型，以支撐具身決策。下半年，主流聲音逐漸認(rèn)為預(yù)訓(xùn)練的規(guī)模定律所帶來的模型性能提升已到了瓶頸，以后訓(xùn)練推理為代表的OpenAI的o1成為提升大模型性能的新范式，強化學(xué)習(xí)方法是主要支撐技術(shù)。國內(nèi)外對o1的各種復(fù)現(xiàn)層出不窮，逐漸演變?yōu)榘賝大戰(zhàn)。不到半年時間，從o1發(fā)展到o3，數(shù)學(xué)、代碼競賽和科學(xué)分析等方面的能力實現(xiàn)大躍遷，令人驚嘆！

　　國內(nèi)研究學(xué)者在上述提到的具身智能、世界模型、后訓(xùn)練推理、大規(guī)模群體博弈等人工智能領(lǐng)域的最新熱點方向提出了創(chuàng)新的思路，并進(jìn)行了機器人、自動駕駛、無人機群等領(lǐng)域的應(yīng)用驗證。今年召開的“第九屆深度強化學(xué)習(xí)理論與應(yīng)用研討會”特邀多位深度強化學(xué)習(xí)及相關(guān)領(lǐng)域的知名學(xué)者分享最新研究進(jìn)展，共同探討新的機遇和挑戰(zhàn)。

　　本次活動由中國科學(xué)院自動化研究所多模態(tài)人工智能系統(tǒng)全國重點實驗室和中國自動化學(xué)會主辦，中國科學(xué)院自動化研究所深度強化學(xué)習(xí)團隊、中國自動化學(xué)會數(shù)據(jù)驅(qū)動控制、學(xué)習(xí)與優(yōu)化專業(yè)委員會承辦，于2025年1月17日-18日在中國科學(xué)院自動化研究所線下舉行，歡迎關(guān)注和寶貴意見。

　　--趙冬斌研究員

　　?研討會嘉賓?

　　?日程安排?

　　?報告簡介?

　　9:10-9:50：具身協(xié)同交互與學(xué)習(xí)

　　報告人：劉華平，清華大學(xué)長聘教授，國家杰青

　　主持人：趙冬斌研究員

　　摘要：當(dāng)前，復(fù)雜高動態(tài)環(huán)境對機器人的感知與學(xué)習(xí)提出了更加迫切的需求。集群系統(tǒng)為多機器人協(xié)同應(yīng)用帶來了效能倍增與應(yīng)用突破，同時也對群體智能的感知、學(xué)習(xí)的理論研究與工程應(yīng)用帶來了巨大的挑戰(zhàn)。本報告面向態(tài)勢理解在適應(yīng)異構(gòu)機器人平臺感知、動作的能力差異，以及適應(yīng)廣域動態(tài)場景高效、魯棒的感知這兩大類多機器人協(xié)同任務(wù)需求，針對如何利用異構(gòu)多機器人的感知與學(xué)習(xí)能力實現(xiàn)集群增效與行為涌現(xiàn)，介紹相關(guān)的研究進(jìn)展。重點介紹具身學(xué)習(xí)的相關(guān)進(jìn)展。

　　簡歷：劉華平，清華大學(xué)計算機科學(xué)與技術(shù)系教授，中國人工智能學(xué)會理事，國家杰出青年科學(xué)基金獲得者。擔(dān)任Robotics Sciences and Systems(RSS)的領(lǐng)域主席，International Journal of Robotics Research的Senior Editor。主要研究方向為智能機器人的多模態(tài)感知、學(xué)習(xí)與控制技術(shù)。

　　9:50-10:30：視覺感知與自動駕駛

　　報告人：魯繼文，清華大學(xué)長聘教授，國家杰青

　　主持人：李浩然副研究員

　　摘要：自動駕駛是人工智能與機器人領(lǐng)域的研究熱點，在工業(yè)、農(nóng)業(yè)、服務(wù)業(yè)等有著重要的應(yīng)用前景。報告將回顧自動駕駛視覺感知近年來的研究進(jìn)展，主要包括面向三維點云數(shù)據(jù)、圖像視頻數(shù)據(jù)、多視角環(huán)視數(shù)據(jù)等方法與技術(shù)，以及在場景生成與理解、占據(jù)分割與預(yù)測、端到端自動駕駛等任務(wù)中的應(yīng)用，最后對未來發(fā)展趨勢進(jìn)行展望。

　　簡歷：魯繼文，清華大學(xué)長聘教授，博士生導(dǎo)師，自動化系副主任，國家杰出青年科學(xué)基金獲得者，IEEE/IAPR Fellow，全國重點實驗室副主任，國際期刊Pattern Recognition Letters主編，中國仿真學(xué)會理事、視覺計算與仿真專業(yè)委員會主任，中國自動化學(xué)會專家咨詢工作委員會副主任。主要研究計算機視覺、模式識別、具身智能、人工智能安全，發(fā)表IEEE T-PAMI論文40余篇，獲授權(quán)國家發(fā)明專利60余項，主持國家重點研發(fā)計劃項目1項，國家自然科學(xué)基金重點項目3項，北京市重點項目2項，擔(dān)任國際期刊IEEE T-IP/T-MM/T-CSVT/T-BIOM編委，國際會議ICME2022大會主席和ACCV2026、FG2023、VCIP2022程序主席，獲公安部科學(xué)技術(shù)獎一等獎1項，中國電子學(xué)會自然科學(xué)獎一等獎2項，培養(yǎng)7名博士生獲北京市、中國人工智能學(xué)會、中國圖象圖形學(xué)學(xué)會優(yōu)秀博士學(xué)位論文。

　　10:40-11:20：基于大模型的慢思考技術(shù)探索

　　報告人：趙鑫，中國人民大學(xué)高瓴人工智能學(xué)院教授，國家優(yōu)青

　　主持人：張啟超副研究員

　　摘要：最近以o1為代表的大模型慢思考技術(shù)收到了較大關(guān)注，慢思考模型通過生成長程的思考過程來解決更具挑戰(zhàn)性的問題，在多個應(yīng)用科學(xué)問答場景都取得了較大突破。然而工業(yè)界對于慢思考技術(shù)的封鎖比較嚴(yán)重，大部分技術(shù)目前仍然處于黑箱狀態(tài)，亟需學(xué)術(shù)界進(jìn)行“破解”。本次報告將聚焦大模型慢思考的基礎(chǔ)技術(shù)與實現(xiàn)方法，對于其中可能涉及到的技術(shù)路徑進(jìn)行探索，主要圍繞講者團隊對于o1復(fù)現(xiàn)的兩篇論文《Enhancing LLM Reasoning with Reward-guided Tree Search》和《Imitate,Explore,and Self-Improve:A Reproduction Report on Slow-thinking Reasoning Systems》進(jìn)行介紹，希望能夠喚起更多人一起加入“解密”慢思考模型的隊伍。

　　簡歷：趙鑫，中國人民大學(xué)高瓴人工智能學(xué)院教授。2014年7月于北京大學(xué)獲得博士學(xué)位，隨后進(jìn)入中國人民大學(xué)工作至今。研究領(lǐng)域為信息檢索與自然語言處理，共計發(fā)表論文200余篇，谷歌學(xué)術(shù)引用2.6萬余次，曾主導(dǎo)研發(fā)了玉蘭大語言模型，組織編寫了大語言模型綜述論文《A Survey of Large Language Models》(預(yù)印版文章)以及《大語言模型》中文書。曾榮獲2020年吳文俊人工智能優(yōu)秀青年獎、ECIR 2021時間檢驗獎，CCF-IEEE CS青年科學(xué)家獎。

　　11:20-12:00：基于模因演化的大規(guī)模多智能體強化學(xué)習(xí)研究

　　報告人：候亞慶，大連理工大學(xué)副教授

　　主持人：朱圓恒副研究員

　　摘要：“群體智能”、“自主無人系統(tǒng)”等人工智能基礎(chǔ)理論概念和關(guān)鍵共性技術(shù)是未來驅(qū)動我國經(jīng)濟、社會和國防事業(yè)發(fā)展的關(guān)鍵要素。面向未來大規(guī)模多智能體系統(tǒng)在自主智能、群體智能、對抗智能等方面緊迫的技術(shù)需求，本報告圍繞大規(guī)模多智能體協(xié)同決策方法設(shè)計以及應(yīng)用驗證相關(guān)研究開展一系列探索，通過引入社會學(xué)與生物學(xué)中模因計算的相關(guān)理論，分析模因在文化演化以及社會性群體智能中的本質(zhì)特性，研究多智能體模因知識的通用表達(dá)以及基本演化模型，建立和推導(dǎo)多智能體之間非線性、非歐式距離的高階動態(tài)拓?fù)潢P(guān)聯(lián)關(guān)系，提出多智能體信息交互與群組對抗策略，完成復(fù)雜多智能體協(xié)作與博弈對抗在仿真（經(jīng)典視頻游戲）以及半物理實體仿真場景（無人機群組協(xié)同）的驗證。相關(guān)研究為多智能體強化學(xué)習(xí)解決大規(guī)模多智能體協(xié)同決策問題提供新的理論突破方向，可以促進(jìn)多智能體協(xié)同決策方法在自主智能無人系統(tǒng)中的應(yīng)用。

　　簡歷：候亞慶，大連理工大學(xué)計算機科學(xué)與技術(shù)學(xué)院副教授、博士生導(dǎo)師，入選第八屆中國科協(xié)“青年人才托舉”工程、遼寧省興遼英才計劃青年拔尖人才等計劃，長期從事復(fù)雜系統(tǒng)、群體智能、智能優(yōu)化及其在工業(yè)生產(chǎn)、軍事國防等領(lǐng)域?qū)嶋H工程應(yīng)用方面的研究，取得了一系列創(chuàng)新性成果，創(chuàng)造了顯著的經(jīng)濟和社會效益。近五年，在IEEE TEVC、IEEE CIM、CVPR、ACM MM等國際著名期刊或會議發(fā)表/錄用論文多篇；出版Springer英文專著1部。曾主持JKW智能科技重大專項、國家自然科學(xué)基金面上/青年項目、裝備預(yù)研重點實驗室基金、教育部中國高校產(chǎn)學(xué)研創(chuàng)新基金、大連市創(chuàng)新基金、大連市留學(xué)回國人員創(chuàng)新創(chuàng)業(yè)計劃等國家、省市級縱向項目，以及解放軍某試驗基地、解放軍某研究院、航空601所、航天二院206所等國防重點單位委托項目10余項。目前擔(dān)任IEEE CIS Task Force on“Memetic Computing”主席，IEEE TETCI副主編、IEEE TCDS副主編、Memetic Computing Journal編委、圖學(xué)學(xué)報編委等。

我要收藏

點個贊吧

自動對焦：深度學(xué)習(xí)人工智能深度強化學(xué)習(xí)CASIA

咨詢詳情：如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情，請加微信：ZiDongHuaX 。

微信聯(lián)盟：深度學(xué)習(xí)微信群、人工智能微信群、深度強化學(xué)習(xí)微信群、CASIA微信群，各細(xì)分行業(yè)微信群：點擊這里進(jìn)入。

鴻達(dá)安視：水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器　　　　　　查看各品牌在細(xì)分領(lǐng)域的定位宣傳語