AI未來 || 大模型與前沿技術(shù)分論壇預(yù)告

時間：2025-05-20 16:50:33 發(fā)布：tgy 來源：清華自動化研究生第一對焦：大模型

　　【ZiDongHua 之“智能自動化”收錄關(guān)鍵詞：大模型人工智能機器人機器學習】

　　AI未來 || 大模型與前沿技術(shù)分論壇預(yù)告

　　大模型與前沿技術(shù)

　　分論壇預(yù)告

　　- 第七屆北京高校人工智能學術(shù)論壇暨

　　清華大學第799期（自動化系）博士生學術(shù)論壇-

　　分論壇簡介

　　/ INTRODUCTION

　　為促進北京高校學生之間的學術(shù)交流與經(jīng)驗分享，集中展示北京高校學生在人工智能領(lǐng)域的科技創(chuàng)新成果，北京高校人工智能聯(lián)盟定于2025年5月17日至5月17日在北京泰山飯店召開“AI未來—第七屆北京高校人工智能學術(shù)論壇暨清華大學第799期（自動化系）博士生學術(shù)論壇”，誠邀大家參加5月17日下午14:00-17:00舉行的大模型與前沿技術(shù)分論壇。

　　該分論壇由中國科學院軟件研究所研究生會負責承辦，共計邀請大模型與前沿技術(shù)研究方向的2位知名學者、4位學生參與匯報，同時將展示3張學術(shù)海報。以下對分論壇內(nèi)容進行簡單介紹。

　　專家學者報告

　　高晉

　　中國科學院自動化研究所多模態(tài)人工智能系統(tǒng)全國重點實驗室研究員，碩士生導師

　　高晉，中國科學院自動化研究所多模態(tài)人工智能系統(tǒng)全國重點實驗室研究員，碩士生導師。長期從事視覺目標自主感知與理解研究，在包括IEEE TPAMI、IJCV、IEEE TIP、NeurIPS、ICML、CVPR、ICCV、ECCV等重要國際期刊和國際會議發(fā)表學術(shù)論文40余篇。主持國家自然科學基金聯(lián)合基金重點、優(yōu)秀青年科學基金、北京市自然科學基金杰出青年科學基金等項目10余項。開發(fā)的時敏視覺目標自主感知和移動機器人視覺感知技術(shù)在國防和民用領(lǐng)域得到實際應(yīng)用。

　　報告題目

　　基于擴散模型的時空一致4D內(nèi)容生成初探

　　報告摘要

　　視覺基座模型的快速發(fā)展使得面向動態(tài)物體或場景的3D重建和生成（也被稱作4D生成）有了質(zhì)的飛躍。這體現(xiàn)在，整個重建和生成過程不再依賴嚴格同步的多視角視頻采集手段，抑或是特定場景下的人體或人臉模型，而是面向數(shù)據(jù)獲取更加容易、物體類別更加廣泛的動態(tài)開放場景來實現(xiàn)強大數(shù)據(jù)先驗驅(qū)動的時空一致新視角預(yù)測。這對于未來面向通用人工智能或具身智能合成大量數(shù)據(jù)、構(gòu)建可交互世界模型至關(guān)重要。本次報告以4D內(nèi)容生成輔助合成數(shù)據(jù)為切入點，重點介紹所在團隊在基于擴散模型的時空一致4D內(nèi)容生成領(lǐng)域的兩個初步探索工作，以期拋磚引玉，共同探討如何促進相關(guān)領(lǐng)域的發(fā)展。

　　劉哲

　　中國科學院軟件研究所

　　助理研究員

　　劉哲，中國科學院軟件研究所特別研究助理（助理研究員），主要從事智能化軟件工程、人機交互等方面的研究，近年來主要關(guān)注移動應(yīng)用測試、人機協(xié)同測試等。在軟件工程和人機交互領(lǐng)域國際著名學術(shù)期刊/會議ICSE、CHI、TSE、ASE等發(fā)表 18篇CCF-A類學術(shù)論文。主持國家自然科學基金青年基金項目及企業(yè)合作項目。榮獲中國科學院優(yōu)博，CCF軟工專委優(yōu)博，ACM Student Research Competition研究生組全球總冠軍和中國科學院院長獎等榮譽。

　　報告題目

　　基于大模型的軟件自動化測試技術(shù)

　　報告摘要

　　隨著軟件復(fù)雜性的增加，軟件測試的有效性和覆蓋率受到較大的影響。前沿研究正在積極探索一些新興技術(shù)來解決這些問題，而多模態(tài)大型語言模型（MLLMs）被視為最具潛力的技術(shù)之一，其具備前所未有的視覺與自然語言理解和生成能力。本報告將分享多模態(tài)大語言模型在自動化測試路徑生成和非崩潰缺陷檢測方向的研究成果，包括視覺驅(qū)動的自動化測試技術(shù)和多智能體協(xié)同的非崩潰缺陷檢測技術(shù)，來更好的提升自動化測試的充分性和覆蓋性。

　　高歡

　　快手AIGC多模態(tài)理解高級算法專家

　　北京大學信息科學技術(shù)學院博士

　　高歡，北京大學信息科學技術(shù)學院博士，快手AIGC多模態(tài)理解高級算法專家，主要負責可靈產(chǎn)品中的多模態(tài)理解任務(wù)。他的團隊致力于從事多模態(tài)內(nèi)容準確且全面的理解，打造高效、可靠的多模態(tài)理解大語言模型。團隊成員近年來在NeurIPS、ICLR、CVPR、AAAI、ACL等頂級學術(shù)會議上發(fā)表過多篇有影響力的論文。

　　報告題目

　　AIGC背后的多模態(tài)理解技術(shù)

　　報告摘要

　　多模態(tài)理解能力是支撐AIGC產(chǎn)出真實、有美感、可控的內(nèi)容的重要技術(shù)。在過去兩年中，大語言模型（LLM）發(fā)展迅速，目前業(yè)界的主要發(fā)力點已經(jīng)聚焦R1、DeepResearch、BrowseComp等高難度復(fù)雜場景。與LLM場景不同的是，多模態(tài)大語言模型（MLLM）的任務(wù)更加分散，面臨的挑戰(zhàn)更多，因而模型結(jié)構(gòu)、數(shù)據(jù)構(gòu)造、能力評測方面仍然在不斷涌現(xiàn)新的創(chuàng)新工作，還有很多值得深入挖掘的方向。AIGC方向的多模態(tài)理解與通常講到的多模態(tài)理解有所區(qū)別，并非是后者的一個子集。由于對生成方面的考量，AIGC上的多模態(tài)理解模型需要有更全面的視覺感知能力和空間表征能力。GPT4o提供了一個不錯的理解生成一體化的解決方案，效果上也驚艷了世人。當前，AIGC的多模態(tài)理解發(fā)展到了一個關(guān)鍵節(jié)點：向左，模型架構(gòu)并不代表所有的優(yōu)雅；向右，刷榜帶不來真實能力的提升。本次報告將首先介紹幾個AIGC中重要的多模態(tài)理解任務(wù)，隨后將介紹若干關(guān)于訓練MLLM的技巧，在實際AIGC工業(yè)場景中非常實用。希望以此給大家?guī)韱l(fā)，推進AIGC和多模態(tài)理解向世界模型的演進，讓天下沒有難實現(xiàn)的創(chuàng)意。

　　學生報告

　　俞王佳

　　中國科學院信息工程研究所

　　俞王佳，中國科學院信息工程研究所23級碩士研究生，專業(yè)網(wǎng)絡(luò)空間安全，研究興趣包括：多模態(tài)越獄攻擊、多模態(tài)幻覺緩解、文生圖模型的概念擦除。

　　報告題目

　　Resolution Attack: Exploiting Image Compression to Deceive Deep Neural Networks

　　報告摘要

　　模型魯棒性對于確保機器學習系統(tǒng)的穩(wěn)定性和可靠性至關(guān)重要。盡管已有大量研究圍繞模型魯棒性的不同方面（如對抗魯棒性和標簽噪聲魯棒性）展開，但針對不同分辨率下的魯棒性探索仍然相對不足。針對這一研究空白，本文提出了一種新型攻擊方式——分辨率攻擊。該攻擊通過生成在不同分辨率下呈現(xiàn)不同語義特征的圖像，旨在同時欺騙分類器與人類觀察者。為實現(xiàn)分辨率攻擊，我們提出了一個自動化框架，能夠以zero-shot方式生成具有雙語義特征的圖像。具體而言，我們利用大規(guī)模擴散模型在圖像構(gòu)建方面的綜合能力，提出分階段去噪策略以實現(xiàn)跨分辨率圖像的平滑過渡。通過該框架，我們對多種現(xiàn)成分類器實施了分辨率攻擊。實驗結(jié)果表明攻擊成功率較高，這不僅驗證了所提框架的有效性，同時也揭示了現(xiàn)有分類器在不同分辨率下的脆弱性。此外，本框架也能使用在人臉交換和面部偽裝等應(yīng)用。

　　房海鵬

　　中國科學院計算技術(shù)研究所

　　房海鵬，中國科學院計算技術(shù)研究所博士研究生，指導老師為唐勝研究員和唐帆副研究員。其研究方向包括模型壓縮與加速、圖像與視頻生成以及視覺理解。作為第一作者在 CVPR、ACMMM、ICASSP 等國際會議發(fā)表論文，并擔任CVPR2025審稿人。

　　報告題目

　　Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration

　　報告摘要

　　本報告介紹一種針對擴散 Transformer（DiT）的后訓練加速方法。我們首先系統(tǒng)分析擴散先驗，定位并量化網(wǎng)絡(luò)中冗余 token 的位置與程度，然后提出“先結(jié)構(gòu)-后細節(jié)”的雙階段 token 合并策略。該方法在無需微調(diào)的前提下，即可在保持生成質(zhì)量的同時顯著減少推理計算量，為高分辨率 AIGC 場景提供輕量化部署方案。

　　楊藎冉

　　解放軍總醫(yī)院第一醫(yī)學中心營養(yǎng)科

　　解放軍總醫(yī)院第一醫(yī)學中心營養(yǎng)科碩士研究生，研究方向為圍手術(shù)期營養(yǎng)、減重、脂代謝營養(yǎng)的臨床應(yīng)用。獲得研究生國家獎學金、北京市三好學生、北京市優(yōu)秀畢業(yè)生等榮譽。參與食品安全國家標準1項，國家及軍隊課題6項，發(fā)表6篇SCI及核心文章，申請專利3項。多次參加國內(nèi)及國際學術(shù)會議，進行國際壁報展示及口頭發(fā)言等

　　報告題目

　　Associationbetween dietary mineral mixture and the prevalence of sarcopenia inUS adultsfrom NHANES 2011-2018 A combination of Bayesian approaches

　　報告摘要

　　背景：既往研究主要關(guān)注單一膳食礦物質(zhì)與肌少癥（肌肉減少癥）的關(guān)聯(lián)，忽視了多種礦物質(zhì)的聯(lián)合效應(yīng)。本研究旨在探索九種膳食礦物質(zhì)（鈣、磷、鎂、鐵、鋅、銅、鈉、鉀、硒）的混合作用與普通人群肌少癥的關(guān)系。

　　方法：基于2011–2018年美國國家健康與營養(yǎng)調(diào)查（NHANES）數(shù)據(jù)，剔除缺失值后納入6888名參與者。肌少癥通過經(jīng)體重指數(shù)（BMI）調(diào)整的骨骼肌質(zhì)量（ASMBMI）進行定義。采用廣義線性回歸、貝葉斯核機回歸（BKMR）及貝葉斯半?yún)?shù)回歸模型分析膳食礦物質(zhì)的聯(lián)合關(guān)聯(lián)及交互作用。

　　結(jié)果：研究發(fā)現(xiàn)，加權(quán)后的礦物質(zhì)組合（尤其是硒）與肌少癥呈負相關(guān)。礦物質(zhì)混合物水平（特別是硒）越高，肌少癥發(fā)生風險越低，其中硒、鋅、鈣和鈉的影響最為顯著。

　　討論：本研究提示硒是肌少癥的潛在影響因素。未來需更多前瞻性研究驗證硒與肌少癥患病率的關(guān)聯(lián)。

　　齊天浩

　　中國科學技術(shù)大學

　　中國科學技術(shù)大學信息科學技術(shù)學院信息與通信工程專業(yè)博士研究生，師從張勇東教授和謝洪濤教授，主要研究方向為跨模態(tài)視覺內(nèi)容生成和長尾目標檢測。在長尾目標檢測方向，他提出了統(tǒng)一框架BACL（IEEE TMM 2023）；在跨模態(tài)視覺內(nèi)容生成方向，他先后提出了高效風格化擴散模型DEADiff（CVPR 2024 Highlight）和多場景長視頻生成模型Mask²DiT（CVPR 2025）。目前擔任ICLR、ACM MM等頂級會議及IJCV、TMM等期刊的審稿人。

　　報告題目

　　Mask²DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

　　報告摘要

　　Sora在單場景視頻生成中展示了擴散Transformer (DiT) 架構(gòu)的巨大潛力。然而，對于更具挑戰(zhàn)性且應(yīng)用更廣泛的多場景視頻生成任務(wù)的研究仍然較少。為填補這一空白，我們提出了 Mask²DiT，一種在視頻片段與其對應(yīng)文本注釋之間建立細粒度一一對齊的新方法。具體而言，我們在DiT架構(gòu)的每個注意力層中引入對稱二值掩碼，確保每條文本注釋僅作用于其對應(yīng)的視頻片段，同時在視覺token之間保留時序一致性。該注意力機制實現(xiàn)了精確的片段級文本–視覺對齊，使DiT架構(gòu)能夠高效處理具有固定場景數(shù)的視頻生成任務(wù)。為了進一步賦予DiT架構(gòu)基于已有場景生成額外場景的能力，我們又引入了片段級條件掩碼，使每個新生成的片段都以上一片段作為條件，從而支持自回歸式的場景擴展。定性和定量實驗均證明，Mask²DiT在保持跨片段視覺一致性的同時，確保了每個片段與對應(yīng)文本描述之間的語義對齊。項目主頁：https://tianhao-qi.github.io/Mask2DiTProject/

　　分論壇海報

　　魯家興

　　作者單位：遼寧工程技術(shù)大學

　　Poster題目：基于改進LSTM的電商需求預(yù)測方案

　　矯立岳，李長勇

　　作者單位：山東大學法學院

　　Poster題目：老年人數(shù)字化生活權(quán)的法治保障；積極老齡化視角下“銀發(fā)數(shù)字鴻溝”的法治彌合路徑

　　李冰凝

　　作者單位：中央財經(jīng)大學

　　Poster題目：人才流失風險對企業(yè)ESG社會維度表現(xiàn)的影響——基于中國上市公司的經(jīng)驗證據(jù)

　　北京高校人工智能聯(lián)盟

　　/ AIABU /

　　主辦單位

　　清華大學自動化系研究生會

　　中國科學院自動化研究所研究生會

　　承辦單位

　　北京大學軟件與微電子學院研究生會

　　北京大學智能學院研究生會

　　北京航空航天大學自動化科學與電氣工程學院研究生會

　　北京交通大學電子信息工程學院研究生會

　　北京交通大學自動化與智能學院研究生會

　　北京科技大學智能科學與技術(shù)學院研究生會

　　北京理工大學自動化學院研究生會

　　北京郵電大學計算機學院（國家示范性軟件學院）研究生會

　　中國科學院大學人工智能學院學生會

　　中國科學院計算技術(shù)研究所研究生會

　　中國科學院軟件研究所研究生會

　　中國科學院信息工程研究所研究生會

　　中國農(nóng)業(yè)大學工學院研究生會

　　中國人民大學信息學院研究生會

　　中國醫(yī)學科學院阜外醫(yī)院研究生會

　　（以上名單按照拼音排序）

　　支持單位

　　審核 | 劉澤垣錢濤

我要收藏

點個贊吧

自動對焦：人工智能機器人機器學習

咨詢詳情：如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情，請加微信：ZiDongHuaX 。

微信聯(lián)盟：人工智能微信群、機器人微信群、機器學習微信群，各細分行業(yè)微信群：點擊這里進入。

鴻達安視：水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器　　　　　　查看各品牌在細分領(lǐng)域的定位宣傳語