【ZiDongHua 之自動化學(xué)院派收錄關(guān)鍵詞: 自動化所 機器學(xué)習(xí) 計算神經(jīng)】
 
  NeurIPS 2023 | 自動化所新作速覽!
 
  導(dǎo)讀 | NeurIPS全稱神經(jīng)信息處理系統(tǒng)大會(Conference on Neural Information Processing Systems),是機器學(xué)習(xí)和計算神經(jīng)科學(xué)領(lǐng)域的頂級國際會議。本期將介紹自動化所團隊在NeurIPS 2023中收錄的18篇論文(排序不分先后),更多接收論文將在下一期推出!
 
  01. 基于ODE的無模型強化學(xué)習(xí)方法用于POMDPs
 
  ODE-based Recurrent Model-free Reinforcement Learning for POMDPs
 
  作者:趙烜樂,張篤振,韓立元,張鐵林,徐波
 
  神經(jīng)常微分方程(ODEs)被廣泛認可為建模物理機制的標(biāo)準,有助于在未知的物理或生物環(huán)境中進行近似推斷。在部分可觀測的環(huán)境中,如何從原始觀察中推斷不可見信息是困擾智能體的一大挑戰(zhàn)。通過使用具有緊湊上下文的循環(huán)策略,基于上下文的強化學(xué)習(xí)提供了一種靈活的方式,從歷史轉(zhuǎn)換中提取不可觀察的信息。為了幫助智能體提取更多與動態(tài)相關(guān)的信息,我們提出了一種新穎的基于ODE的循環(huán)模型,結(jié)合無模型強化學(xué)習(xí)框架,以解決部分可觀察的馬爾可夫決策過程。我們通過部分可觀察的連續(xù)控制和元強化學(xué)習(xí)任務(wù)實驗證明了方法的有效性。此外,由于ODE能夠建模不規(guī)則采樣的時間序列,因此本研究提出的方法對不規(guī)則觀測具有魯棒性。
 
  02. 脈沖驅(qū)動Transformer
 
  Spike-driven Transformer
 
  作者:姚滿、胡珈魁、周昭坤、袁粒、田永鴻、徐波、李國齊
 
  本文提出了首個脈沖驅(qū)動Transformer(Spike-driven Transformer),整個網(wǎng)絡(luò)中只有稀疏加法。所提出的Spike-driven Transformer具有四個獨特性質(zhì):(1)事件驅(qū)動,當(dāng)Transformer的輸入為零時不觸發(fā)計算;(2)二進制脈沖通信,所有與脈沖矩陣相關(guān)的矩陣乘法都可以轉(zhuǎn)化為稀疏加法;(3)所設(shè)計的自注意力機制在token和通道維度上都具有線性復(fù)雜度;(4)脈沖形式的Query、Key、Value矩陣之間的運算為掩碼和加法。總之,所提出的網(wǎng)絡(luò)中只有稀疏加法運算。為實現(xiàn)這一目標(biāo),本文設(shè)計了一種新穎的脈沖驅(qū)動自注意力(Spike-Driven Self-Attention, SDSA)算子,算子中僅利用掩碼和加法進行運算,而不進行任何乘法,因此其能耗比原始自注意力算子低87.2倍。此外,為確保網(wǎng)絡(luò)中所有神經(jīng)元間傳遞的信號為二進制脈沖,本文重新排列了網(wǎng)絡(luò)中所有的殘差連接。實驗結(jié)果表明,Spike-driven Transformer在ImageNet-1K上可以達到77.1%的 top-1精度,這是SNN領(lǐng)域內(nèi)的最佳結(jié)果。
 
  論文鏈接:
 
  https://arxiv.org/abs/2307.01694
 
  代碼鏈接:
 
  https://github.com/BICLab/Spike-Driven-Transformer
 
  03. 動態(tài)組合模型來應(yīng)對數(shù)據(jù)分布的變化
 
  OneNet: Enhancing Time Series Forecasting Models under Concept Drift by Online Ensembling
 
  作者:張一帆,文青松,王雪,陳緯奇,張彰,王亮,金榕,譚鐵牛
 
  概念漂移(concept drift)是時序數(shù)據(jù)常見的一個問題,即未來的數(shù)據(jù)展現(xiàn)出不同于過去的模式。在這些情況下,從頭重新訓(xùn)練模型可能會非常耗時。因此,在線訓(xùn)練深度預(yù)測模型,通過增量更新預(yù)測模型來捕捉環(huán)境中不斷變化的動態(tài)是非常必要的。本文提出了OneNet,其思想十分簡單,采用了兩個不同的模型,一個模型專注于建模時間維度上的相關(guān)性,另一個模型則專注于建??缱兞恐g的依賴關(guān)系。這兩個模型都在訓(xùn)練過程中使用相同的訓(xùn)練數(shù)據(jù)進行獨立訓(xùn)練。在測試時,OneNet將強化學(xué)習(xí)方法引入傳統(tǒng)的在線凸規(guī)劃框架中,允許動態(tài)調(diào)整權(quán)重以線性組合兩個模型。這樣,OneNet可以同時利用這兩種模型的優(yōu)勢,既能處理概念漂移,又能提高預(yù)測精度。
 
 
  04. 揭示分子表示學(xué)習(xí)的神經(jīng)尺度率
 
  Uncovering Neural Scaling Laws of Molecular Representation Learning
 
  作者:陳丁碩,朱彥樵,張介宇,杜沅豈,李志勛,劉強,吳書,王亮
 
  近年來,分子表示學(xué)習(xí)(MRL)被證實可以有效助力藥物和材料發(fā)現(xiàn)的多種下游任務(wù),例如分子虛擬篩選和逆向設(shè)計。其中,以模型設(shè)計為導(dǎo)向的研究受到研究者們的廣泛關(guān)注,但從數(shù)據(jù)的視角出發(fā),分子的數(shù)量和質(zhì)量如何影響分子表示學(xué)習(xí)還是一個開放性的問題。
 
  本文我們以數(shù)據(jù)為中心的角度深入研究了MRL的神經(jīng)尺度率,其中涉及了四個關(guān)鍵維度:(1)數(shù)據(jù)模態(tài),(2)數(shù)據(jù)集分割方式,(3)預(yù)訓(xùn)練的干預(yù),以及(4)模型容量。我們的研究證實了數(shù)據(jù)量和分子表示學(xué)習(xí)性能在這些維度上均滿足冪律關(guān)系。此外,我們揭示了提高MRL學(xué)習(xí)效率的潛在途徑。為了提高現(xiàn)有的冪律學(xué)習(xí)效率,我們將七種主流的數(shù)據(jù)修剪策略應(yīng)用于分子數(shù)據(jù)并對其性能進行了基準測試。本工作強調(diào)了以數(shù)據(jù)為中心探究MRL的重要性,并強調(diào)了未來相關(guān)研究的可能方向。
 
  05. 圖結(jié)構(gòu)學(xué)習(xí)基準庫
 
  GSLB: The Graph Structure Learning Benchmark
 
  作者:李志勛,王亮,孫鑫,羅逸凡,朱彥樵,陳丁碩,羅穎韜,周相鑫,劉強,吳書,王亮,Jeffrey Xu Yu
 
  本篇論文提出了首個圖結(jié)構(gòu)學(xué)習(xí)基準庫(GSLB),其包含16個圖結(jié)構(gòu)學(xué)習(xí)算法和20個常用的圖數(shù)據(jù)集。在本文中,我們從有效性,魯棒性,復(fù)雜度三個維度系統(tǒng)地研究了圖結(jié)構(gòu)學(xué)習(xí)的性質(zhì)。本文在節(jié)點級別和圖級別任務(wù)中全面地評估現(xiàn)有圖結(jié)構(gòu)學(xué)習(xí)方法,分析他們在魯棒學(xué)習(xí)當(dāng)中的效果,以及對各算法的復(fù)雜度進行了研究。并且,為了促進可復(fù)現(xiàn)研究,我們開發(fā)了一個易于使用的庫來對不同的圖結(jié)構(gòu)學(xué)習(xí)算法進行訓(xùn)練、評估和可視化。我們的大量實驗結(jié)果顯示了圖結(jié)構(gòu)學(xué)習(xí)的能力,并且解釋了其在不同場景的任務(wù)中的潛在優(yōu)勢,為后續(xù)的研究提供了見解和思路。
 
  相關(guān)鏈接:
 
  https://github.com/GSL-Benchmark/GSLB
 
  06. 回波超越點云:在多模態(tài)數(shù)據(jù)融合中釋放雷達原始數(shù)據(jù)的潛力
 
  Echoes Beyond Points: Unleashing the Power of Raw Radar Data in Multi-modality Fusion
 
  作者:劉洋、王峰、王乃巖、張兆翔
 
  毫米波雷達,由于其低廉的成本以及對惡劣天氣的強魯棒性,如今已成為自動駕駛系統(tǒng)中必備的傳感器組件。然而,由于毫米波雷達產(chǎn)生的點云十分系數(shù),加之方位角和仰角分辨率較差,因此基于雷達的檢測算法性能通常表現(xiàn)不佳。此外,為了減少虛警目標(biāo),毫米波點云的生成算法只保留了峰值信號,但這對于深度融合的使用可能是次優(yōu)的。在本文中,我們提出了一種名為 EchoFusion 的新方法來跳過現(xiàn)有的雷達信號處理流程,直接將雷達原始數(shù)據(jù)與其他傳感器相結(jié)合。具體來說,我們在鳥瞰圖 (BEV)空間以一種新的融合范式將雷達中獲取的頻譜特征與其他傳感器融合。通過這種方法,我們的方法可以利用來自雷達回波的豐富的距離和速度信息和圖像中豐富的語義信息,進而在RADIal數(shù)據(jù)集上超越了所有現(xiàn)有的方法,并達到了接近激光雷達的性能。Camera-Ready版本的論文以及代碼將很快公開。
 
  文章鏈接:
 
  https://arxiv.org/pdf/2307.16532.pdf
 
  07. SheetCopilot: 借助大語言模型讓軟件生產(chǎn)力更上一層樓
 
  SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models
 
  作者:李鴻鑫,蘇靖然,陳韞韜,李青,張兆翔
 
  本文作者提出了一種利用語言模型實現(xiàn)復(fù)雜軟件操控的全新框架——SheetCopilot,并在典型辦公軟件Excel和GoogleSheets上進行測試。本工作將表格操控的核心功能抽象為一組虛擬 API,用于生成解決方案,作為 LLM 與軟件之間交互的橋梁。為了實現(xiàn)高效閉環(huán)控制,SheetCopilot 根據(jù)表格狀態(tài)規(guī)劃每一個步驟,且借助軟件錯誤反饋進行回溯??紤]到語言模型的輸入窗口有限,每次規(guī)劃都從外置知識庫中提取候選API的文檔,既降低輸入處理用時,又提升了成功率。本文還提出一個高質(zhì)量評測基準,涉及表格操作的幾乎所有典型任務(wù)(公式、制圖、透視表、排序篩選等)。
 
  實驗結(jié)果顯示,SheetCopilot僅需約10 步組合操作即可在上千行數(shù)十列的多張表格中快速完成任務(wù)。以GPT-4 為后端模型時,SheetCopilot符合任務(wù)要求的解決方案占比最高且效率最優(yōu),GPT-3.5-Turbo緊隨其后,Claude最次但也接近 GPT-3.5-Turbo。與將用戶指令翻譯成晦澀的VBA 代碼并在Excel上執(zhí)行的方法對比,SheetCopilot不僅取得了出色的成功率,生成的解決方案也通俗易懂。這意味著 SheetCopilot讓不會編程的用戶能以日常交流的方式指揮計算機完成繁雜的工作。
 
  項目主頁:
 
  https://sheetcopilot.github.io/
 
  文章鏈接:
 
  http://arxiv.org/abs/2305.19308
 
  08. 預(yù)訓(xùn)練視覺Transformer的新方法——重建丟棄位置 (DropPos)
 
  DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions
 
  作者:王淏辰,樊峻菘,王玉璽,宋開友,王彤,張兆翔
 
  視覺Transformer對輸入圖像塊的順序非常不敏感,因此亟需一種能夠增強視覺轉(zhuǎn)換器位置感知能力的預(yù)訓(xùn)練模式。為了解決這個問題,我們提出了DropPos,旨在重建在模型前向過程中隨機丟棄的位置。DropPos的設(shè)計十分簡單:首先,在標(biāo)準的前向過程中,我們隨機丟棄大量的位置編碼;然后使模型僅根據(jù)視覺外觀,對每個圖像塊的實際位置進行預(yù)測。該任務(wù)被建模為一個簡單的分類任務(wù)。為了避免平凡解,我們只保留了部分可見圖像塊,從而增加了這項代理任務(wù)的難度。此外,考慮到?jīng)]有必要重建視覺外觀相似的不同圖像塊的精確位置的情況,我們提出了位置平滑和注意重建策略來松弛這一分類問題。在廣泛的下游測試中,DropPos的表現(xiàn)優(yōu)于有監(jiān)督的預(yù)訓(xùn)練,并與最先進的自監(jiān)督替代方法相比取得了具有競爭力的結(jié)果。這表明,像 DropPos這樣顯示鼓勵空間推理能力,確實有助于提高視覺Transformer的位置感知能力。
 
 
  09. 基于多模態(tài)查詢的開放世界目標(biāo)檢測
 
  Multi-modal Queried Object Detection in the Wild
 
  作者:許逸凡,張夢丹,傅朝友,陳珮?gòu)?,楊小汕,李珂,徐常?/div>
 
  我們提出了基于多模態(tài)查詢的目標(biāo)檢測(MQ-Det),首個同時支持文本描述和視覺示例查詢的開放世界目標(biāo)檢測器。MQ-Det是一種高效的架構(gòu)和預(yù)訓(xùn)練策略設(shè)計,可以同時利用高泛化性的文本描述和高細粒度的視覺示例來對圖像中的目標(biāo)進行查詢檢測,即多模態(tài)查詢。MQ-Det將視覺示例查詢整合到現(xiàn)有的基于語言查詢的檢測器中,并提出了一種即插即用的門控感知器模塊來將視覺信息插入文本描述。為了解決凍結(jié)檢測器帶來的學(xué)習(xí)惰性問題,我們提出了一種以視覺為條件的掩碼語言預(yù)測策略。MQ-Det的簡單而有效的架構(gòu)和訓(xùn)練策略設(shè)計與目前大多數(shù)基于語言查詢的目標(biāo)檢測器兼容,因此具備廣泛的適用性。實驗結(jié)果表明,多模態(tài)查詢能夠大幅度推動開放世界目標(biāo)檢測。例如,MQ-Det通過多模態(tài)查詢在基準數(shù)據(jù)集LVIS上將目前最先進的開集檢測器GLIP提升了約7.8% AP,而無需進行任何下游微調(diào);同時,其將13個小樣本下游任務(wù)平均提高了6.3% AP。完成以上這些提升僅需要在GLIP基礎(chǔ)上進行額外的3%的調(diào)制訓(xùn)練時間。
 
  圖片
 
  論文鏈接:
 
  https://arxiv.org/abs/2305.18980
 
  代碼鏈接:
 
  https://github.com/YifanXu74/MQ-Det
 
  10. 基于全局指導(dǎo)視頻解碼器的連續(xù)非自回歸視頻生成方法
 
  GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided Video DecodER
 
  作者:孫銘真,王衛(wèi)寧,秦子涵,孫家輝,陳思涵,劉靜
 
  視頻生成需要同時具備全局一致性和局部真實性。本文提出了一種新穎的非自回歸方法 GLOBER,首先生成全局特征以獲取綜合性的全局引導(dǎo),然后基于全局特征合成視頻幀以生成連貫的視頻。具體而言,我們提出了一個視頻自編碼器,其中視頻編碼器將視頻編碼成全局特征,而建立在擴散模型上的視頻解碼器以非自回歸方式解碼全局特征并合成視頻幀。為了實現(xiàn)最大的靈活性,我們的視頻解碼器通過標(biāo)準化的幀索引來解碼時間信息,從而能夠自由合成任意子視頻片段。此外,我們引入了一種新穎的對抗損失,以提高合成視頻幀之間的全局一致性和局部真實性。最后,我們采用基于擴散的視頻生成器來擬合視頻編碼器輸出的全局特征的分布,從而執(zhí)行視頻生成任務(wù)。大量實驗證明了我們提出的方法的有效性和高效性,且本方法在多個基準數(shù)據(jù)集中取得了新的最優(yōu)性能。
 
  圖片
 
  相關(guān)鏈接:
 
  http://arxiv.org/abs/2309.13274
 
  11. 一種面向復(fù)雜時空因果關(guān)系的多模態(tài)視頻跟蹤評估基準
 
  A Multi-modal Global Instance Tracking Benchmark (MGIT): Better Locating Target in Complex Spatio-temporal and Causal Relationship
 
  作者:胡世宇,張岱凌,武美奇,豐效坤,李旭宸,趙鑫,黃凱奇
 
  因果推理是人類決策中的重要能力之一,如人類在觀看長時視頻時可以準確定位復(fù)雜場景中的目標(biāo)位置。然而,目前算法仍缺乏這種能力,現(xiàn)有跟蹤算法雖然可以在短視頻序列中持續(xù)定位目標(biāo),但在高挑戰(zhàn)性的長視頻序列中卻缺乏魯棒性。為評估智能體長時因果推理能力,本文構(gòu)建了一種面向復(fù)雜時空因果關(guān)系的多模態(tài)視頻跟蹤評估基準MGIT,主要創(chuàng)新如下:(1)構(gòu)建了一個長時視頻文本雙模態(tài)數(shù)據(jù)集,該數(shù)據(jù)包含150段總計203萬幀的長視頻序列,單段時長為現(xiàn)有基準的5-22倍;此外,每段視頻均包含一套參考人類認知結(jié)構(gòu)的層級化多粒度語義標(biāo)簽,總計7.8萬詞。(2)設(shè)計了一套多模態(tài)跟蹤任務(wù)評測機制并對現(xiàn)有算法進行評估。實驗結(jié)果表明現(xiàn)有跟蹤算法缺乏長文本處理能力和模態(tài)對齊能力,無法進行長時因果推理,與人類的跟蹤能力仍有較大差距。綜上,本工作提供了高質(zhì)量的實驗環(huán)境和評測系統(tǒng),能幫助研究者從多模態(tài)的視角去理解視頻推理能力,并為算法的設(shè)計和評估提供支持。
 
 
  圖1. 多模態(tài)單目標(biāo)跟蹤基準MGIT構(gòu)建框架
 
  12. 基于自動分組機制的高效合作型多智能體強化學(xué)習(xí)
 
  Automatic Grouping for Ef?cient Cooperative Multi-Agent Reinforcement Learning
 
  作者:臧一凡,何金岷,李凱,傅浩波,付強,興軍亮,程健
 
  自然系統(tǒng)中常見的分組現(xiàn)象對于提高團隊合作效率而言至關(guān)重要。本文提出一種分組學(xué)習(xí)的多智能體強化學(xué)習(xí)方法GoMARL,在沒有任何先驗知識的條件下學(xué)習(xí)自動分組來實現(xiàn)智能體之間的高效合作。不同于直接學(xué)習(xí)聯(lián)合動作價值和個體動作價值之間復(fù)雜關(guān)系的方法,本文以小組作為橋梁建模智能體之間的關(guān)聯(lián),通過鼓勵小組內(nèi)和小組間的配合來提高整個團隊的工作效率。具體而言,本文將聯(lián)合動作價值分解為小組價值的組合,指導(dǎo)智能體以更細粒度的方式改進策略。GoMARL運用一種自動分組機制來生成動態(tài)組別和相應(yīng)的小組動作價值,并進一步提出一種用于策略學(xué)習(xí)的分層控制,驅(qū)動同一組中的智能體學(xué)習(xí)相似的策略,不同組的智能體學(xué)習(xí)多樣化的策略。本文在星際微操任務(wù)和谷歌足球場景的實驗中驗證了GoMARL的高效性,并通過消融實驗和組件分析展示分組在提升算法性能方面的重要性。
 
  

 
  13. 面向高效準確Winograd卷積的全量化方法
 
  Towards Efficient and Accurate Winograd Convolution via Full Quantization
 
  作者:陳天奇,許偉翔,陳維漢,王培松,程健
 
  Winograd算法是一種通過域變換來減少計算量的快速卷積實現(xiàn)。通過對Winograd卷積量化,降低其計算精度,可以進一步加速卷積神經(jīng)網(wǎng)絡(luò),但這同樣面臨性能損失。針對這一問題,本文通過實驗發(fā)現(xiàn)量化會導(dǎo)致Winograd變換過程的不一致性,并提出以輸出對齊為監(jiān)督信號對變換矩陣統(tǒng)一優(yōu)化。另外,本文首次對Winograd的域變換過程進行全量化,并通過實驗和理論分析發(fā)現(xiàn)量化瓶頸在于輸出變換過程。本文因此提出了一種可分解的量化系數(shù),該方法更好的兼顧了硬件友好和量化損失。
 
 
 
  14. ZoomTrack:用于高效視覺跟蹤的目標(biāo)感知非均勻尺寸調(diào)整
 
  ZoomTrack : Target-aware Non-uniform Resizing for Efficient Visual Tracking
 
  作者:寇宇同,高晉,李椋,王剛,胡衛(wèi)明,王以政,李兵
 
  最近,由于輸入尺寸更小或特征提取骨干更輕,Transformer使面向速度的跟蹤器能夠以高速接近最先進(SOTA)的性能,盡管它們?nèi)匀淮蟠舐浜笥谙鄳?yīng)的面向性能的版本。在本文中,我們證明了在較小輸入尺寸的基礎(chǔ)上實現(xiàn)高速跟蹤的同時縮小甚至抹平這一性能差距是可能的。為此,我們非均勻地調(diào)整了裁剪圖像的大小,使其輸入尺寸更小,而目標(biāo)更可能出現(xiàn)的區(qū)域的分辨率卻更高,反之亦然。由此可以解決兩難的問題:既要關(guān)注更大的視野,又要在較小的輸入尺寸下保留更多的目標(biāo)原始信息。我們的非均勻尺寸調(diào)整可以通過二次編程(QP)有效解決,并自然地集成到大多數(shù)基于剪裁的局部跟蹤器中。在五個具有挑戰(zhàn)性的數(shù)據(jù)集上對兩種Transformer跟蹤器(即 OSTrack 和 TransT)進行的綜合實驗表明,我們的方法具有一致的性能提升。特別是,將我們的方法應(yīng)用于面向速度的 OSTrack 版本,在 TNL2K 上的 AUC 甚至比面向性能的對應(yīng)版本高出 0.6%,同時運行速度提高了 50%,節(jié)省了 55% 以上的 MAC。
 
  
 
  15. 基于上下文物體和關(guān)系學(xué)習(xí)的3D指代目標(biāo)檢測
 
  Exploiting Contextual Objects and Relations for 3D Visual Grounding
 
  作者:楊力,原春鋒,張子琦,祁仲昂,許龑,劉偉,單瀛,李兵,楊偉平,胡衛(wèi)明
 
  3D指代目標(biāo)檢測是根據(jù)自然語言輸入從三維場景中識別出視覺目標(biāo)的任務(wù)。這項任務(wù)對于使機器人能夠理解并與真實環(huán)境交互起著至關(guān)重要的作用。然而,由于需要捕獲三維上下文信息才能從復(fù)雜的三維場景中分辨出目標(biāo)物體,這項任務(wù)極具挑戰(zhàn)性。同時,缺乏上下文物體和關(guān)系的標(biāo)注進一步加劇了困難。在本文中,我們提出了一種新穎的檢測模型 CORE-3DVG,通過對上下文物體和關(guān)系進行顯式的學(xué)習(xí)來應(yīng)對這些挑戰(zhàn)。我們的方法通過三個連續(xù)的模塊化網(wǎng)絡(luò)來實現(xiàn)3D指代目標(biāo)檢測,包括一個文本引導(dǎo)的物體檢測網(wǎng)絡(luò)、一個關(guān)系匹配網(wǎng)絡(luò)和一個目標(biāo)推理網(wǎng)絡(luò)。在訓(xùn)練過程中,我們引入了偽標(biāo)簽自生成策略和弱監(jiān)督方法,以建立對無標(biāo)注的上下文物體和關(guān)系的顯式學(xué)習(xí)。所提出的技術(shù)通過對上下文物體和關(guān)系的學(xué)習(xí),使推理網(wǎng)絡(luò)能夠更好地關(guān)注到三維場景中所指代目標(biāo)。我們在具有挑戰(zhàn)性的Nr3D、Sr3D和ScanRefer數(shù)據(jù)集上驗證了我們的方法,取得了最先進的性能。
 
  16. Bullying10K: 一個大規(guī)模神經(jīng)形態(tài)數(shù)據(jù)集用于隱私保護的暴力識別
 
  Bullying10K: A Large-Scale neuromorphic Dataset towards Privacy-Preserving Bullying Recognition
 
  作者:董一廷,李楊,趙東城,申國斌,曾毅
 
  日常生活中暴力行為的普遍性對個人的身體和精神健康構(gòu)成了重大威脅。在公共場所使用監(jiān)控攝像頭已被證明在主動地阻止和預(yù)防此類事件中是有效的。但由于其廣泛部署,出現(xiàn)了關(guān)于隱私侵犯的擔(dān)憂。為了解決這個問題,我們利用動態(tài)視覺傳感器(DVS)攝像頭來檢測暴力事件并保護隱私,因為它捕捉像素亮度的變化,而不是靜態(tài)圖像。我們構(gòu)建了Bullying10K數(shù)據(jù)集,包括來自現(xiàn)實生活場景的各種動作、復(fù)雜的運動和遮擋。它為評估不同任務(wù)提供了三個基準:動作識別、時間動作定位和姿態(tài)估計。Bullying10K通過提供10,000個事件段,總共120億次事件和255GB的數(shù)據(jù),平衡了暴力檢測和個人隱私的保護,并對神經(jīng)形態(tài)數(shù)據(jù)集提出了挑戰(zhàn),將成為訓(xùn)練和開發(fā)保護隱私的視頻系統(tǒng)的寶貴資源。Bullying10K為這些領(lǐng)域的創(chuàng)新方法開辟了新的可能性。
 
  17. ALIM: 針對噪聲部分標(biāo)簽學(xué)習(xí)調(diào)整標(biāo)簽重要性機制
 
  ALIM: Adjusting Label Importance Mechanism for Noisy Partial Label Learning
 
  作者:徐名宇,連政,馮磊,劉斌,陶建華
 
  噪聲部分標(biāo)簽學(xué)習(xí)(噪聲PLL)是弱監(jiān)督學(xué)習(xí)的一個重要分支。與 PLL 中的真實標(biāo)簽必須隱藏在候選標(biāo)簽集中不同,噪聲 PLL 放寬了這一限制,并允許真實標(biāo)簽可能不在候選標(biāo)簽集中。為了解決這個具有挑戰(zhàn)性的問題,大多數(shù)現(xiàn)有工作嘗試檢測噪聲樣本并估計每個噪聲樣本的真實標(biāo)簽。然而,檢測錯誤是不可避免的。這些錯誤會在訓(xùn)練過程中累積并持續(xù)影響模型優(yōu)化。為此,我們提出了一種具有理論解釋的噪聲 PLL 的新穎框架,稱為“調(diào)整標(biāo)簽重要性機制(ALIM)”。它的目的是通過權(quán)衡初始候選集和模型輸出來減少檢測錯誤的負面影響。ALIM 是一種插件策略,可以與現(xiàn)有 PLL 方法集成。多個基準數(shù)據(jù)集上的實驗結(jié)果表明,我們的方法可以在噪聲 PLL 上實現(xiàn)最先進的性能。
 
  18.VRA:針對分布外檢測的變分修飾激活方法
 
  VRA: Variational Rectified Activation for Out-of-distribution Detection
 
  作者:徐名宇,連政,劉斌,陶建華
 
  分布外 (OOD) 檢測對于在開放世界中構(gòu)建可靠的機器學(xué)習(xí)系統(tǒng)至關(guān)重要。研究人員提出了各種策略來減少模型對 OOD 數(shù)據(jù)的過度自信。其中,ReAct是處理模型過度自信的典型且有效的技術(shù),它截斷高激活以增加分布內(nèi)和OOD之間的差距。盡管其結(jié)果很有希望,但這種技術(shù)是最好的選擇嗎?為了回答這個問題,我們利用變分方法來尋找最優(yōu)操作,并驗證了 OOD 檢測中抑制異常低和高激活以及放大中間激活的必要性,而不是像 ReAct 那樣只關(guān)注高激活。這促使我們提出一種名為“變分修飾激活(VRA)”的新技術(shù),該技術(shù)使用分段函數(shù)模擬這些抑制和放大操作。多個基準數(shù)據(jù)集的實驗結(jié)果表明,我們的方法優(yōu)于現(xiàn)有的事后策略。同時,VRA兼容不同的評分函數(shù)和網(wǎng)絡(luò)架構(gòu)。
 
  歡迎后臺留言、推薦您感興趣的話題、內(nèi)容或資訊!
 
  如需轉(zhuǎn)載或投稿,請后臺私信。
我要收藏
點個贊吧
轉(zhuǎn)發(fā)分享
上一篇:最新要聞 | 清華大學(xué)自動化系實驗教學(xué)中心舉辦第二屆機器狗開發(fā)大...
下一篇: 中國石油又一重點實驗室揭牌成立