【ZiDongHua 之設(shè)計自動化收錄關(guān)鍵詞:電子設(shè)計自動化   自動駕駛   虛擬現(xiàn)實 】
  
  上海交大先進體系結(jié)構(gòu)實驗室在電子設(shè)計自動化領(lǐng)域頂會DAC 2024發(fā)表5篇研究成果
  
  近期,電子設(shè)計自動化(EDA)領(lǐng)域頂級會議Design Automation Conference(DAC 2024)揭曉論文錄用榜單,上海交通大學電子信息與電氣工程學院計算機科學與工程系先進體系結(jié)構(gòu)實驗室5篇論文被該會議收錄。
  
  DAC會議介紹
  
  DAC會議被譽為EDA界的“奧斯卡”,同時也是CCF-A類會議,由美國電子協(xié)會(Electronic Design Automation Consortium)主辦,目前已經(jīng)舉辦超過60屆,每年提供近300多場的技術(shù)演講,是EDA領(lǐng)域規(guī)模宏大、影響深遠、歷史悠久的頂級會議之一。
  
  論文1: 基于莫頓碼的點云神經(jīng)網(wǎng)絡(luò)量化技術(shù)
  
  第一作者:計算機系博士研究生劉學淵
  
  通訊作者:計算機系助理研究員宋卓然
  
  點云是3維空間中一組無序點的集合,常被用于捕捉真實世界中物體的幾何和屬性等信息,在自動駕駛、虛擬現(xiàn)實等場景中扮演著十分重要的角色。然而,點云具有數(shù)據(jù)規(guī)模大、無序、特征維度高等特點,給點云處理應用的開發(fā)和部署帶來了巨大挑戰(zhàn),其中不乏涉及高實時性、安全攸關(guān)的場景,而由此帶來的運算和存儲開銷顯然難以滿足這些場景的需求。為了解決上述挑戰(zhàn),本文提出一套基于莫頓編碼的細粒度混合精度量化算法及加速器架構(gòu)。論文首次嘗試對3D空間中的點云數(shù)據(jù)進行兩級混合精度量化,使用莫頓編碼捕獲點的空間局部性,從而消除了點云無序性帶來的弊端。此外,論文還設(shè)計了一個加速器架構(gòu),它不僅硬化了上述算法設(shè)計,還有效地將莫頓編碼通路和關(guān)鍵路徑上的操作并行起來,從而掩蓋了新增操作的執(zhí)行時間,顯著提升了點云神經(jīng)網(wǎng)絡(luò)的執(zhí)行性能。論文在7個具有代表性的點云神經(jīng)網(wǎng)絡(luò)模型、4個被廣泛使用的點云數(shù)據(jù)集上進行實驗,取得了對比此前最新研究最高3.8倍的加速和高達5.2倍的能效提升。
  
  
  論文2: 面向視頻Transformer模型的專用加速器
  
  第一作者:計算機系博士研究生王旭航
  
  通訊作者:計算機系助理研究員宋卓然
  
  目前,基于注意力機制的模型在視頻理解任務(wù)中取得了非凡的結(jié)果,然而面向視頻的模型展現(xiàn)出高精度的性能是以大量的計算開銷為代價。為了提高模型的性能,本文從算法,數(shù)據(jù)流以及硬件架構(gòu)三個方面切入。首先,在算法層面,基于同一視頻不同幀的輸入特征之間具有大量相似性這一觀察,論文設(shè)計了一套稀疏算法發(fā)掘并且去除特征間的冗余計算;在數(shù)據(jù)流方面,本文通過將關(guān)鍵特征和稀疏的非關(guān)鍵特征沿時域維度拼接,將稀疏計算轉(zhuǎn)化稠密張量計算,避免了設(shè)計硬件架構(gòu)時為支持稀疏計算而引入的額外開銷;在硬件架構(gòu)方面,論文對傳統(tǒng)的空間硬件架構(gòu)的計算引擎進行修改使其支持數(shù)據(jù)流中需要的向量-標量運算,并建立專用硬件以較低的開銷實時執(zhí)行稀疏算法和拼接關(guān)鍵特征和非關(guān)鍵特征。從實驗結(jié)果看,與CPU、GPU,以及兩個先進的Transformer加速器相比,本文可取得高達81倍的性能收益。
  
  
  
  論文3: 基于時空相似性的LLM大語言模型加速技術(shù)
  
  第一作者:計算機系助理研究員宋卓然
  
  通訊作者:計算機系教授梁曉峣
  
  近年來,大語言模型取得了顯著的效果,包括ChatGPT在內(nèi)的多種應用應運而生,但將模型在端側(cè)部署時模型的計算開銷通常難以接受。為了提高模型性能,本文提出了一套基于時域-空域相似性的Attention加速框架。該框架觀察到同批次輸入的多句話之間可能存在較強的關(guān)聯(lián)性,因此試圖挖掘句子與句子之間的優(yōu)化機會。本文通過在線+離線的預測機制,動態(tài)地識別模型運行過程中的重復計算,并通過復制-粘貼的輕量級恢復機制獲得該詞語的特征結(jié)果,從而在保證算法精度的前提下取得性能收益;另外該論文在架構(gòu)層面以分塊方法保證預測與模型執(zhí)行的過程可以流水化起來,從而掩蓋預測的開銷。經(jīng)過大量實驗表明,與多個大語言模型專用加速器相比,本文可取得高達8.5倍的加速。
  
  
  
  論文4:通過硬件友好的索引對編碼加速深度神經(jīng)網(wǎng)絡(luò)
  
  第一作者:計算機系助理研究員劉方鑫、博士研究生楊寧
  
  通訊作者:計算機系副教授蔣力
  
  深度神經(jīng)網(wǎng)絡(luò)推理消耗了大量的計算和存儲資源,而數(shù)據(jù)量化是一種有效減少神經(jīng)網(wǎng)絡(luò)計算和內(nèi)存開銷的技術(shù)。然而,現(xiàn)有的量化方法大多依賴于固定長度的數(shù)據(jù)格式,使得需要更多位寬來維持模型的準確度,且異常值的存在使得現(xiàn)有的量化方法難以同時對激活(動態(tài))和權(quán)重(靜態(tài))有效,尤其是在Transformer類模型中。相比之下,可變長度量化同時考慮了異常值需求的高精度和對正常值的低精度,提供了算法上的優(yōu)勢。但由于變長編碼和解碼引入了顯著的硬件開銷,實際收益無法難以達到理論收益。本文提出了一種算法/架構(gòu)協(xié)同設(shè)計的解決方案,通過引入索引對量化,并以低硬件開銷和高性能增益處理全局異常值。該方案的核心在于識別與重要值相關(guān)的數(shù)據(jù)特征,將它們編碼為索引,并預先計算相應的結(jié)果,以便在查找表中存儲。而在推理過程中,計算結(jié)果可以直接根據(jù)索引從表中檢索,從而消除了此過程復雜的計算開銷。此外,我們設(shè)計了一個統(tǒng)一的處理單元架構(gòu),使得它可以與現(xiàn)有神經(jīng)網(wǎng)絡(luò)加速器架構(gòu)無縫集成。實驗結(jié)果表明,本方案的加速器在模型精度近乎無損的同時,可以實現(xiàn)9.31倍加速和81.3%的能量減少。
  
  
  
  論文5:耗能驅(qū)動的脈沖神經(jīng)網(wǎng)絡(luò)攻擊框架
  
  第一作者:計算機系助理研究員劉方鑫、博士研究生楊寧
  
  通訊作者:計算機系副教授蔣力
  
  脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)作為傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)的高能效替代方案正在嶄露頭角。SNN的事件驅(qū)動信息處理方案顯著降低了計算需求,同時保持了競爭性能。然而,隨著SNNs在邊緣設(shè)備上的部署越來越多,各種安全問題也逐漸浮現(xiàn)。雖然已經(jīng)有如此大量的研究工作致力于解決源自惡意輸入的安全漏洞,但SNN參數(shù)的安全性仍亟待探索。本文觀察到SNN實現(xiàn)中的能量消耗與脈沖活動密切相關(guān),因此設(shè)計了一種針對SNNs的新型攻擊方法,稱為能量導向的SNN攻擊框架,旨在通過惡意操縱存儲了神經(jīng)元信息的DRAM中的二進制位來增加其能耗。該框架采用了嵌入式攻擊中主流的行錘攻擊(Row Hammer)來翻轉(zhuǎn)二進制位。為了減少被發(fā)覺的可能性,通過識別SNN中基于脈沖活動的最強大神經(jīng)元,并盡可能減少比特翻轉(zhuǎn)來實現(xiàn)此目標。進一步,該采用了脈沖活動分析和漸進搜索策略的組合來確定位翻轉(zhuǎn)攻擊的目標神經(jīng)元,其主要目標是在確保準確性不受影響的情況下逐步增加SNN的能耗。經(jīng)過實驗,通過本文攻擊框架的實施成功對SNNs的攻擊可能導致平均能耗增加43%,而準確性不會受到影響。
  
  來源:上海交通大學