【ZiDongHua 之“設(shè)計(jì)自動(dòng)化”收錄關(guān)鍵詞:華中科技大學(xué) 集成電路 數(shù)字孿生 】
 
  我院繆向水/李祎團(tuán)隊(duì)于國(guó)際設(shè)計(jì)自動(dòng)化會(huì)議(DAC 2025)發(fā)表 存內(nèi)科學(xué)計(jì)算架構(gòu)研究成果
 
  背景導(dǎo)讀
 
  DAC (Design Automation Conference),全稱國(guó)際設(shè)計(jì)自動(dòng)化會(huì)議, 由美國(guó)計(jì)算機(jī)協(xié)會(huì)(ACM)和電氣與電子工程師協(xié)會(huì)(IEEE)聯(lián)合主辦,始于1964年,擁有超過60年的歷史,是全球芯片設(shè)計(jì)與自動(dòng)化領(lǐng)域規(guī)模宏大、影響深遠(yuǎn)、歷史悠久的頂級(jí)會(huì)議之一。
 
  我院繆向水、李祎教授團(tuán)隊(duì)在近日于美國(guó)舊金山召開的第62屆DAC會(huì)議上報(bào)告了基于阻變存儲(chǔ)器的存算一體技術(shù)最新研究成果“ReSMiPS: A ReRAM-based Sparse Mixed-precision Solver with Fast Reordering Algorithm”。該工作為稀疏矩陣方程求解這一重要基礎(chǔ)問題,提供了一種高能效、高精度的存算一體求解架構(gòu)。我院2023級(jí)博士生付雨陽(yáng),2019級(jí)博士生李健聰(已畢業(yè),現(xiàn)于香港科技大學(xué)從事博士后研究)為論文共同第一作者,李祎教授和香港智能晶片與系統(tǒng)研發(fā)中心陳佳博士為論文共同通訊作者。華中科技大學(xué)是論文第一完成單位。
 
  稀疏矩陣方程(Ax=b)求解是科學(xué)計(jì)算、具身智能等領(lǐng)域的基礎(chǔ)數(shù)學(xué)問題?;贑PU和GPU的傳統(tǒng)數(shù)字求解器在執(zhí)行大規(guī)模稀疏矩陣方程求解時(shí),由于“存-算”分離的馮·諾依曼計(jì)算架構(gòu),面臨著嚴(yán)重的訪存瓶頸,難以滿足高效求解需求。盡管基于阻變存儲(chǔ)器(ReRAM)的存算一體技術(shù)為高效的矩陣計(jì)算提供了一種潛在硬件架構(gòu),但是,一方面存儲(chǔ)器的交叉陣列結(jié)構(gòu)僅適配稠密矩陣計(jì)算,在部署稀疏矩陣時(shí),大量0元素不可避免的會(huì)導(dǎo)致算力的浪費(fèi)。另一方面,存算一體架構(gòu)通常受制于模擬計(jì)算機(jī)制,難以滿足稀疏矩陣方程的雙浮點(diǎn)精度(FP64)求解需求。
 
  針對(duì)上述問題,研究團(tuán)隊(duì)構(gòu)建了一套基于ReRAM的混合精度異構(gòu)存算一體求解架構(gòu)ReSMiPS,以實(shí)現(xiàn)稀疏矩陣方程的高效、高精度求解,取得了以下進(jìn)展:
 
  在矩陣部署層面,針對(duì)稀疏矩陣在ReRAM陣列上的高效部署難題,提出了一種快速稀疏矩陣排序算法(Fast Sparse Matrix Reordering Algorithm,F(xiàn)SMR)。FSMR算法通過對(duì)稱化變換矩陣并兼顧帶寬壓縮特性,相較Cuthill-Mckee等現(xiàn)有重排算法,可以實(shí)現(xiàn)非零元素的高效聚簇,顯著提升陣列利用率,突破稀疏矩陣乘法在陣列中的計(jì)算并行度限制(圖1(a))。
 
  在數(shù)據(jù)映射層面,針對(duì)FP64精度數(shù)據(jù)在ReRAM陣列中的存儲(chǔ)和計(jì)算開銷限制,提出了一種IF64數(shù)據(jù)映射格式,該數(shù)據(jù)格式兼顧了IEEE-754標(biāo)準(zhǔn)FP64格式的數(shù)據(jù)動(dòng)態(tài)范圍,同時(shí)通過約束尾數(shù)位寬,降低了硬件資源開銷,結(jié)合所設(shè)計(jì)的浮點(diǎn)存算一體單元,可顯著加速浮點(diǎn)稀疏矩陣計(jì)算(圖1(b))。
 
  
 
  圖1. (a)FSMR算法效果示意;
 
 ?。╞)基于ReRAM的浮點(diǎn)稀疏矩陣乘法架構(gòu)
 
  在架構(gòu)層面,提出了結(jié)合IF64的ReRAM浮點(diǎn)矩陣乘法單元與FP64精度的數(shù)字處理單元的混合精度求解架構(gòu)。通過ReRAM浮點(diǎn)計(jì)算單元加速近似求解,F(xiàn)P64數(shù)字單元實(shí)現(xiàn)誤差修正的方式,在實(shí)現(xiàn)與CPU/GPU相當(dāng)?shù)臄?shù)值求解精度的同時(shí),降低大規(guī)模稀疏矩陣的迭代求解延時(shí),提升求解能效(圖2)。
 
  使用SuiteSparse稀疏矩陣數(shù)據(jù)集的評(píng)估結(jié)果顯示,ReSMiPS實(shí)現(xiàn)10-15的高精度求解時(shí),計(jì)算速度相對(duì) NIVIDA RTX 4070 Ti GPU提升約600倍,能耗降低至1/2100,且得益于FSMR算法對(duì)大規(guī)模稀疏矩陣條件數(shù)的約束,ReSMiPS在負(fù)載矩陣條件數(shù)達(dá)1018的惡劣收斂條件下,仍能實(shí)現(xiàn)穩(wěn)定條件。該研究成果不僅突破了ReRAM存算一體技術(shù)在高精度稀疏矩陣方程求解中的應(yīng)用瓶頸,也為未來芯片設(shè)計(jì)自動(dòng)化、數(shù)字孿生等重要應(yīng)用場(chǎng)景提供了可行的硬件加速方案。
 
 
 
  圖2. 基于ReSMiPS系統(tǒng)的稀疏矩陣方程求解框架
 
  本論文研究工作得到了國(guó)家科技創(chuàng)新2030重大研究計(jì)劃(No. 2021ZD0201201)、國(guó)家重點(diǎn)研發(fā)計(jì)劃(No. 2022YFB450010),湖北省杰出青年基金、華中科技大學(xué)基礎(chǔ)研究支持計(jì)劃等項(xiàng)目的資助,以及華中科技大學(xué)國(guó)家集成電路產(chǎn)教融合創(chuàng)新平臺(tái)的支持。
 
  [1] Yuyang Fu†, Jiancong Li†, Jia Chen*, Zhiwei Zhou, Houji Zhou, Wenlong Peng, Yi Li*, and Xiangshui Miao, “ReSMiPS: A ReRAM-based Sparse Mixed-precision Solver with Fast Reordering Algorithm”, 2025 62th ACM/IEEE Design Automation Conference (DAC), San Francisco, CA, USA, 2025, pp. 1-6.
 
  來源 | 集成電路學(xué)院