【ZiDongHua 之“半導體產業(yè)鏈”收錄關鍵詞: 華中科技大學 自然語言處理 集成電路 】
  
  學術芯聞 | 我院孫華軍/繆向水教授團隊在基于憶阻器的語言模型電路級實現與算法協同設計方面研究方面取得重要進展
  
  我院孫華軍/繆向水教授課題組在基于憶阻器的語言模型電路級實現與算法協同設計方面取得重要突破,相關研究成果以題為《Memristor-Based Circuit Implementation and Circuitry Optimized Algorithm for Mamba Language Network》的論文6月26日發(fā)表在國際電路與系統(tǒng)頂級期刊 IEEE Transactions on Circuits and Systems I: Regular Papers (IEEE TCAS-I) 上。我校為論文第一作者和通訊作者單位,我院張峻銘和南加州大學盛哲遠為共同第一作者,孫華軍教授為通訊作者。
 
  
  01  問題闡述
  
  近年來,Transformer模型成為主流語言模型架構,廣泛應用于自然語言處理與視覺任務,但其基于自注意力機制的計算復雜度呈二次增長,需要龐大的資源開銷,限制了其在邊緣和嵌入式場景下的應用。新興的Mamba語言模型通過選擇性狀態(tài)空間模型(Selective SSM)有效降低計算復雜度與處理長序列時所需的資源開銷,逐漸展現出替代Transformer的潛力。
  
  然而,Mamba模型因其計算結構復雜、狀態(tài)變量耦合性強,尚未實現基于憶阻器電路級的完整部署。同時,缺乏面向電路級的并行掃描+硬件感知化推理算法。為突破上述難點,團隊針對在電路層面實現Mamba模型的關鍵挑戰(zhàn)——復雜矩陣計算與狀態(tài)存儲以及并行推理與隱狀態(tài)跨周期遷移——展開研究。
  
  02  解決問題
  
  提出了一種基于憶阻器的Mamba語言模型完整電路實現方案,并首次設計了一套電路感知并行掃描推理算法(Computing-in-Memory Parallel-Aware Algorithm),在結構與數據流上實現端到端加速:
  
  全電路實現(Computing Architecture):設計標準1T1M憶阻交叉陣列與一維深度可分卷積憶阻陣列,覆蓋Mamba的投影,一維卷積等矩陣型運算,避免權重與計算分離引入額外的存儲與I/O開銷。
  
  Implicit latent state “存內計算”電路:提出CIM隱式潛態(tài)模塊,實現隱狀態(tài)計算,存儲與跨周期遷移,配合SiLU激活、RMS歸一化等功能電路,使推理過程全模擬化、顯著減少ADC/DAC與中間存儲。
  
  計算-存內并行感知算法:將Mamba原生并行掃描與硬件感知融合到電路級,實現順序輸入、并行輸出與隱式潛態(tài)的自遷移;突破了Mamba的隱式潛態(tài)無法并行的缺陷,進一步擴展并行度。
 
  
  圖一:Mamba推理電路與hardware-aware parallel 算法示意圖
  
  03  成果亮點與測試驗證實現了端到端的電路級句子生成任務,驗證模型電路從輸入詞嵌入到輸出序列的全鏈路正確性,同時所提出的電路級并行感知優(yōu)化算法使得計算總時間變?yōu)樵瓉淼?/3,驗證了其并行 輸出的能力。在精度與魯棒性方面:模擬計算與標準結果對比,平均準確率可達95.98%;在9位權重量化下平均準確率仍然可達約86.58%。在加入15%白噪聲干擾下仍保持輸出穩(wěn)定,具備良好魯棒性。單個token生成平均功耗約為585.32 mW,在當前模擬電路體系下表現優(yōu)異,展現出向低功耗嵌入式系統(tǒng)遷移的潛力。與Transformer及RNN等傳統(tǒng)模型相比,該實現顯著降低了計算復雜度與推理時延,為大規(guī)模電路集成提供了新的方向。
  
  結語
  
  該工作展示了Mamba語言模型在硬件級特別是基于憶阻電路的可實現性與優(yōu)越性。未來,團隊后續(xù)將進一步優(yōu)化電路架構,拓展電路規(guī)模,引入相似度計算等模塊,推動Mamba模型在邊緣AI設備中的實際部署與應用。論文鏈接:https://doi.org/10.1109/TCSI.2025.3584247