【ZiDongHua 之“半導(dǎo)體產(chǎn)業(yè)鏈”收錄關(guān)鍵詞:摩爾線程 人工智能 數(shù)字孿生 數(shù)智化轉(zhuǎn)型 】
  
  摩爾線程發(fā)布大模型訓(xùn)練仿真工具SimuMax v1.0:仿真精度顯著提升,顯存誤差僅1%
  
  近日,摩爾線程正式發(fā)布并開(kāi)源大模型分布式訓(xùn)練仿真工具SimuMax 1.0版本。該版本在顯存和性能仿真精度上實(shí)現(xiàn)突破性提升,同時(shí)引入多項(xiàng)關(guān)鍵功能,進(jìn)一步增強(qiáng)了模型兼容性、靈活性與用戶體驗(yàn)。
  
  SimuMax是一款專為大語(yǔ)言模型(LLM)分布式訓(xùn)練負(fù)載設(shè)計(jì)的仿真模擬工具,可為單卡到萬(wàn)卡集群提供仿真支持。它無(wú)需實(shí)際執(zhí)行完整訓(xùn)練過(guò)程,即可高精度模擬訓(xùn)練中的顯存使用和性能表現(xiàn),幫助用戶深入洞察訓(xùn)練效率,探索提升計(jì)算效能的優(yōu)化途徑?;陟o態(tài)分析模型,摩爾線程自研的SimuMax通過(guò)結(jié)合成本模型、內(nèi)存模型和屋頂模型,實(shí)現(xiàn)對(duì)訓(xùn)練過(guò)程的精準(zhǔn)仿真。該工具支持多種主流分布式并行策略
  
  與優(yōu)化技術(shù),適用于以下多種應(yīng)用場(chǎng)景:
  
  并行策略:數(shù)據(jù)并行(DP)、張量并行(TP)、序列并行(SP)、流水線并行(PP)、專家并行( EP);
  
  優(yōu)化技術(shù):ZeRO-1、完整重計(jì)算、選擇性重計(jì)算、融合內(nèi)核等;
  
  適用對(duì)象:希望尋找最優(yōu)訓(xùn)練策略以提升效率的用戶;
  
  從事框架或大模型算法開(kāi)發(fā)的工程師,用于優(yōu)化與調(diào)試;
  
  芯片制造商,用于性能預(yù)測(cè)與硬件設(shè)計(jì)輔助。
  
  核心突破:
 
  仿真精度實(shí)現(xiàn)顯著提升SimuMax
  
  1.0最顯著的更新在于其仿真精度的大幅提升,為用戶提供更可靠的分析結(jié)果。
  
  顯存估計(jì):針對(duì)Dense和MoE(混合專家)模型,顯存估計(jì)誤差穩(wěn)定控制在1%以內(nèi);
  
  性能估計(jì):經(jīng)測(cè)試,在多個(gè)主流GPU上,目前最優(yōu)性能估計(jì)誤差持續(xù)低于4%;
 
  
  新功能與增強(qiáng):
 
  擴(kuò)展模型兼容與精細(xì)化控制SimuMax 1.0引入了多項(xiàng)新特性,支持更廣泛的模型結(jié)構(gòu)和
  
  高效率訓(xùn)練需求:
  
  MLA支持:新增對(duì)MLA模型架構(gòu)的支持; 流水線并行(PP)增強(qiáng):支持對(duì)首階段和末階段層的細(xì)粒度控制,優(yōu)化模型分片策略;
  
  MoE靈活性提升:在混合專家(MoE)模型中支持自定義Dense層,為模型設(shè)計(jì)提供了更大的靈活性。
  
  Megatron兼容:提供簡(jiǎn)化的模型遷移流程,可輕松轉(zhuǎn)換和分析基于Megatron框架的模型,提升與現(xiàn)有生態(tài)的互操作性。
  
  重計(jì)算策略優(yōu)化:實(shí)現(xiàn)更細(xì)粒度的選擇性重計(jì)算,支持更精準(zhǔn)的內(nèi)存和計(jì)算資源權(quán)衡。
  
  全面的效率分析:新增對(duì)不同張量形狀與內(nèi)存布局下計(jì)算效率與利用率的評(píng)估功能。
 
  快速開(kāi)始
 
  開(kāi)發(fā)者可通過(guò)以下步驟,快速體驗(yàn)SimuMax:克隆倉(cāng)庫(kù):
  
  git clone git@github.com:MooreThreads/SimuMax.gitcd SimuMax安裝Python包:pip install-r requirements.txtpip install -v -e .運(yùn)行示例:參考項(xiàng)目中的教程和示例(如examples/perf_llama3_8b_tp1_pp2.py),即可開(kāi)始使用SimuMax進(jìn)行訓(xùn)練仿真。持續(xù)優(yōu)化與生態(tài)共建SimuMax已在GitHub全面開(kāi)源,開(kāi)發(fā)者可訪問(wèn)倉(cāng)庫(kù)獲取源代碼、詳細(xì)文檔和示例。摩爾線程鼓勵(lì)開(kāi)發(fā)者通過(guò)提交Issue報(bào)告問(wèn)題或通過(guò)Pull Request貢獻(xiàn)代碼,共同促進(jìn)SimuMax功能的完善和軟件生態(tài)的繁榮。
  
   SimuMax 開(kāi)源地址:https://github.com/MooreThreads/SimuMax摩爾線程始終致力于為開(kāi)發(fā)者提供強(qiáng)大的軟件工具鏈。SimuMax的發(fā)布,將為大模型分布式訓(xùn)練的仿真和優(yōu)化提供精準(zhǔn)視角,助力AI產(chǎn)業(yè)提升算力利用效率,探索更高效的訓(xùn)練范式。未來(lái),摩爾線程SimuMax團(tuán)隊(duì)將繼續(xù)積極開(kāi)發(fā),計(jì)劃增加對(duì)上下文并行、更多流水線調(diào)度器、通算并行、Offload技術(shù)、策略搜索以及更精準(zhǔn)的memory-bound算子模擬等功能的支持。
  
   關(guān)于摩爾線程
  
  摩爾線程以全功能GPU為核心,致力于向全球提供加速計(jì)算的基礎(chǔ)設(shè)施和一站式解決方案,為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強(qiáng)大的AI計(jì)算支持。我們的目標(biāo)是成為具備國(guó)際競(jìng)爭(zhēng)力的GPU領(lǐng)軍企業(yè),為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進(jìn)的加速計(jì)算平臺(tái)。我們的愿景是為美好世界加速。