【ZiDongHua 之技術(shù)文章區(qū)收錄關(guān)鍵詞: 億鑄科技 人工智能 ChatGPT AIGC 圖像識(shí)別 計(jì)算機(jī)視覺 AI視覺領(lǐng)域 世界半導(dǎo)體大會(huì)】
 
 
  億科技 | 以存算一體架構(gòu)創(chuàng)新,迎AI 2.0時(shí)代
 
 
起初,ChatGPT爆火出圈是一件令人興奮的事。無論是AI行業(yè)相關(guān)從業(yè)者,還是關(guān)注科技發(fā)展趨勢(shì)的普通人都能真切感受到這股撲面而來的熱浪,仿佛 “每條大街小巷,每個(gè)人的嘴里,見面第一句話,就是AIGC”。ChatGPT的橫空出世,不僅帶來了AI的“iPhone”時(shí)刻,還使處在下行周期的全球半導(dǎo)體市場(chǎng)迎來轉(zhuǎn)折點(diǎn)。據(jù)畢馬威報(bào)告,ChatGPT等人工智能平臺(tái)的出現(xiàn),有望促進(jìn)產(chǎn)生新的應(yīng)用程序和平臺(tái),創(chuàng)造為行業(yè)和未來幾年帶來數(shù)千億美元收入的細(xì)分市場(chǎng)。
 
  
 
  同時(shí),這個(gè) “超費(fèi)電”、“超費(fèi)錢”又“超聰明”的“三超大戶”也給社會(huì)增添了許多焦慮情緒。前微軟全球副總裁、百度COO、奇跡創(chuàng)壇創(chuàng)始人陸奇表示:“從現(xiàn)在開始,不論工作還是創(chuàng)業(yè),請(qǐng)確保自己跟AI有關(guān)”, “AIGC不是什么當(dāng)下風(fēng)口,風(fēng)口意味著投機(jī)主義,未免太低估AI對(duì)世界發(fā)展的影響。” 時(shí)代正在發(fā)生變化,你我皆應(yīng)有所準(zhǔn)備。
 
  AI 2.0 時(shí)代到來,108模型“好漢”各顯身手
 
  誰會(huì)成為MaaS “四小龍”
 
  也許再過幾年回頭看,2023會(huì)是人工智能發(fā)展史上不可忽視的一年。就像《2001太空漫游》里的那塊黑色石板,它第一次出現(xiàn)時(shí),猿猴們圍著它好奇地打轉(zhuǎn),最終受到啟發(fā),學(xué)會(huì)了使用工具,進(jìn)化成了人類;而當(dāng)它再一次出現(xiàn)時(shí),又引導(dǎo)人類向著更高維度前進(jìn),穿過萬千星海,直到成為宇宙本身。
 
  2012年,Alexnet一鳴驚人,一舉摘得imagenet圖像識(shí)別類的冠軍,將圖像識(shí)別的正確率提升到85%。以CNN為核心的人工智能技術(shù),機(jī)器開始在計(jì)算機(jī)視覺(CV)等領(lǐng)域超越人類,開啟了AI 1.0時(shí)代。
 
  十年后,2022年底,ChatGPT橫空出世,建立在海量數(shù)據(jù)訓(xùn)練的基礎(chǔ)上,克服了單領(lǐng)域、多模型的限制,也打破了人類對(duì)于傳統(tǒng)NLP人機(jī)交互中“人工智障”的偏見,驅(qū)動(dòng)各行各業(yè)的AI 應(yīng)用進(jìn)入2.0時(shí)代。我們很幸運(yùn),可以在短短十年間,見證人工智能跨時(shí)代的兩個(gè)突破節(jié)點(diǎn)。
 
  
 
  從今年3月以來,AIGC與大模型產(chǎn)品幾乎是爆發(fā)式地推出,呈現(xiàn)出百花齊放之勢(shì),AI領(lǐng)域的模型更新已經(jīng)是按周來迭代。就在不久前, 將其LLama2的模型開放商用。模型越來越大,應(yīng)用越來越多。當(dāng)前國(guó)產(chǎn)大模型已經(jīng)達(dá)到108個(gè),正如水滸108好漢,人工智能領(lǐng)域自媒體走向未來甚至以“誰是36天罡?誰是72地煞?”為題評(píng)選出了百模爭(zhēng)霸排行榜。
 
  在剛剛閉幕的2023年世界半導(dǎo)體大會(huì)(WSCE)上,AI大算力芯片公司億鑄科技副總裁李明發(fā)表了題為《以存算一體架構(gòu)創(chuàng)新,迎AI 2.0時(shí)代》的演講。他預(yù)測(cè),最早在明年,國(guó)內(nèi)也可能初步形成MaaS(Model as a Servic,模型即服務(wù))四小龍的競(jìng)爭(zhēng)格局。就像在2014-2017年,基于CNN AI網(wǎng)絡(luò),國(guó)內(nèi)也曾形成了CV(機(jī)器視覺)應(yīng)用四小龍的競(jìng)爭(zhēng)格局,繼而引領(lǐng)了AI視覺領(lǐng)域數(shù)年的蓬勃發(fā)展。
 
  
 
  算力、能源雙重挑戰(zhàn)
 
  計(jì)算架構(gòu)創(chuàng)新是“解藥”
 
  生成式AI驚艷全世界的背后離不開超大算力的加持。最近,IDC、浪潮信息和清華大學(xué)全球產(chǎn)業(yè)研究院聯(lián)合發(fā)布了《2022-2023全球計(jì)算力指數(shù)評(píng)估報(bào)告》。報(bào)告指出,“計(jì)算力與經(jīng)濟(jì)增長(zhǎng)緊密相關(guān),計(jì)算力指數(shù)平均每提高1個(gè)點(diǎn),數(shù)字經(jīng)濟(jì)和GDP將分別增長(zhǎng)3.3‰和1.8‰”。首次揭示了算力即生產(chǎn)力的事實(shí)。
 
  眼下,transformer的劃時(shí)代革新,不但會(huì)促成AI向通用人工智能AGI領(lǐng)域發(fā)展,還會(huì)引領(lǐng)第二次AI應(yīng)用場(chǎng)景的爆發(fā)。而在此過程中,勢(shì)必會(huì)產(chǎn)生上千億美金的算力需求。
 
  據(jù)中國(guó)信通院等機(jī)構(gòu)的調(diào)研數(shù)據(jù),ChatGPT的單日運(yùn)營(yíng)算力消耗占整個(gè)2021年中國(guó)智能算力總規(guī)模的3%。而這只是Open AI的一個(gè)模型而已,如果中國(guó)的百大模型持續(xù)蓬勃發(fā)展,對(duì)國(guó)內(nèi)的智能算力要求將達(dá)到驚人的天文數(shù)字。
 
  “假設(shè)目前的ChatGPT3平均每張H100每秒可以生成6個(gè)tokens(FP16,參數(shù)350GB),在不考慮級(jí)聯(lián)或者模型稀疏化的前提下,假設(shè)每人每天提5個(gè)問題,每個(gè)問題會(huì)和GPT交互5次,每次消耗30個(gè)token,那么每人每天會(huì)消耗750個(gè)token,如果每天有1億人在線使用查詢,就需要約15萬顆H100芯片,僅僅H100卡的硬件成本會(huì)達(dá)到50億美金以上。如果計(jì)算系統(tǒng)成本的話,100億美金也很難覆蓋。” 李明補(bǔ)充道。
 
  算力需求不斷提升帶來的挑戰(zhàn)除了貴,還有費(fèi)電。在今年國(guó)際集成電路設(shè)計(jì)領(lǐng)域最高級(jí)別會(huì)議 ISSCC上,AMD全球CEO Lisa Su表示,目前實(shí)現(xiàn)Exascale(百億億次計(jì)算)的超級(jí)計(jì)算機(jī)功耗已經(jīng)到達(dá)2100萬瓦。而根據(jù)Green500的預(yù)計(jì),到2035年,實(shí)現(xiàn)Zettascale(十萬億億次計(jì)算)級(jí)別的一臺(tái)超級(jí)計(jì)算機(jī)的功率會(huì)達(dá)到500 MW,相當(dāng)于半個(gè)核電站的發(fā)電功率,到那時(shí),世界再多的核電站也難以支撐如此大電力的消耗。而2035年離我們也并不遙遠(yuǎn)。
 
  回到ChatGPT3的場(chǎng)景假設(shè),億鑄科技認(rèn)為,未來隨著大模型的普級(jí),如果有1億人同時(shí)在線,在線提問率提升到30%,每個(gè)promt占30個(gè)token的話,就差不多需要1700萬顆H100芯片來提供其推理算力,每顆H100的功耗在750W左右,該模型每天假設(shè)只運(yùn)行10個(gè)小時(shí),這些H100芯片所在的數(shù)據(jù)中心一年的耗電量將超過三峽大壩一年的發(fā)電量。
 
  從技術(shù)環(huán)境來看,未來數(shù)據(jù)量會(huì)越來越大、模型算法越來越復(fù)雜,算力要求越來越高,而支撐底層算力的摩爾定律卻幾近終結(jié)。巨大的剪刀差落在AI大算力芯片企業(yè)產(chǎn)業(yè)鏈的肩 上,從而帶來了巨大的壓力:比如有效算力的增長(zhǎng)率、軟件的編譯、數(shù)據(jù)的帶寬、存儲(chǔ)的成本、能效比、生產(chǎn)工藝等等。
 
  以AI云端推理卡為例,近年來由于工藝制程“卷不動(dòng)”等種種原因,成本、功耗、算力難以兼顧。目前國(guó)內(nèi)主流AI芯片廠商、初創(chuàng)企業(yè)紛紛謀求計(jì)算架構(gòu)創(chuàng)新,試圖找出兼顧性能、規(guī)模、能源利用率的方案,突破算力天花板。
 
  清華大學(xué)集成電路學(xué)院副院長(zhǎng)尹首一教授認(rèn)為,在當(dāng)前國(guó)際產(chǎn)業(yè)環(huán)境下,需要重新審視芯片算力公式,在可獲取的低世代成熟工藝下去尋找持續(xù)提升算力的新途徑,其中包括在芯片面積上探索先進(jìn)集成技術(shù)和先進(jìn)封裝技術(shù)發(fā)展的可能性,以及在算力方面更加聚焦新型計(jì)算架構(gòu)。
 
  存算一體乘風(fēng)起
 
  扶搖直上解困局
 
  存算一體化概念的提出最早可以追溯到上個(gè)世紀(jì)七十年代,斯坦福研究所的Kautz教授團(tuán)隊(duì)于1969年提出了存算一體化的概念,期望直接利用內(nèi)存做一些簡(jiǎn)單的計(jì)算,減少數(shù)據(jù)在處理器與存儲(chǔ)器之間的搬移。
 
  2016年的ISCA上,存算一體的相關(guān)論文開始出現(xiàn)。到了Micro 2017,英偉達(dá)、英特爾、微軟、三星、加州大學(xué)圣塔芭芭拉分校等都推出了他們的存算一體系統(tǒng)原型。世界上第一顆存算一體芯片在ISSCC 2018年首次出現(xiàn),今年已經(jīng)是存算一體芯片工程落地走過的第7個(gè)年頭了。
 
  近年來關(guān)于存算一體相關(guān)的報(bào)道、研究源源不斷涌現(xiàn)。學(xué)界,ISSCC上存算/近存相關(guān)的文章數(shù)量迅速增加:從20年的6篇上漲到23年的19篇;其中數(shù)字存內(nèi)計(jì)算,從21年被首次提出后,22年迅速增加到4篇。產(chǎn)界,巨頭紛紛布局存算一體,國(guó)內(nèi)陸陸續(xù)續(xù)也有近十幾家初創(chuàng)公司押注該架構(gòu),這“扶搖直上”的架勢(shì),不僅僅是因?yàn)榇嫠阋惑w是天生為AI大模型計(jì)算而生的一種架構(gòu),乘了大模型的“東風(fēng)”,更是因?yàn)樵摷軜?gòu)解決了長(zhǎng)久以來造成算力發(fā)展困局的根本原因——“存儲(chǔ)墻”。
 
  存算一體架構(gòu)是相對(duì)于傳統(tǒng)馮·諾伊曼架構(gòu)下的存算分離而言的。從技術(shù)理論的角度來看,要從阿姆達(dá)爾定律講起。阿姆達(dá)爾定律是硬件加速設(shè)計(jì)的基本定律。這個(gè)定律包括兩個(gè)因子,一個(gè)是加速器規(guī)模α,可以用先進(jìn)的工藝或者優(yōu)化設(shè)計(jì)去提升其工作頻率,疊加之后就形成了 “裸算力”;而另一個(gè)因子F則是在計(jì)算周期里數(shù)據(jù)訪存所占的百分比。
 
  IBM的科學(xué)家做過一個(gè)研究,在存算分離的馮·諾依曼架構(gòu)下,F(xiàn)值達(dá)到了90%以上,也就是每一次計(jì)算,數(shù)據(jù)搬運(yùn)訪存的時(shí)間超過90%,功耗也超過90%。這意味著即使現(xiàn)在用5nm,將來做到0.5nm;現(xiàn)在花1億做一顆芯片,將來花10億去做一顆芯片,可以提升的性能空間也只有10%。
 
  那么,如何減小F值呢?近存儲(chǔ)計(jì)算是一種途徑。例如,特斯拉的Dojo D1用近存儲(chǔ),如果能將F值降到0.2、0.3,這意味著即使工藝還是7nm,性能也會(huì)提升3-4倍。
 
  存內(nèi)計(jì)算則是更進(jìn)一步——億鑄科技希望通過存算一體(CIM)把F值降低到0.1以下,如此一來,未來芯片的性能提升將主要取決于工藝的提升和設(shè)計(jì)的優(yōu)化。
 
  存算一體超異構(gòu)
 
  開啟AI算力芯片換道發(fā)展之路
 
  據(jù)李明透露,億鑄早就已經(jīng)根據(jù)ReRAM(RRAM)的特性著手使用先進(jìn)異構(gòu)封裝的方式來實(shí)現(xiàn)系統(tǒng)級(jí)的芯片優(yōu)化方案;在今年3月,億鑄科技正式公布了存算一體超異構(gòu)芯片這一創(chuàng)新理念。它將會(huì)以存算一體(CIM)AI加速計(jì)算單元為核心,同時(shí)將不同的計(jì)算單元如GPGPU,CPU進(jìn)行3D異構(gòu)集成,以實(shí)現(xiàn)更大的AI算力以及更高的能效比,同時(shí)提供更為通用的軟件生態(tài),使得CIM AI大算力芯片真正滿足AI算力增長(zhǎng)第二曲線的需求,開啟一條AI大算力芯片換道發(fā)展之路。
 
  這顆存算一體芯片可實(shí)現(xiàn)基于75W功耗達(dá)到單芯片1P的算力,相比傳統(tǒng)馮·諾依曼架構(gòu)的AI推理芯片提升10倍左右的能效比,同時(shí)還能兼顧軟件通用性。
 
  李明表示,通過億鑄“四新一強(qiáng)”的整體優(yōu)勢(shì),也就是存算一體架構(gòu)創(chuàng)新、ReRAM新型憶阻器的應(yīng)用創(chuàng)新、全數(shù)字化技術(shù)路徑應(yīng)用創(chuàng)新、存算一體超異構(gòu)系統(tǒng)級(jí)創(chuàng)新以及極強(qiáng)的專業(yè)團(tuán)隊(duì)陣容,一定可以成為AI 2.0時(shí)代破局的一道光。