多模態(tài)大模型——通用人工智能路徑的探索

“紫東太初”跨模態(tài)通用人工智能平臺(tái)以多模態(tài)大模型為核心,基于全棧國(guó)產(chǎn)化基礎(chǔ)軟硬件平臺(tái),可支撐全場(chǎng)景AI應(yīng)用。
多模態(tài)預(yù)訓(xùn)練模型被廣泛認(rèn)為是從限定領(lǐng)域的弱人工智能邁向通用人工智能路徑的探索。自動(dòng)化所“紫東太初”跨模態(tài)通用人工智能平臺(tái)瞄準(zhǔn)成為實(shí)現(xiàn)通用人工智能的開(kāi)天之斧,在智能世界混沌初開(kāi)之際開(kāi)辟新局。
依托面向超大規(guī)模的高效分布式訓(xùn)練框架,自動(dòng)化所構(gòu)建了具有業(yè)界領(lǐng)先性能的中文預(yù)訓(xùn)練模型、語(yǔ)音預(yù)訓(xùn)練模型、視覺(jué)預(yù)訓(xùn)練模型,并開(kāi)拓性地通過(guò)跨模態(tài)語(yǔ)義關(guān)聯(lián)實(shí)現(xiàn)了視覺(jué)-文本-語(yǔ)音三模態(tài)統(tǒng)一表示,構(gòu)建了三模態(tài)預(yù)訓(xùn)練大模型,賦予跨模態(tài)通用人工智能平臺(tái)多種核心能力。
“紫東太初”兼具跨模態(tài)理解和生成能力。與單模態(tài)和圖文兩模態(tài)相比,其采用一個(gè)大模型就可以靈活支撐圖-文-音全場(chǎng)景AI應(yīng)用,具有了在無(wú)監(jiān)督情況下多任務(wù)聯(lián)合學(xué)習(xí)、并快速遷移到不同領(lǐng)域數(shù)據(jù)的強(qiáng)大能力。引入語(yǔ)音模態(tài)后的多模態(tài)預(yù)訓(xùn)練模型,可實(shí)現(xiàn)共性圖文音語(yǔ)義空間表征和利用,并突破性地直接實(shí)現(xiàn)三模態(tài)的統(tǒng)一表示。特別地首次使“以圖生音”和“以音生圖”成為現(xiàn)實(shí),對(duì)更廣泛、更多樣的下游任務(wù)提供模型基礎(chǔ)支撐,達(dá)成AI在如視頻配音、語(yǔ)音播報(bào)、標(biāo)題摘要、海報(bào)創(chuàng)作等更多元場(chǎng)景的應(yīng)用。
此外,自動(dòng)化所研發(fā)團(tuán)隊(duì)還提出了弱關(guān)聯(lián)三模態(tài)數(shù)據(jù)的語(yǔ)義統(tǒng)一表達(dá),可同時(shí)支持三種或任兩種模態(tài)弱關(guān)聯(lián)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,有效降低了多模態(tài)數(shù)據(jù)收集與清洗成本。
總結(jié)來(lái)說(shuō),此跨模態(tài)通用人工智能平臺(tái)包括三大關(guān)鍵技術(shù)和六大核心能力。三大關(guān)鍵技術(shù)為多模態(tài)理解與生成的多任務(wù)統(tǒng)一建模、面向國(guó)產(chǎn)化軟硬件的高效訓(xùn)練與部署、多模態(tài)預(yù)訓(xùn)練模型架構(gòu)設(shè)計(jì)與優(yōu)化。六大核心能力則體現(xiàn)為多模態(tài)統(tǒng)一表示與語(yǔ)義關(guān)聯(lián)、跨模態(tài)內(nèi)容轉(zhuǎn)化與生成、預(yù)訓(xùn)練模型網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、標(biāo)注受限自監(jiān)督模型學(xué)習(xí)、模型適配與分布式訓(xùn)練、模型輕量化與推理加速。
會(huì)上,徐波所長(zhǎng)展示了基于“紫東太初”平臺(tái)打造的虛擬人“小初”,并進(jìn)行通用多模態(tài)大模型的人機(jī)對(duì)話演示,展示了不同模態(tài)間的互相轉(zhuǎn)換和生成實(shí)例,涵蓋視頻描述、智能問(wèn)答、圖像檢索、吟詩(shī)作賦、中文續(xù)寫(xiě)、雙語(yǔ)翻譯、語(yǔ)音識(shí)別等多個(gè)功能。生動(dòng)證明,通過(guò)圖文音三模態(tài)的關(guān)聯(lián)與協(xié)同可以有效地提升機(jī)器的理解和生成能力,讓AI接近人類想象力!
人機(jī)對(duì)話演示
多模態(tài)大模型具備對(duì)豐富圖文音的理解能力,與單模態(tài)的GPT3不同,交流更加生動(dòng)自然流暢
徐波所長(zhǎng)表示,“大數(shù)據(jù)+大模型+多模態(tài)”將改變當(dāng)前單一模型對(duì)應(yīng)單一任務(wù)的人工智能研發(fā)范式,多模態(tài)大模型將成為不同領(lǐng)域的共性平臺(tái)技術(shù),是邁向通用人工智能路徑的探索,具有廣闊的應(yīng)用前景。同時(shí),全棧國(guó)產(chǎn)化通用人工智能平臺(tái)的實(shí)踐將使人工智能研發(fā)的規(guī)則發(fā)生重大變革并逐漸形成壁壘,對(duì)我國(guó)實(shí)現(xiàn)AI領(lǐng)域科技創(chuàng)新、占領(lǐng)核心技術(shù)高地具有重要的戰(zhàn)略意義。
微信聯(lián)盟:徐波微信群、人工智能微信群、世界人工智能大會(huì)微信群、多模態(tài)大模型微信群、模式識(shí)別微信群、通用人工智能微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語(yǔ)


評(píng)論排行