華科大人工智能與自動(dòng)化學(xué)院“文行者”的“取經(jīng)”路!
華科大“文行者”的“取經(jīng)”路!
一只“猴子”
三般變化
十余師徒
行走在國產(chǎn)大模型的
漫漫“取經(jīng)”路上……
我校人工智能與自動(dòng)化學(xué)院
“文行者”團(tuán)隊(duì)
建立多模態(tài)大模型
通過差異化競(jìng)爭(zhēng)領(lǐng)先大市場(chǎng)
“取經(jīng)”之路
危機(jī)四伏、困難重重
HUSTer們?nèi)绾?/div>
化險(xiǎn)為夷、修成正果
讓我們一起來看——
多模態(tài)大模型Monkey的Logo
在10月中旬舉辦的中國國際大學(xué)生創(chuàng)新大賽(2024)總決賽中,“文行者”團(tuán)隊(duì)?wèi){借基于多模態(tài)大模型的文檔智能處理系統(tǒng)脫穎而出,獲得產(chǎn)業(yè)命題賽道金獎(jiǎng)。

深耕數(shù)年換得厚積薄發(fā),三大分身聚焦垂直場(chǎng)景
多模態(tài)大模型是一類可以同時(shí)處理和整合多種感知數(shù)據(jù)(例如文本、圖像、音頻等)的AI架構(gòu),憑借其豐富的世界知識(shí)和出色的對(duì)話能力,多模態(tài)大模型能夠如同人類一樣深入理解和感知世界。
2022年,ChatGPT橫空出世,多模態(tài)大模型熱潮席卷全國,各大互聯(lián)網(wǎng)科技公司紛紛涌入該賽道,而各類大模型也在眾多場(chǎng)景中展現(xiàn)了驚人的能力。
事實(shí)上,在多模態(tài)大模型還沒有成為行業(yè)“風(fēng)口”之前,“文行者”團(tuán)隊(duì)就已經(jīng)在為文字大模型厲兵秣馬。從2011年到2020年,團(tuán)隊(duì)十年埋首傳統(tǒng)文字視覺任務(wù);而在2021年至2024年,團(tuán)隊(duì)轉(zhuǎn)向大模型領(lǐng)域,持續(xù)攻關(guān)并取得技術(shù)創(chuàng)新突破。
深耕文字領(lǐng)域14年,兌現(xiàn)的是團(tuán)隊(duì)在國產(chǎn)文字大模型領(lǐng)域的厚積薄發(fā)。
2024年1月,在白翔、劉禹良兩位教授的指導(dǎo)下,團(tuán)隊(duì)正式發(fā)布多模態(tài)大模型Monkey。它具有一種多層級(jí)的描述生成方法,通過依次對(duì)進(jìn)行整體簡(jiǎn)述、空間定位、模塊化識(shí)別、描述賦分選取和最終總結(jié),可大幅提升描述的準(zhǔn)確性和豐富程度。Monkey也因此入選了CVPR 2024亮點(diǎn)論文和最具影響力論文Top20。
接下來的幾個(gè)月里,Monkey如同孫悟空,變換出三個(gè)分身——TextMonkey、PdfMonkey和MathMonkey。
這三個(gè)分身,是團(tuán)隊(duì)利用Monkey在文字信息處理領(lǐng)域取得的重大突破。三款產(chǎn)品各自精準(zhǔn)聚焦辦公信息智能處理、專業(yè)文檔智能理解和K12教育智能解題三個(gè)垂直場(chǎng)景,能夠?qū)崿F(xiàn)一個(gè)模型解決多場(chǎng)景多任務(wù)問題,通過差異化競(jìng)爭(zhēng)領(lǐng)先市場(chǎng)。

團(tuán)隊(duì)成員模擬路演
文字處理性能全面提高,核心技術(shù)回應(yīng)四大痛點(diǎn)
從數(shù)量上說,目前國內(nèi)基礎(chǔ)大模型研發(fā)機(jī)構(gòu)已超過全球其他國家的總和。但在質(zhì)量上,“學(xué)得少”“看不清”“看不長”和“解不透”四大痛點(diǎn)仍在制約現(xiàn)有大模型的文字處理性能。
針對(duì)難題,團(tuán)隊(duì)交出了一份令人滿意的答卷。這份答卷用四大核心技術(shù)分別回應(yīng)了四大痛點(diǎn),全方位提高項(xiàng)目的文字處理性能。
傳統(tǒng)大模型容易忽略細(xì)節(jié),而人工圖文數(shù)據(jù)標(biāo)注成本高,導(dǎo)致大模型“學(xué)得少”。針對(duì)這個(gè)問題,團(tuán)隊(duì)提出了多粒度數(shù)據(jù)自動(dòng)生成技術(shù)。團(tuán)隊(duì)用“無中生有”來形容這項(xiàng)技術(shù),即零人工成本生成細(xì)粒度、多模態(tài)、多樣化的高質(zhì)量數(shù)據(jù)。
面對(duì)密集細(xì)小文字,許多大模型很難清楚識(shí)別,這就是“看不清”。于是,團(tuán)隊(duì)提出了動(dòng)態(tài)增量高分辨率裁剪技術(shù)。“就是將一個(gè)完整的高分辨率圖像切分為多個(gè)小塊,然后將每個(gè)小塊依次輸入到模型中。”這項(xiàng)技術(shù)在不增加計(jì)算量的情況下,大幅提升了輸入的分辨率,讓Monkey真正意義上擁有了“火眼金睛”。
現(xiàn)有大模型輸入長度受限,長一點(diǎn)的文獻(xiàn)就無法理解,面向“看不長”的問題,團(tuán)隊(duì)提出了長文檔稀疏采樣技術(shù)。在用戶輸入超多長頁文檔之后,Monkey會(huì)根據(jù)用戶提出的問題進(jìn)行大規(guī)模相似性度量搜索,從而獲取與問題相關(guān)的重要信息塊。“刪繁就簡(jiǎn)”的創(chuàng)新點(diǎn),打破了傳統(tǒng)模型對(duì)輸入長度的限制,實(shí)現(xiàn)了對(duì)無限長文檔的高效處理。
傳統(tǒng)的解題大模型通常依賴大量題庫數(shù)據(jù)進(jìn)行解題,對(duì)于題庫之外的幾何推理等復(fù)雜問題,大模型也“解不透”?;诖?,團(tuán)隊(duì)提出了多步思維鏈推理矯正技術(shù),將Monkey“訓(xùn)練”成了一只明思善辨的“猴子”。在解題過程中,Monkey不再機(jī)械地輸出,而是會(huì)實(shí)時(shí)進(jìn)行自我反思、多步推理,大幅提升決策的準(zhǔn)確性。

團(tuán)隊(duì)成員與命題企業(yè)對(duì)接
團(tuán)隊(duì)成員實(shí)地考察百度飛漿(武漢)中心
穩(wěn)扎穩(wěn)打團(tuán)隊(duì)屢創(chuàng)佳績(jī),人才培養(yǎng)機(jī)制持續(xù)優(yōu)化
參加中國國際大學(xué)生創(chuàng)新大賽、接下百度公司的產(chǎn)業(yè)命題、打造Monkey的三個(gè)分身、站在決賽的舞臺(tái)上……每一步,團(tuán)隊(duì)都“做了充分的準(zhǔn)備”。他們?nèi)諒?fù)一日發(fā)現(xiàn)問題、查閱資料、詢問專家、嘗試求解,失敗了就換個(gè)方法重新再來、成功了就繼續(xù)尋找下一個(gè)問題。與此同時(shí),人工智能與自動(dòng)化學(xué)院和啟明學(xué)院也在持續(xù)提供支持和指導(dǎo)。小到項(xiàng)目說明中的文字細(xì)節(jié)、比賽中的后勤保障,大到實(shí)驗(yàn)室資源、行業(yè)贊助,“學(xué)院可以說是有求必應(yīng)”。
“文行者”團(tuán)隊(duì)是人工智能與自動(dòng)化學(xué)院拔尖創(chuàng)新創(chuàng)業(yè)人才培養(yǎng)的縮影。近年來,人工智能與自動(dòng)化學(xué)院始終秉持著培養(yǎng)學(xué)生創(chuàng)新意識(shí)、創(chuàng)業(yè)精神和實(shí)踐能力的初心,將創(chuàng)新創(chuàng)業(yè)教育貫穿人才培養(yǎng)全過程。未來,學(xué)院也將持續(xù)優(yōu)化創(chuàng)新創(chuàng)業(yè)管理機(jī)制,持續(xù)整合優(yōu)勢(shì)資源,建立專家?guī)欤罱▌?chuàng)新創(chuàng)業(yè)更高平臺(tái),為學(xué)生提供良好的創(chuàng)新和競(jìng)賽平臺(tái)。
學(xué)院為參賽團(tuán)隊(duì)提供專家指導(dǎo)
孫悟空歷經(jīng)九九八十一難最終修成正果,而對(duì)于躬耕文字大模型的“文行者”團(tuán)隊(duì)來說,“正果”仍然在路上。未來,在大模型領(lǐng)域的角斗場(chǎng)上,團(tuán)隊(duì)將要持續(xù)開源高質(zhì)量項(xiàng)目,突破國際閉源技術(shù)壁壘,把這條取經(jīng)路走得更寬、更遠(yuǎn)、更長。
華中科技大學(xué)(ihuster)
來源/華科大新聞中心
我要收藏
點(diǎn)個(gè)贊吧
轉(zhuǎn)發(fā)分享
咨詢?cè)斍椋?/strong>如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請(qǐng)加微信:ZiDongHuaX 。
微信聯(lián)盟:人工智能微信群、自動(dòng)化學(xué)院微信群、ChatGPT微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語
微信聯(lián)盟:人工智能微信群、自動(dòng)化學(xué)院微信群、ChatGPT微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語


評(píng)論排行