華科大人工智能與自動化學院“文行者”的“取經(jīng)”路!
華科大“文行者”的“取經(jīng)”路!
一只“猴子”
三般變化
十余師徒
行走在國產(chǎn)大模型的
漫漫“取經(jīng)”路上……
我校人工智能與自動化學院
“文行者”團隊
建立多模態(tài)大模型
通過差異化競爭領(lǐng)先大市場
“取經(jīng)”之路
危機四伏、困難重重
HUSTer們?nèi)绾?/div>
化險為夷、修成正果
讓我們一起來看——
多模態(tài)大模型Monkey的Logo
在10月中旬舉辦的中國國際大學生創(chuàng)新大賽(2024)總決賽中,“文行者”團隊憑借基于多模態(tài)大模型的文檔智能處理系統(tǒng)脫穎而出,獲得產(chǎn)業(yè)命題賽道金獎。

深耕數(shù)年換得厚積薄發(fā),三大分身聚焦垂直場景
多模態(tài)大模型是一類可以同時處理和整合多種感知數(shù)據(jù)(例如文本、圖像、音頻等)的AI架構(gòu),憑借其豐富的世界知識和出色的對話能力,多模態(tài)大模型能夠如同人類一樣深入理解和感知世界。
2022年,ChatGPT橫空出世,多模態(tài)大模型熱潮席卷全國,各大互聯(lián)網(wǎng)科技公司紛紛涌入該賽道,而各類大模型也在眾多場景中展現(xiàn)了驚人的能力。
事實上,在多模態(tài)大模型還沒有成為行業(yè)“風口”之前,“文行者”團隊就已經(jīng)在為文字大模型厲兵秣馬。從2011年到2020年,團隊十年埋首傳統(tǒng)文字視覺任務(wù);而在2021年至2024年,團隊轉(zhuǎn)向大模型領(lǐng)域,持續(xù)攻關(guān)并取得技術(shù)創(chuàng)新突破。
深耕文字領(lǐng)域14年,兌現(xiàn)的是團隊在國產(chǎn)文字大模型領(lǐng)域的厚積薄發(fā)。
2024年1月,在白翔、劉禹良兩位教授的指導下,團隊正式發(fā)布多模態(tài)大模型Monkey。它具有一種多層級的描述生成方法,通過依次對進行整體簡述、空間定位、模塊化識別、描述賦分選取和最終總結(jié),可大幅提升描述的準確性和豐富程度。Monkey也因此入選了CVPR 2024亮點論文和最具影響力論文Top20。
接下來的幾個月里,Monkey如同孫悟空,變換出三個分身——TextMonkey、PdfMonkey和MathMonkey。
這三個分身,是團隊利用Monkey在文字信息處理領(lǐng)域取得的重大突破。三款產(chǎn)品各自精準聚焦辦公信息智能處理、專業(yè)文檔智能理解和K12教育智能解題三個垂直場景,能夠?qū)崿F(xiàn)一個模型解決多場景多任務(wù)問題,通過差異化競爭領(lǐng)先市場。

團隊成員模擬路演
文字處理性能全面提高,核心技術(shù)回應(yīng)四大痛點
從數(shù)量上說,目前國內(nèi)基礎(chǔ)大模型研發(fā)機構(gòu)已超過全球其他國家的總和。但在質(zhì)量上,“學得少”“看不清”“看不長”和“解不透”四大痛點仍在制約現(xiàn)有大模型的文字處理性能。
針對難題,團隊交出了一份令人滿意的答卷。這份答卷用四大核心技術(shù)分別回應(yīng)了四大痛點,全方位提高項目的文字處理性能。
傳統(tǒng)大模型容易忽略細節(jié),而人工圖文數(shù)據(jù)標注成本高,導致大模型“學得少”。針對這個問題,團隊提出了多粒度數(shù)據(jù)自動生成技術(shù)。團隊用“無中生有”來形容這項技術(shù),即零人工成本生成細粒度、多模態(tài)、多樣化的高質(zhì)量數(shù)據(jù)。
面對密集細小文字,許多大模型很難清楚識別,這就是“看不清”。于是,團隊提出了動態(tài)增量高分辨率裁剪技術(shù)。“就是將一個完整的高分辨率圖像切分為多個小塊,然后將每個小塊依次輸入到模型中。”這項技術(shù)在不增加計算量的情況下,大幅提升了輸入的分辨率,讓Monkey真正意義上擁有了“火眼金睛”。
現(xiàn)有大模型輸入長度受限,長一點的文獻就無法理解,面向“看不長”的問題,團隊提出了長文檔稀疏采樣技術(shù)。在用戶輸入超多長頁文檔之后,Monkey會根據(jù)用戶提出的問題進行大規(guī)模相似性度量搜索,從而獲取與問題相關(guān)的重要信息塊。“刪繁就簡”的創(chuàng)新點,打破了傳統(tǒng)模型對輸入長度的限制,實現(xiàn)了對無限長文檔的高效處理。
傳統(tǒng)的解題大模型通常依賴大量題庫數(shù)據(jù)進行解題,對于題庫之外的幾何推理等復雜問題,大模型也“解不透”?;诖?,團隊提出了多步思維鏈推理矯正技術(shù),將Monkey“訓練”成了一只明思善辨的“猴子”。在解題過程中,Monkey不再機械地輸出,而是會實時進行自我反思、多步推理,大幅提升決策的準確性。

團隊成員與命題企業(yè)對接
團隊成員實地考察百度飛漿(武漢)中心
穩(wěn)扎穩(wěn)打團隊屢創(chuàng)佳績,人才培養(yǎng)機制持續(xù)優(yōu)化
參加中國國際大學生創(chuàng)新大賽、接下百度公司的產(chǎn)業(yè)命題、打造Monkey的三個分身、站在決賽的舞臺上……每一步,團隊都“做了充分的準備”。他們?nèi)諒鸵蝗瞻l(fā)現(xiàn)問題、查閱資料、詢問專家、嘗試求解,失敗了就換個方法重新再來、成功了就繼續(xù)尋找下一個問題。與此同時,人工智能與自動化學院和啟明學院也在持續(xù)提供支持和指導。小到項目說明中的文字細節(jié)、比賽中的后勤保障,大到實驗室資源、行業(yè)贊助,“學院可以說是有求必應(yīng)”。
“文行者”團隊是人工智能與自動化學院拔尖創(chuàng)新創(chuàng)業(yè)人才培養(yǎng)的縮影。近年來,人工智能與自動化學院始終秉持著培養(yǎng)學生創(chuàng)新意識、創(chuàng)業(yè)精神和實踐能力的初心,將創(chuàng)新創(chuàng)業(yè)教育貫穿人才培養(yǎng)全過程。未來,學院也將持續(xù)優(yōu)化創(chuàng)新創(chuàng)業(yè)管理機制,持續(xù)整合優(yōu)勢資源,建立專家?guī)?,搭建?chuàng)新創(chuàng)業(yè)更高平臺,為學生提供良好的創(chuàng)新和競賽平臺。
學院為參賽團隊提供專家指導
孫悟空歷經(jīng)九九八十一難最終修成正果,而對于躬耕文字大模型的“文行者”團隊來說,“正果”仍然在路上。未來,在大模型領(lǐng)域的角斗場上,團隊將要持續(xù)開源高質(zhì)量項目,突破國際閉源技術(shù)壁壘,把這條取經(jīng)路走得更寬、更遠、更長。
華中科技大學(ihuster)
來源/華科大新聞中心
我要收藏
點個贊吧
轉(zhuǎn)發(fā)分享
咨詢詳情:如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:人工智能微信群、自動化學院微信群、ChatGPT微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領(lǐng)域的定位宣傳語
微信聯(lián)盟:人工智能微信群、自動化學院微信群、ChatGPT微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領(lǐng)域的定位宣傳語


評論排行