亚洲av色色图片,www.一区二区三区

時間：2024-12-03 10:01:27 發(fā)布：tgy 來源：華中科技大學第一對焦：華中科技大學

　　【ZiDongHua之自動化學院派收錄關(guān)鍵詞：華中科技大學人工智能自動化學院 ChatGPT】

　　華科大“文行者”的“取經(jīng)”路！

　　一只“猴子”

　　三般變化

　　十余師徒

　　行走在國產(chǎn)大模型的

　　漫漫“取經(jīng)”路上……

　　我校人工智能與自動化學院

　　“文行者”團隊

　　建立多模態(tài)大模型

　　通過差異化競爭領(lǐng)先大市場

　　“取經(jīng)”之路

　　危機四伏、困難重重

　　HUSTer們?nèi)绾?/div>

　　化險為夷、修成正果

　　讓我們一起來看——

　　多模態(tài)大模型Monkey的Logo

　　在10月中旬舉辦的中國國際大學生創(chuàng)新大賽（2024）總決賽中，“文行者”團隊憑借基于多模態(tài)大模型的文檔智能處理系統(tǒng)脫穎而出，獲得產(chǎn)業(yè)命題賽道金獎。

　　深耕數(shù)年換得厚積薄發(fā)，三大分身聚焦垂直場景

　　多模態(tài)大模型是一類可以同時處理和整合多種感知數(shù)據(jù)（例如文本、圖像、音頻等）的AI架構(gòu)，憑借其豐富的世界知識和出色的對話能力，多模態(tài)大模型能夠如同人類一樣深入理解和感知世界。

　　2022年，ChatGPT橫空出世，多模態(tài)大模型熱潮席卷全國，各大互聯(lián)網(wǎng)科技公司紛紛涌入該賽道，而各類大模型也在眾多場景中展現(xiàn)了驚人的能力。

　　事實上，在多模態(tài)大模型還沒有成為行業(yè)“風口”之前，“文行者”團隊就已經(jīng)在為文字大模型厲兵秣馬。從2011年到2020年，團隊十年埋首傳統(tǒng)文字視覺任務(wù)；而在2021年至2024年，團隊轉(zhuǎn)向大模型領(lǐng)域，持續(xù)攻關(guān)并取得技術(shù)創(chuàng)新突破。

　　深耕文字領(lǐng)域14年，兌現(xiàn)的是團隊在國產(chǎn)文字大模型領(lǐng)域的厚積薄發(fā)。

　　2024年1月，在白翔、劉禹良兩位教授的指導下，團隊正式發(fā)布多模態(tài)大模型Monkey。它具有一種多層級的描述生成方法，通過依次對進行整體簡述、空間定位、模塊化識別、描述賦分選取和最終總結(jié)，可大幅提升描述的準確性和豐富程度。Monkey也因此入選了CVPR 2024亮點論文和最具影響力論文Top20。

　　接下來的幾個月里，Monkey如同孫悟空，變換出三個分身——TextMonkey、PdfMonkey和MathMonkey。

　　這三個分身，是團隊利用Monkey在文字信息處理領(lǐng)域取得的重大突破。三款產(chǎn)品各自精準聚焦辦公信息智能處理、專業(yè)文檔智能理解和K12教育智能解題三個垂直場景，能夠?qū)崿F(xiàn)一個模型解決多場景多任務(wù)問題，通過差異化競爭領(lǐng)先市場。

　　團隊成員模擬路演

　　文字處理性能全面提高，核心技術(shù)回應(yīng)四大痛點

　　從數(shù)量上說，目前國內(nèi)基礎(chǔ)大模型研發(fā)機構(gòu)已超過全球其他國家的總和。但在質(zhì)量上，“學得少”“看不清”“看不長”和“解不透”四大痛點仍在制約現(xiàn)有大模型的文字處理性能。

　　針對難題，團隊交出了一份令人滿意的答卷。這份答卷用四大核心技術(shù)分別回應(yīng)了四大痛點，全方位提高項目的文字處理性能。

　　傳統(tǒng)大模型容易忽略細節(jié)，而人工圖文數(shù)據(jù)標注成本高，導致大模型“學得少”。針對這個問題，團隊提出了多粒度數(shù)據(jù)自動生成技術(shù)。團隊用“無中生有”來形容這項技術(shù)，即零人工成本生成細粒度、多模態(tài)、多樣化的高質(zhì)量數(shù)據(jù)。

　　面對密集細小文字，許多大模型很難清楚識別，這就是“看不清”。于是，團隊提出了動態(tài)增量高分辨率裁剪技術(shù)。“就是將一個完整的高分辨率圖像切分為多個小塊，然后將每個小塊依次輸入到模型中。”這項技術(shù)在不增加計算量的情況下，大幅提升了輸入的分辨率，讓Monkey真正意義上擁有了“火眼金睛”。

　　現(xiàn)有大模型輸入長度受限，長一點的文獻就無法理解，面向“看不長”的問題，團隊提出了長文檔稀疏采樣技術(shù)。在用戶輸入超多長頁文檔之后，Monkey會根據(jù)用戶提出的問題進行大規(guī)模相似性度量搜索，從而獲取與問題相關(guān)的重要信息塊。“刪繁就簡”的創(chuàng)新點，打破了傳統(tǒng)模型對輸入長度的限制，實現(xiàn)了對無限長文檔的高效處理。

　　傳統(tǒng)的解題大模型通常依賴大量題庫數(shù)據(jù)進行解題，對于題庫之外的幾何推理等復雜問題，大模型也“解不透”?；诖?，團隊提出了多步思維鏈推理矯正技術(shù)，將Monkey“訓練”成了一只明思善辨的“猴子”。在解題過程中，Monkey不再機械地輸出，而是會實時進行自我反思、多步推理，大幅提升決策的準確性。

　　團隊成員與命題企業(yè)對接

　　團隊成員實地考察百度飛漿（武漢）中心

　　穩(wěn)扎穩(wěn)打團隊屢創(chuàng)佳績，人才培養(yǎng)機制持續(xù)優(yōu)化

　　參加中國國際大學生創(chuàng)新大賽、接下百度公司的產(chǎn)業(yè)命題、打造Monkey的三個分身、站在決賽的舞臺上……每一步，團隊都“做了充分的準備”。他們?nèi)諒鸵蝗瞻l(fā)現(xiàn)問題、查閱資料、詢問專家、嘗試求解，失敗了就換個方法重新再來、成功了就繼續(xù)尋找下一個問題。與此同時，人工智能與自動化學院和啟明學院也在持續(xù)提供支持和指導。小到項目說明中的文字細節(jié)、比賽中的后勤保障，大到實驗室資源、行業(yè)贊助，“學院可以說是有求必應(yīng)”。

　　“文行者”團隊是人工智能與自動化學院拔尖創(chuàng)新創(chuàng)業(yè)人才培養(yǎng)的縮影。近年來，人工智能與自動化學院始終秉持著培養(yǎng)學生創(chuàng)新意識、創(chuàng)業(yè)精神和實踐能力的初心，將創(chuàng)新創(chuàng)業(yè)教育貫穿人才培養(yǎng)全過程。未來，學院也將持續(xù)優(yōu)化創(chuàng)新創(chuàng)業(yè)管理機制，持續(xù)整合優(yōu)勢資源，建立專家?guī)?，搭建?chuàng)新創(chuàng)業(yè)更高平臺，為學生提供良好的創(chuàng)新和競賽平臺。

　　學院為參賽團隊提供專家指導

　　孫悟空歷經(jīng)九九八十一難最終修成正果，而對于躬耕文字大模型的“文行者”團隊來說，“正果”仍然在路上。未來，在大模型領(lǐng)域的角斗場上，團隊將要持續(xù)開源高質(zhì)量項目，突破國際閉源技術(shù)壁壘，把這條取經(jīng)路走得更寬、更遠、更長。

　　華中科技大學（ihuster）

　　來源/華科大新聞中心

我要收藏

點個贊吧

自動對焦：人工智能自動化學院 ChatGPT

咨詢詳情：如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情，請加微信：ZiDongHuaX 。

微信聯(lián)盟：人工智能微信群、自動化學院微信群、ChatGPT微信群，各細分行業(yè)微信群：點擊這里進入。

鴻達安視：水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器　　　　　　查看各品牌在細分領(lǐng)域的定位宣傳語