第五屆CSIG圖像圖形技術(shù)挑戰(zhàn)賽季軍團(tuán)隊(duì)介紹
【ZiDongHua之會展賽培壇收錄關(guān)鍵詞:圖像圖形 人工智能 大模型】
【競賽】第五屆CSIG圖像圖形技術(shù)挑戰(zhàn)賽季軍團(tuán)隊(duì)介紹
獲得本屆CSIG圖像圖形技術(shù)挑戰(zhàn)賽總決賽季軍的團(tuán)隊(duì)是“中文文本智能校對大賽”賽道冠軍蘇州大學(xué)“黑模型·樂改”團(tuán)隊(duì)。
01
賽道介紹
隨著人工智能技術(shù)的迅猛發(fā)展,其在各行各業(yè)的應(yīng)用不斷深化,對經(jīng)濟(jì)社會的影響日益顯著。如何打通產(chǎn)學(xué)研體系,深入行業(yè)應(yīng)用的技術(shù)難題,為人工智能產(chǎn)業(yè)輸入源源不斷的人才,是行業(yè)關(guān)注焦點(diǎn)。通過大賽聚焦關(guān)鍵問題、探索解決方案,成為行業(yè)趨勢。
尤其在校對領(lǐng)域,人工智能對中文校對應(yīng)用的能力升級方面扮演了關(guān)鍵角色,特別是在提升校對效率、準(zhǔn)確性和個(gè)性化服務(wù)上有著突出的增強(qiáng)作用。
在中國圖象圖形學(xué)學(xué)會主辦的CSIG圖像圖形技術(shù)挑戰(zhàn)賽系列賽事中,金山辦公承辦了中文文本智能校對大賽。根據(jù)賽制,個(gè)人或者團(tuán)隊(duì)參賽者可以構(gòu)建一個(gè)完整的AI算法參與挑戰(zhàn)賽。主辦方使用ChERRANT評估校對算法效果,通過對比預(yù)測編輯和標(biāo)準(zhǔn)編輯,計(jì)算預(yù)測結(jié)果的精確度、召回度、F值指標(biāo),評估糾錯(cuò)模型的性能,并使用字級別的F0.5指標(biāo)作為最終評判結(jié)果。
為提高賽事的挑戰(zhàn)性,金山辦公發(fā)布了貼近真實(shí)使用場景的比賽數(shù)據(jù),以反映用戶在日常生活中常見的錯(cuò)誤類型。金山辦公希望通過賽事讓高校開發(fā)者能夠?qū)W以致用,以工程思維踐行產(chǎn)學(xué)研融合,實(shí)現(xiàn)從技術(shù)研究到應(yīng)用實(shí)踐的跨越。
此次比賽共吸引67所高校、338支隊(duì)伍,累計(jì)548人參賽。最終,四支參賽隊(duì)伍獲得大賽的一二三等獎(jiǎng)以及豐厚的現(xiàn)金獎(jiǎng)勵(lì)。其中,本隊(duì)伍(蘇州大學(xué)“黑模型·樂改”團(tuán)隊(duì))憑借一種全新的無需訓(xùn)練的拼寫糾錯(cuò)方法獲得大賽冠軍。

圖1金山辦公為冠軍團(tuán)隊(duì)頒獎(jiǎng)
02
參賽方案
本隊(duì)伍提交方案可分別三大模塊:字詞錯(cuò)誤糾正、句法錯(cuò)誤糾正、結(jié)果合并與后處理。
1.字詞錯(cuò)誤糾正:本模塊中我們嘗試同時(shí)建模拼寫和多字少字這些字詞錯(cuò)誤。其中無訓(xùn)練大模型建模是我們提出的全新方案,效果非常好,通過對大模型解碼過程的控制,可以使大模型在不經(jīng)過任何訓(xùn)練的情況下,就擁有出色的字詞錯(cuò)誤修改能力。該方案單個(gè)模型在主辦方提供的LabelData數(shù)據(jù)集上可以取得0.7844的F0.5,性能遠(yuǎn)超經(jīng)過大規(guī)模數(shù)據(jù)訓(xùn)練的傳統(tǒng)拼寫糾錯(cuò)模型。

圖2無訓(xùn)練大模型字詞糾錯(cuò)方法
2.句法錯(cuò)誤糾正:在句法糾錯(cuò)方面,我們使用Lora方法訓(xùn)練了大模型,同時(shí)全參微調(diào)了中小模型(Bart、Bert),并在最后通過投票集成的方式,同時(shí)利用這兩種模型來提高最終結(jié)果。
3.結(jié)果合并與后處理:考慮到在實(shí)踐中,字詞錯(cuò)誤的識別和糾錯(cuò)相對容易,而語法錯(cuò)誤更復(fù)雜,識別和糾錯(cuò)的難度更高,因此在合并不同模型的糾錯(cuò)結(jié)果時(shí),我們首先考慮字詞錯(cuò)誤的結(jié)果,如果句子中沒有發(fā)現(xiàn)字詞錯(cuò)誤,則認(rèn)為句子中不存在字詞錯(cuò)誤,應(yīng)該采納語法錯(cuò)誤的糾錯(cuò)結(jié)果。在對結(jié)果合并后,我們通過定義規(guī)則的方式來對結(jié)果進(jìn)行優(yōu)化,如根據(jù)國家語委刊發(fā)的《異形詞整理表》來替換結(jié)果中殘余的異形詞,同時(shí)利用掩碼語言模型來對結(jié)果中的“的/地/得”進(jìn)行相應(yīng)處理。
此外,本隊(duì)伍還使用了一些數(shù)據(jù)增廣策略,對數(shù)據(jù)進(jìn)行擴(kuò)充,我們分別在悟道語料庫、大模型續(xù)寫語料上基于規(guī)則,以字/詞為基本單位,對句子進(jìn)行隨機(jī)的替換、刪除、添加操作,結(jié)合混淆集,同音、形近詞表生成基礎(chǔ)的拼寫錯(cuò)誤。
03
總結(jié)
在本次比賽中,我們在前人比賽的經(jīng)驗(yàn)上進(jìn)行了進(jìn)一步的探索。首先,我們提出了全新的無訓(xùn)練大模型建模方案,通過對大模型解碼過程的控制,可以實(shí)現(xiàn)在不經(jīng)過任何訓(xùn)練的情況下,將任何有漢語生成能力的模型改造成一個(gè)字詞錯(cuò)誤識別和糾正模型。該方案在比賽中取得了最好的效果,表現(xiàn)出了極為優(yōu)秀的泛化能力。
此外我們還采用了有監(jiān)督訓(xùn)練的模型來對無訓(xùn)練大模型建模方案進(jìn)行補(bǔ)充。在訓(xùn)練有監(jiān)督模型時(shí),我們創(chuàng)新性地提出了運(yùn)用大模型的續(xù)寫能力來合成數(shù)據(jù)集,從而保證合成數(shù)據(jù)的領(lǐng)域與目標(biāo)數(shù)據(jù)集一致。同時(shí)還兼具時(shí)效性。這些合成數(shù)據(jù)有效地提升了有監(jiān)督模型,尤其是小模型在目標(biāo)數(shù)據(jù)集上的表現(xiàn)。
最終,我們通過投票集成的方式,同時(shí)利用無訓(xùn)練大模型建模方案和有監(jiān)督模型,取得了第一名的好成績。
我要收藏
點(diǎn)個(gè)贊吧
轉(zhuǎn)發(fā)分享
咨詢詳情:如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:人工智能微信群、大模型微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語
微信聯(lián)盟:人工智能微信群、大模型微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語


評論排行