第五屆CSIG圖像圖形技術(shù)挑戰(zhàn)賽季軍團(tuán)隊(duì)介紹
【ZiDongHua之會(huì)展賽培壇收錄關(guān)鍵詞:圖像圖形 人工智能 大模型】
【競(jìng)賽】第五屆CSIG圖像圖形技術(shù)挑戰(zhàn)賽季軍團(tuán)隊(duì)介紹
獲得本屆CSIG圖像圖形技術(shù)挑戰(zhàn)賽總決賽季軍的團(tuán)隊(duì)是“中文文本智能校對(duì)大賽”賽道冠軍蘇州大學(xué)“黑模型·樂(lè)改”團(tuán)隊(duì)。
01
賽道介紹
隨著人工智能技術(shù)的迅猛發(fā)展,其在各行各業(yè)的應(yīng)用不斷深化,對(duì)經(jīng)濟(jì)社會(huì)的影響日益顯著。如何打通產(chǎn)學(xué)研體系,深入行業(yè)應(yīng)用的技術(shù)難題,為人工智能產(chǎn)業(yè)輸入源源不斷的人才,是行業(yè)關(guān)注焦點(diǎn)。通過(guò)大賽聚焦關(guān)鍵問(wèn)題、探索解決方案,成為行業(yè)趨勢(shì)。
尤其在校對(duì)領(lǐng)域,人工智能對(duì)中文校對(duì)應(yīng)用的能力升級(jí)方面扮演了關(guān)鍵角色,特別是在提升校對(duì)效率、準(zhǔn)確性和個(gè)性化服務(wù)上有著突出的增強(qiáng)作用。
在中國(guó)圖象圖形學(xué)學(xué)會(huì)主辦的CSIG圖像圖形技術(shù)挑戰(zhàn)賽系列賽事中,金山辦公承辦了中文文本智能校對(duì)大賽。根據(jù)賽制,個(gè)人或者團(tuán)隊(duì)參賽者可以構(gòu)建一個(gè)完整的AI算法參與挑戰(zhàn)賽。主辦方使用ChERRANT評(píng)估校對(duì)算法效果,通過(guò)對(duì)比預(yù)測(cè)編輯和標(biāo)準(zhǔn)編輯,計(jì)算預(yù)測(cè)結(jié)果的精確度、召回度、F值指標(biāo),評(píng)估糾錯(cuò)模型的性能,并使用字級(jí)別的F0.5指標(biāo)作為最終評(píng)判結(jié)果。
為提高賽事的挑戰(zhàn)性,金山辦公發(fā)布了貼近真實(shí)使用場(chǎng)景的比賽數(shù)據(jù),以反映用戶(hù)在日常生活中常見(jiàn)的錯(cuò)誤類(lèi)型。金山辦公希望通過(guò)賽事讓高校開(kāi)發(fā)者能夠?qū)W以致用,以工程思維踐行產(chǎn)學(xué)研融合,實(shí)現(xiàn)從技術(shù)研究到應(yīng)用實(shí)踐的跨越。
此次比賽共吸引67所高校、338支隊(duì)伍,累計(jì)548人參賽。最終,四支參賽隊(duì)伍獲得大賽的一二三等獎(jiǎng)以及豐厚的現(xiàn)金獎(jiǎng)勵(lì)。其中,本隊(duì)伍(蘇州大學(xué)“黑模型·樂(lè)改”團(tuán)隊(duì))憑借一種全新的無(wú)需訓(xùn)練的拼寫(xiě)糾錯(cuò)方法獲得大賽冠軍。

圖1金山辦公為冠軍團(tuán)隊(duì)頒獎(jiǎng)
02
參賽方案
本隊(duì)伍提交方案可分別三大模塊:字詞錯(cuò)誤糾正、句法錯(cuò)誤糾正、結(jié)果合并與后處理。
1.字詞錯(cuò)誤糾正:本模塊中我們嘗試同時(shí)建模拼寫(xiě)和多字少字這些字詞錯(cuò)誤。其中無(wú)訓(xùn)練大模型建模是我們提出的全新方案,效果非常好,通過(guò)對(duì)大模型解碼過(guò)程的控制,可以使大模型在不經(jīng)過(guò)任何訓(xùn)練的情況下,就擁有出色的字詞錯(cuò)誤修改能力。該方案單個(gè)模型在主辦方提供的LabelData數(shù)據(jù)集上可以取得0.7844的F0.5,性能遠(yuǎn)超經(jīng)過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練的傳統(tǒng)拼寫(xiě)糾錯(cuò)模型。

圖2無(wú)訓(xùn)練大模型字詞糾錯(cuò)方法
2.句法錯(cuò)誤糾正:在句法糾錯(cuò)方面,我們使用Lora方法訓(xùn)練了大模型,同時(shí)全參微調(diào)了中小模型(Bart、Bert),并在最后通過(guò)投票集成的方式,同時(shí)利用這兩種模型來(lái)提高最終結(jié)果。
3.結(jié)果合并與后處理:考慮到在實(shí)踐中,字詞錯(cuò)誤的識(shí)別和糾錯(cuò)相對(duì)容易,而語(yǔ)法錯(cuò)誤更復(fù)雜,識(shí)別和糾錯(cuò)的難度更高,因此在合并不同模型的糾錯(cuò)結(jié)果時(shí),我們首先考慮字詞錯(cuò)誤的結(jié)果,如果句子中沒(méi)有發(fā)現(xiàn)字詞錯(cuò)誤,則認(rèn)為句子中不存在字詞錯(cuò)誤,應(yīng)該采納語(yǔ)法錯(cuò)誤的糾錯(cuò)結(jié)果。在對(duì)結(jié)果合并后,我們通過(guò)定義規(guī)則的方式來(lái)對(duì)結(jié)果進(jìn)行優(yōu)化,如根據(jù)國(guó)家語(yǔ)委刊發(fā)的《異形詞整理表》來(lái)替換結(jié)果中殘余的異形詞,同時(shí)利用掩碼語(yǔ)言模型來(lái)對(duì)結(jié)果中的“的/地/得”進(jìn)行相應(yīng)處理。
此外,本隊(duì)伍還使用了一些數(shù)據(jù)增廣策略,對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充,我們分別在悟道語(yǔ)料庫(kù)、大模型續(xù)寫(xiě)語(yǔ)料上基于規(guī)則,以字/詞為基本單位,對(duì)句子進(jìn)行隨機(jī)的替換、刪除、添加操作,結(jié)合混淆集,同音、形近詞表生成基礎(chǔ)的拼寫(xiě)錯(cuò)誤。
03
總結(jié)
在本次比賽中,我們?cè)谇叭吮荣惖慕?jīng)驗(yàn)上進(jìn)行了進(jìn)一步的探索。首先,我們提出了全新的無(wú)訓(xùn)練大模型建模方案,通過(guò)對(duì)大模型解碼過(guò)程的控制,可以實(shí)現(xiàn)在不經(jīng)過(guò)任何訓(xùn)練的情況下,將任何有漢語(yǔ)生成能力的模型改造成一個(gè)字詞錯(cuò)誤識(shí)別和糾正模型。該方案在比賽中取得了最好的效果,表現(xiàn)出了極為優(yōu)秀的泛化能力。
此外我們還采用了有監(jiān)督訓(xùn)練的模型來(lái)對(duì)無(wú)訓(xùn)練大模型建模方案進(jìn)行補(bǔ)充。在訓(xùn)練有監(jiān)督模型時(shí),我們創(chuàng)新性地提出了運(yùn)用大模型的續(xù)寫(xiě)能力來(lái)合成數(shù)據(jù)集,從而保證合成數(shù)據(jù)的領(lǐng)域與目標(biāo)數(shù)據(jù)集一致。同時(shí)還兼具時(shí)效性。這些合成數(shù)據(jù)有效地提升了有監(jiān)督模型,尤其是小模型在目標(biāo)數(shù)據(jù)集上的表現(xiàn)。
最終,我們通過(guò)投票集成的方式,同時(shí)利用無(wú)訓(xùn)練大模型建模方案和有監(jiān)督模型,取得了第一名的好成績(jī)。
我要收藏
點(diǎn)個(gè)贊吧
轉(zhuǎn)發(fā)分享
咨詢(xún)?cè)斍椋?/strong>如需咨詢(xún)文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請(qǐng)加微信:ZiDongHuaX 。
微信聯(lián)盟:人工智能微信群、大模型微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線(xiàn)監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線(xiàn)監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語(yǔ)
微信聯(lián)盟:人工智能微信群、大模型微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線(xiàn)監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線(xiàn)監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語(yǔ)


評(píng)論排行