第五屆CSIG圖像圖形技術(shù)挑戰(zhàn)賽季軍團(tuán)隊(duì)介紹

時(shí)間：2025-01-06 15:54:03 發(fā)布：tgy 來源：中國圖象圖形學(xué)學(xué)會CSIG 第一對焦：圖像圖形

　　【ZiDongHua之會展賽培壇收錄關(guān)鍵詞：圖像圖形人工智能大模型】

　　【競賽】第五屆CSIG圖像圖形技術(shù)挑戰(zhàn)賽季軍團(tuán)隊(duì)介紹

　　獲得本屆CSIG圖像圖形技術(shù)挑戰(zhàn)賽總決賽季軍的團(tuán)隊(duì)是“中文文本智能校對大賽”賽道冠軍蘇州大學(xué)“黑模型·樂改”團(tuán)隊(duì)。

　　賽道介紹

　　隨著人工智能技術(shù)的迅猛發(fā)展，其在各行各業(yè)的應(yīng)用不斷深化，對經(jīng)濟(jì)社會的影響日益顯著。如何打通產(chǎn)學(xué)研體系，深入行業(yè)應(yīng)用的技術(shù)難題，為人工智能產(chǎn)業(yè)輸入源源不斷的人才，是行業(yè)關(guān)注焦點(diǎn)。通過大賽聚焦關(guān)鍵問題、探索解決方案，成為行業(yè)趨勢。

　　尤其在校對領(lǐng)域，人工智能對中文校對應(yīng)用的能力升級方面扮演了關(guān)鍵角色，特別是在提升校對效率、準(zhǔn)確性和個(gè)性化服務(wù)上有著突出的增強(qiáng)作用。

　　在中國圖象圖形學(xué)學(xué)會主辦的CSIG圖像圖形技術(shù)挑戰(zhàn)賽系列賽事中，金山辦公承辦了中文文本智能校對大賽。根據(jù)賽制，個(gè)人或者團(tuán)隊(duì)參賽者可以構(gòu)建一個(gè)完整的AI算法參與挑戰(zhàn)賽。主辦方使用ChERRANT評估校對算法效果，通過對比預(yù)測編輯和標(biāo)準(zhǔn)編輯，計(jì)算預(yù)測結(jié)果的精確度、召回度、F值指標(biāo)，評估糾錯(cuò)模型的性能，并使用字級別的F0.5指標(biāo)作為最終評判結(jié)果。

　　為提高賽事的挑戰(zhàn)性，金山辦公發(fā)布了貼近真實(shí)使用場景的比賽數(shù)據(jù)，以反映用戶在日常生活中常見的錯(cuò)誤類型。金山辦公希望通過賽事讓高校開發(fā)者能夠?qū)W以致用，以工程思維踐行產(chǎn)學(xué)研融合，實(shí)現(xiàn)從技術(shù)研究到應(yīng)用實(shí)踐的跨越。

　　此次比賽共吸引67所高校、338支隊(duì)伍，累計(jì)548人參賽。最終，四支參賽隊(duì)伍獲得大賽的一二三等獎(jiǎng)以及豐厚的現(xiàn)金獎(jiǎng)勵(lì)。其中，本隊(duì)伍（蘇州大學(xué)“黑模型·樂改”團(tuán)隊(duì)）憑借一種全新的無需訓(xùn)練的拼寫糾錯(cuò)方法獲得大賽冠軍。

　　圖1金山辦公為冠軍團(tuán)隊(duì)頒獎(jiǎng)

　　參賽方案

　　本隊(duì)伍提交方案可分別三大模塊：字詞錯(cuò)誤糾正、句法錯(cuò)誤糾正、結(jié)果合并與后處理。

　　1.字詞錯(cuò)誤糾正：本模塊中我們嘗試同時(shí)建模拼寫和多字少字這些字詞錯(cuò)誤。其中無訓(xùn)練大模型建模是我們提出的全新方案，效果非常好，通過對大模型解碼過程的控制，可以使大模型在不經(jīng)過任何訓(xùn)練的情況下，就擁有出色的字詞錯(cuò)誤修改能力。該方案單個(gè)模型在主辦方提供的LabelData數(shù)據(jù)集上可以取得0.7844的F0.5，性能遠(yuǎn)超經(jīng)過大規(guī)模數(shù)據(jù)訓(xùn)練的傳統(tǒng)拼寫糾錯(cuò)模型。

　　圖2無訓(xùn)練大模型字詞糾錯(cuò)方法

　　2.句法錯(cuò)誤糾正：在句法糾錯(cuò)方面，我們使用Lora方法訓(xùn)練了大模型，同時(shí)全參微調(diào)了中小模型（Bart、Bert），并在最后通過投票集成的方式，同時(shí)利用這兩種模型來提高最終結(jié)果。

　　3.結(jié)果合并與后處理：考慮到在實(shí)踐中，字詞錯(cuò)誤的識別和糾錯(cuò)相對容易，而語法錯(cuò)誤更復(fù)雜，識別和糾錯(cuò)的難度更高，因此在合并不同模型的糾錯(cuò)結(jié)果時(shí)，我們首先考慮字詞錯(cuò)誤的結(jié)果，如果句子中沒有發(fā)現(xiàn)字詞錯(cuò)誤，則認(rèn)為句子中不存在字詞錯(cuò)誤，應(yīng)該采納語法錯(cuò)誤的糾錯(cuò)結(jié)果。在對結(jié)果合并后，我們通過定義規(guī)則的方式來對結(jié)果進(jìn)行優(yōu)化，如根據(jù)國家語委刊發(fā)的《異形詞整理表》來替換結(jié)果中殘余的異形詞，同時(shí)利用掩碼語言模型來對結(jié)果中的“的/地/得”進(jìn)行相應(yīng)處理。

　　此外，本隊(duì)伍還使用了一些數(shù)據(jù)增廣策略，對數(shù)據(jù)進(jìn)行擴(kuò)充，我們分別在悟道語料庫、大模型續(xù)寫語料上基于規(guī)則，以字/詞為基本單位，對句子進(jìn)行隨機(jī)的替換、刪除、添加操作，結(jié)合混淆集，同音、形近詞表生成基礎(chǔ)的拼寫錯(cuò)誤。

　　總結(jié)

　　在本次比賽中，我們在前人比賽的經(jīng)驗(yàn)上進(jìn)行了進(jìn)一步的探索。首先，我們提出了全新的無訓(xùn)練大模型建模方案，通過對大模型解碼過程的控制，可以實(shí)現(xiàn)在不經(jīng)過任何訓(xùn)練的情況下，將任何有漢語生成能力的模型改造成一個(gè)字詞錯(cuò)誤識別和糾正模型。該方案在比賽中取得了最好的效果，表現(xiàn)出了極為優(yōu)秀的泛化能力。

　　此外我們還采用了有監(jiān)督訓(xùn)練的模型來對無訓(xùn)練大模型建模方案進(jìn)行補(bǔ)充。在訓(xùn)練有監(jiān)督模型時(shí)，我們創(chuàng)新性地提出了運(yùn)用大模型的續(xù)寫能力來合成數(shù)據(jù)集，從而保證合成數(shù)據(jù)的領(lǐng)域與目標(biāo)數(shù)據(jù)集一致。同時(shí)還兼具時(shí)效性。這些合成數(shù)據(jù)有效地提升了有監(jiān)督模型，尤其是小模型在目標(biāo)數(shù)據(jù)集上的表現(xiàn)。

　　最終，我們通過投票集成的方式，同時(shí)利用無訓(xùn)練大模型建模方案和有監(jiān)督模型，取得了第一名的好成績。

我要收藏

點(diǎn)個(gè)贊吧

自動(dòng)對焦：人工智能大模型

咨詢詳情：如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情，請加微信：ZiDongHuaX 。

微信聯(lián)盟：人工智能微信群、大模型微信群，各細(xì)分行業(yè)微信群：點(diǎn)擊這里進(jìn)入。

鴻達(dá)安視：水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器　　　　　　查看各品牌在細(xì)分領(lǐng)域的定位宣傳語