【ZiDongHua 之自動化學院派收錄關(guān)鍵詞:中科視語 異常檢測大模型 AnomalyGPT 中國科學院自動化研究所 】

 

成果速遞|AAAI2024:中科視語提出工業(yè)異常檢測大模型 AnomalyGPT,實現(xiàn)零樣本異常檢測

 

工業(yè)異常檢測是工業(yè)生產(chǎn)中不可或缺的一部分,然而現(xiàn)有的工業(yè)異常檢測方法通常只能為測試樣本提供異常分數(shù),需要人工設定閾值以區(qū)分正常和異常樣本,這限制了這些方法的實際應用場景。此外,現(xiàn)有的大模型在圖像理解方面展現(xiàn)了卓越的能力,但是缺乏特定領域知識,而且對圖像中局部細節(jié)的理解較弱,這導致這些大模型不能直接用于工業(yè)異常檢測任務。

近日,中科視語和中國科學院自動化研究所的研究團隊針對該問題提出了異常檢測大模型AnomalyGPT。AnomalyGPT利用大模型的強大語義理解能力,通過精心設計的圖像解碼器和提示嵌入微調(diào)方法,能夠讓大模型充分理解工業(yè)場景圖像,判斷其中是否含有異常部分并指出異常位置,在少樣本和無監(jiān)督工業(yè)場景中取得了業(yè)內(nèi)最好性能,有利于基礎大模型的行業(yè)落地。

AnomalyGPT為了解決現(xiàn)有大模型缺乏特定領域知識和局部細節(jié)理解較弱這兩個問題,設計了提示學習器和圖像解碼器兩個模塊,對現(xiàn)有的大模型進行訓練調(diào)整,方法結(jié)構(gòu)如下圖所示:

1. 圖像解碼器:該模塊參考多模態(tài)大模型的特征對齊思路,通過若干個線性投影層,將圖像編碼器所提取的由淺至深的中層特征與分別代表正常和異常語義的文本特征對齊。該結(jié)構(gòu)能夠提供異常區(qū)域分割的注意力圖,通過將該注意力圖輸入到大模型中,能夠指導大模型關(guān)注圖像中異常概率較高的局部區(qū)域,為大模型提供視覺細節(jié)信息。

2. 提示學習器:該模塊包含一個6層的卷積神經(jīng)網(wǎng)絡,用于將圖像解碼器輸出的注意力圖轉(zhuǎn)化為大模型能夠理解的提示嵌入向量,通過提示嵌入的方式對大模型進行微調(diào),可以為大語言模型提供異常檢測所需的領域知識,同時有效避免大模型產(chǎn)生災難性遺忘問題。

此外,為了對大模型進行訓練,研究團隊還提出來使用基于泊松圖像編輯的異常模擬方法來產(chǎn)生模擬異常數(shù)據(jù),如下圖所示,相比于傳統(tǒng)的剪切拼接方法,泊松圖像編輯模擬產(chǎn)生的異常更加自然,這進一步提高了AnomalyGPT方法的性能。

基于上述方法結(jié)構(gòu),AnomalyGPT研究團隊在兩個最權(quán)威的工業(yè)異常檢測數(shù)據(jù)集 MVTec-AD和VisA上進行了實驗,與現(xiàn)有少樣本異常檢測方法相比,AnomalyGPT取得了業(yè)內(nèi)最先進的性能,實驗結(jié)果如下表所示:

在無監(jiān)督設置下,AnomalyGPT也取得了業(yè)內(nèi)最高的性能,結(jié)果如下表所示:

下圖展示了AnomalyGPT在一些實例上的異常檢測和定位結(jié)果,與現(xiàn)有的大模型相比,AnomalyGPT在圖像內(nèi)容理解和異常檢測與定位任務上都具有更好的表現(xiàn):

AnomalyGPT 論文已經(jīng)被人工智能頂級會議 AAAI 2024接收,論文預印版已發(fā)布于 Arxiv 上,并開源了相關(guān)代碼和演示頁面。

研究團隊認為,現(xiàn)有的大模型在通用領域表現(xiàn)卓越,但是在工業(yè)、醫(yī)學等專業(yè)領域的表現(xiàn)相對較弱,如何設計相應結(jié)構(gòu)和方法,提高大模型的行業(yè)應用能力,是一個值得深入研究的問題。