【ZiDongHua 之“品牌自定位”收錄關(guān)鍵詞:紫東太初 人工智能  視覺語言模型 】
  
  紫東太初團隊獲ACL 2025 SAC Highlights獎 !讓視覺語言模型學(xué)會提問:消解視覺問答中的模糊性
 
  摘要
 
  隨著多模態(tài)大模型技術(shù)的快速發(fā)展,視覺語言模型(Vision-Language Models, VLMs)在視覺問答(Visual Question Answering, VQA)等任務(wù)中展現(xiàn)出了卓越的能力。然而,真實世界中的視覺問題往往存在模糊性,例如指代不清、用戶意圖表達不完整或拼寫錯誤等,使得VLM難以直接給出準(zhǔn)確的回答。近日,紫東太初團隊提出了一種名為ClearVQA的全新基準(zhǔn)與訓(xùn)練方法,首次系統(tǒng)性地研究了VLMs通過主動提問進行交互式澄清,以消解問題中模糊性的能力,獲得ACL-2025 SAC Highlights獎項。
 
 
 
  視覺問答 (Visual question answering, VQA) 任務(wù)要求模型根據(jù)給定圖像和問題,生成自然語言的答案。然而,用戶的語言表達差異和習(xí)慣問題,常常導(dǎo)致實際使用中經(jīng)常出現(xiàn)用戶問題模糊的情形。例如,面對如圖1所示的視覺問題,用戶可能問:“他們站在什么前面?”但實際上,用戶可能指的是前景中的食物,也可能是遠處的餐車。
 
  
  圖1 在傳統(tǒng)的視覺問答場景中,含糊不清的問題可能會讓視覺語言模型困惑,導(dǎo)致產(chǎn)生非期望的答案。在這種情況下,我們強調(diào)模型應(yīng)先提出澄清性問題,并根據(jù)用戶反饋生成符合預(yù)期的答案。
  
  在多模態(tài)與VQA領(lǐng)域,已有一些工作研究視覺語言模型如何應(yīng)對模糊的指令或問題。然而,已有工作僅通過推理可能意圖來解決模糊性,忽略了實際場景中VLMs可以在與用戶交互的過程中消除視覺問題中存在的模糊性,從而更準(zhǔn)確、具體地生成答案。然而,這種交互式澄清方法的研究尚處于初步階段,主要面臨兩個關(guān)鍵挑戰(zhàn):缺乏一個全面有效的基準(zhǔn)來評估模型的交互式澄清能力;現(xiàn)有的大型VLMs更傾向于直接回答問題,而非主動提出澄清問題。為了有效應(yīng)對上述挑戰(zhàn),紫東太初團隊提出了ClearVQA,一種強調(diào)交互式澄清的VQA基準(zhǔn)和對應(yīng)的訓(xùn)練方法。
 
  
  圖2 ClearVQA 基準(zhǔn)中強調(diào)的視覺問題模糊性。(a) 在 ClearVQA 中,模糊性被歸納為三類:指代模糊、意圖不明確和拼寫模糊。Q 表示原始問題,IQ 表示用戶的真實意圖問題,ICQ 表示理想的澄清性問題,GT 表示真實答案。(b) 測試集實驗結(jié)果表明,與表述清晰的 IQ 相比,現(xiàn)有視覺-語言模型(VLM)難以處理相應(yīng)的含糊問題,導(dǎo)致 VQA 準(zhǔn)確率顯著下降。
  
  具體而言,本研究針對視覺語言模型在處理視覺問答任務(wù)時遇到的問題模糊性,提出了一個創(chuàng)新的交互式澄清框架,涉及以下兩個核心方法: ClearVQA基準(zhǔn)的構(gòu)建:研究團隊首次提出了ClearVQA基準(zhǔn),以系統(tǒng)性地評估視覺語言模型(VLM)在交互式澄清場景下的表現(xiàn)。如圖2(a)所示,ClearVQA強調(diào)了三類常見的模糊性問題,包括指代模糊(Referential ambiguity)、意圖不明確(Intent underspecification)與拼寫模糊(Spelling ambiguity),涵蓋廣泛的視覺理解、跨模態(tài)推理、知識推理和場景文本理解場景,提供了詳盡的評估指標(biāo)用于精確量化模型交互式澄清的能力。如圖2(b)所示,相對于表述清晰的原始問題,VLMs往往難以回答ClearVQA中引入模糊性后的問題。
  
   針對交互式澄清能力訓(xùn)練方法:為了有效地賦予模型交互式澄清能力,研究團隊設(shè)計了一個完全自動化的數(shù)據(jù)生成方法,利用大語言模型(LLM)自動構(gòu)建了存在模糊性的視覺問題及其對應(yīng)的澄清性提問對。進一步通過監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)和直接偏好優(yōu)化(Direct Preference Optimization, DPO)兩個訓(xùn)練階段,使得模型能夠主動識別問題中的模糊性并提出合理的澄清問題,以根據(jù)用戶反饋精準(zhǔn)生成答案。
  
  通過這兩個核心方法,研究團隊在ClearVQA構(gòu)建的訓(xùn)練數(shù)據(jù)上微調(diào)了開源視覺語言模型(如LLaVA),如表1所示的結(jié)果表明,所提出的方法在存在模糊性的問題上顯著優(yōu)于傳統(tǒng)非交互式模型。這證明了交互式澄清在處理現(xiàn)實世界中視覺問題模糊性時的巨大潛力和優(yōu)勢。
  
  表1 基于提出方法訓(xùn)練的,具備交互式模糊性澄清能力的 VLM,在ClearVQA上與通用 VLM的性能對比。
  
  不僅如此,如表2所示的實驗結(jié)果表明,基于所提出的訓(xùn)練策略,VLMs對于問題是否存在模糊性的判斷能力甚至優(yōu)于GPT-4V, 甚至是GPT-4o。這意味著我們的訓(xùn)練方法也能夠做到讓VLMs學(xué)會對于存在模糊性的問題進行交互式澄清的同時,對表述清晰的問題直接回答。
  
  表2 VLMs區(qū)分問題是否存在模糊性的能力的量化結(jié)果
  
  綜上所述,本研究提出的ClearVQA基準(zhǔn)及相應(yīng)方法,填補了視覺語言模型在交互式澄清領(lǐng)域的空白。這不僅推動了多模態(tài)理解領(lǐng)域的理論研究,也對未來更具人性化和智能化的人工智能系統(tǒng)開發(fā)具有一定影響。論文中提出的ClearVQA基準(zhǔn)已開源,歡迎社區(qū)進一步探索與使用。
  
  論文標(biāo)題:Pu Jian, Donglei Yu, Wen Yang, Shuo Ren, Jiajun Zhang. Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions. ACL-2025 (SAC Highlights)代碼倉庫:https://github.com/jian0805/ClearVQA