【ZiDongHua之“智能自動化”收錄關(guān)鍵詞:中科院自動化所 機器視覺   MLLM  大模型  模式識別   】

 

大模型全軍覆沒?中科院發(fā)布MV-MATH新基準挑戰(zhàn)數(shù)學推理

 

近日,中國科學院自動化研究所推出了一項全新的多圖數(shù)學推理基準MV-MATH,該研究已被CVPR2025接收。MV-MATH旨在全面評估多模態(tài)大語言模型(MLLM)在復雜視覺場景中的數(shù)學推理能力。然而,實驗結(jié)果令人吃驚:主流大模型如GPT-4o和QvQ的分數(shù)分別為32.1和29.3,均未達到及格線。這背后是怎樣的故事?

傳統(tǒng)的多模態(tài)大模型在數(shù)學推理方面本已展現(xiàn)出潛力,但大部分現(xiàn)有的測試僅限于單一視覺場景,這與現(xiàn)實生活中的復雜數(shù)學問題存在顯著差距。MV-MATH數(shù)據(jù)集特別設(shè)計,包含2009個高質(zhì)量的數(shù)學問題,從K-12教育中提取而來,結(jié)合了2至8張相關(guān)圖像和文本,以構(gòu)建多圖推理的復雜場景。

數(shù)據(jù)集的特點包括:

  1. 多視覺場景:每個問題集合中包含多個耦合的圖像,提供了更貼近真實世界的考試場景。
  2. 豐富的標注:確保問題和解答的質(zhì)量,每個樣本均經(jīng)過至少兩名標注者驗證,并附有答案解析。
  3. 多樣化的數(shù)學領(lǐng)域:覆蓋11個數(shù)學領(lǐng)域,包括算術(shù)、幾何等,且通過問題的難度分為三個等級。
  4. 圖像關(guān)聯(lián)性:數(shù)據(jù)集分為相互依賴集(MD)和獨立集(ID),探究不同圖像間的關(guān)系如何影響推理。

在評測階段,MV-MATH對24個主流多模態(tài)大模型進行了全面測試,結(jié)果顯示,最好的模型Claude-3.5的準確率也僅為33.9%——遠低于人類的76.5%。在各個子領(lǐng)域的表現(xiàn)也存在較大差異,比如在算術(shù)領(lǐng)域的表現(xiàn)明顯好于組合幾何,后者準確率僅為27%。

通過分析模型在不同難度題目中的表現(xiàn),發(fā)現(xiàn)簡單問題中GPT-4o的準確率最高。而在涉及依賴多圖的題目中,模型普遍面臨巨大挑戰(zhàn),尤其是需要更高層次跨圖像理解的MD子集。

該研究的意義在于深入探索MLLM在復雜多視覺場景中的數(shù)學推理能力,無疑為未來的研究提供了新的方向。盡管當前的多模態(tài)模型在表現(xiàn)上與人類水平仍有差距,但MV-MATH的推出為推動數(shù)學推理領(lǐng)域的進步開辟了新的道路。