想象一下,你正在幫助一個孩子做幾何題。這個孩子很聰明,能夠準確地描述圖形中的每一個細節——三角形的角度、線段的長度、圓的半徑等等。但奇怪的是,當需要運用這些信息來解題時,他卻經常算錯。這種現象聽起來很熟悉嗎?這正是目前人工智能在處理數學問題時遇到的困境。
這項由上海交通大學計算機科學學院的李雨婷、魏來、鄭開鵬、黃敬淵團隊,聯合中關村研究院、北京通用人工智能研究院以及理海大學的黃維然教授共同完成的研究,發表于2025年6月的arXiv預印本平臺。感興趣的讀者可以通過arXiv:2506.09736v1訪問完整論文,研究代碼已在GitHub開源:https://github.com/YutingLi0606/Vision-Matters。
研究團隊在實驗中發現了一個令人驚訝的現象。他們讓純文本的大語言模型(比如Qwen2.5-7B)閱讀圖片的文字描述來解數學題,結果竟然能達到甚至超過那些能直接"看到"圖片的多模態模型(比如Qwen2.5-VL-7B)的表現。這就像是一個只能聽別人描述棋局的象棋選手,竟然下得比能親眼看到棋盤的選手還要好。
更有趣的是,當他們給這些純文本模型提供圖片描述時,表現還會進一步提升。在MathVision數學測試中,原本得分25.4分的多模態模型,當換成只看文字描述的語言模型時,得分竟然提升到了28.5分。這種現象就像是一個學生通過閱讀別人的筆記反而比直接看教科書學得更好。
這個發現揭示了一個重要問題:當前的多模態AI雖然能夠"看到"圖片,卻沒有有效地將視覺信息整合到推理過程中。它們就像是擁有完美視力但缺乏視覺注意力的學生,能看清每個細節,卻不知道哪些信息對解題真正重要。
基于這個洞察,研究團隊提出了一個巧妙的解決方案:通過給AI的"眼睛"增加一些"噪音"和"干擾",反而能讓它學會更好地"看"。這聽起來有點反直覺,就像是故意給學生的眼鏡上添加一些斑點,結果卻讓他們看得更清楚。
一、視覺擾動的三個"訓練招式"
研究團隊設計了三種視覺擾動策略,每一種都像是給AI進行的不同類型的"視覺訓練"。
第一種訓練叫做"分心物拼接"。想象你正在考試,老師故意在你的試卷旁邊放了一張無關的漫畫。如果你能在這種干擾下仍然專注于解題,那你的注意力就得到了很好的訓練。研究團隊就是這樣做的——他們在原始的數學題圖片旁邊橫向拼接一張完全無關的圖片,迫使AI學會忽略干擾信息,專注于真正重要的內容。
第二種訓練叫做"保持主導的混合"。這就像是在一杯清水中滴入幾滴墨水,水的本質沒有改變,但顏色略有不同。研究團隊將原始圖片與一張無關圖片按照8:2或9.5:0.5的比例進行混合,讓原始圖片仍然占主導地位,但添加了一些視覺"噪音"。這種訓練幫助AI學會提取圖片中最重要、最穩定的特征,而不是過分依賴細微的紋理細節。
第三種訓練叫做"隨機旋轉"。就像我們有時需要轉動手機來更好地看清照片一樣,研究團隊將圖片隨機旋轉小角度(比如正負15度),讓AI學會無論圖形處于什么角度都能正確理解。這對幾何題特別有用,因為三角形不管怎么轉,它的本質屬性都不會改變。
這三種訓練方法的巧妙之處在于,它們都保留了圖片的核心信息,只是增加了一些"挑戰",就像是在健身房里增加重量來讓肌肉變得更強壯。
二、令人矚目的實驗成果
研究團隊進行了一系列大規模實驗,結果令人印象深刻。他們在四個重要的數學推理測試平臺上驗證了這種方法:MathVision、MathVista、MathVerse和We-Math。這些測試就像是AI界的"數學奧林匹克競賽",涵蓋了從基礎幾何到復雜的圖表分析等各種題型。
實驗覆蓋了三種不同的AI訓練方法。第一種叫做監督微調(SFT),就像是給學生提供標準答案讓他們學習模仿。第二種叫做直接偏好優化(DPO),類似于告訴學生什么樣的答案是好的,什么樣的是不好的。第三種叫做群體強化學習(GRPO),更像是讓學生們互相競爭,通過比較來提升水平。
在所有測試中,添加了視覺擾動的模型都表現得更好。以GEOQA幾何數據集為例,使用GRPO訓練方法的模型,在添加視覺擾動后,平均分數從53.3%提升到了54.4%,提升了2.1個百分點。雖然聽起來不多,但在AI領域,這樣的提升已經相當顯著了,就像是奧運會上百米賽跑提升0.1秒一樣珍貴。
更有趣的是,研究團隊還測試了這種方法在已經很先進的AI模型上的效果。他們發現,即使是那些已經經過精心訓練的頂級模型,在應用了視覺擾動技術后,性能仍然能夠進一步提升。這就像是即使是職業運動員,通過特殊的訓練方法仍然能夠突破個人最佳成績。
三、不同問題類型的"個性化"提升
研究團隊深入分析發現,不同類型的視覺擾動對不同類型的數學問題有著不同的效果,這個發現特別有趣。
對于幾何問題,"隨機旋轉"訓練效果最好。研究顯示,幾何題的正確率從428道題目中答對變成了443道,提升了3.5%。這很容易理解——當AI習慣了從各種角度看圖形后,它就不會被圖形的朝向所迷惑,能夠更好地理解空間關系。就像一個經常轉動魔方的人,無論魔方處于什么角度,都能快速識別出每個面的模式。
對于科學類問題和計數問題,"分心物拼接"訓練最有效。科學題的正確率從724道提升到745道,增長了2.9%;計數題從379道提升到389道,增長了2.6%。這是因為這類問題往往包含很多復雜的視覺元素,AI需要學會在眾多信息中篩選出真正重要的部分,就像在嘈雜的環境中專注聽某個人說話的能力。
對于表格類問題,情況則有所不同。雖然"分心物拼接"仍然有幫助,但"隨機旋轉"反而會降低表現。這也很好理解——表格是有固定閱讀順序的,如果把表格轉個角度,確實會增加閱讀難度。
這些發現告訴我們,AI的"視覺訓練"需要針對不同任務進行定制,就像不同的體育項目需要不同的訓練方法一樣。
四、技術實現的巧妙設計
研究團隊在技術實現上也展現了很高的智慧。他們設計的視覺擾動系統就像是一個靈活的"訓練器械",可以很容易地集成到現有的AI訓練流程中,不需要改變AI的基礎架構或者收集新的訓練數據。
在具體操作上,訓練過程就像是烹飪時調味料的添加——每次訓練時,系統會隨機選擇三種擾動方法中的一種應用到圖片上。這種隨機性確保AI能夠接觸到各種不同的視覺挑戰,就像一個全面的體能訓練計劃。
更重要的是,這種方法的成本很低。它不需要額外的計算資源或者昂貴的硬件設備,只需要在現有的訓練過程中添加一個簡單的圖像處理步驟。這就像是在健身時只需要改變一下動作角度,就能鍛煉到更多肌肉群,而不需要購買新的器械。
研究團隊還貼心地開源了他們的代碼,這意味著全世界的AI研究者都可以免費使用這種技術,就像是分享了一個有效的健身方法。
五、更深層的科學發現
這項研究最有價值的地方不僅僅是提出了一種新的訓練方法,更重要的是它揭示了多模態AI的一個根本性問題:當前的AI系統在視覺信息處理上還有很大的改進空間。
研究團隊通過"有效秩"這個指標來衡量AI模型的知識容量。他們發現,經過視覺擾動訓練的模型,其有效秩顯著提升了。在MathVision測試中,從73.6提升到85.7;在MathVerse測試中,從62.4提升到77.6。這個數值的提升意味著AI的"大腦"變得更加豐富和靈活,能夠存儲和處理更多樣化的信息。
這個發現有點像是發現了大腦的一個新規律:通過適當的"困難訓練",不僅能提升特定能力,還能增強整體的認知容量。這為未來的AI發展指明了一個重要方向。
研究還發現,那些破壞圖像信息的擾動方法(比如高斯模糊、隨機裁剪等)會降低AI的表現,這進一步證實了他們方法的科學性。這就像是區分了"有益的挑戰"和"有害的干擾"——前者能讓你變得更強,后者只會拖累你的表現。
六、對AI未來發展的啟示
這項研究帶來的啟示遠超出了數學推理的范疇。它告訴我們,在AI的發展過程中,"看得更好"與"想得更清楚"是密不可分的。過去,很多研究專注于改進AI的"思考"算法,但這項研究提醒我們,改進AI如何"觀察"世界同樣重要。
研究團隊提出的"更好的推理始于更好的觀察"這一理念,可能會改變整個AI領域的研究方向。未來的AI系統不僅需要更強大的推理能力,還需要更敏銳的感知能力。
這種方法的普適性也很強。雖然這項研究專注于數學推理,但視覺擾動的思路可以應用到其他需要視覺理解的任務中,比如醫學圖像分析、自動駕駛、機器人視覺等領域。就像一個好的教育方法不僅能提升數學成績,還能培養學生的整體學習能力。
更有趣的是,這種方法對于AI的"泛化能力"有很大幫助。經過視覺擾動訓練的AI模型,在面對新的、沒見過的圖像時,表現得更加穩定可靠。這就像是一個經過多樣化訓練的運動員,在面對各種比賽環境時都能發揮出穩定的水平。
說到底,這項來自上海交通大學的研究為我們揭示了一個簡單而深刻的道理:有時候,讓事情變得稍微困難一點,反而能讓我們變得更強。在AI的世界里,通過巧妙設計的視覺"挑戰",我們可以訓練出更聰明、更可靠的人工智能系統。
這個發現對普通人意味著什么呢?隨著這種技術的推廣應用,我們可能很快就會看到更智能的AI助手,它們不僅能夠理解我們展示的圖片和圖表,還能從中準確提取信息并進行復雜的推理。無論是幫助學生解決數學題,還是協助醫生分析醫學影像,這種"看得更清楚、想得更明白"的AI都將為我們的生活帶來實實在在的改變。
最后,值得思考的是:如果適當的"困難"能讓AI變得更聰明,那么在人類的學習和成長過程中,我們是否也應該主動尋求一些有益的挑戰呢?這項研究不僅推進了AI技術的發展,也為我們理解學習和智能的本質提供了新的視角。如果讀者對這項研究的技術細節感興趣,可以通過GitHub鏈接查看開源代碼,或訪問arXiv平臺閱讀完整的學術論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.