99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

上海交大團隊發現:讓AI"看得更清楚"就能算得更準確!

為什么說學醫可以閉眼選上海交大

0
分享至


想象一下,你正在幫助一個孩子做幾何題。這個孩子很聰明,能夠準確地描述圖形中的每一個細節——三角形的角度、線段的長度、圓的半徑等等。但奇怪的是,當需要運用這些信息來解題時,他卻經常算錯。這種現象聽起來很熟悉嗎?這正是目前人工智能在處理數學問題時遇到的困境。

這項由上海交通大學計算機科學學院的李雨婷、魏來、鄭開鵬、黃敬淵團隊,聯合中關村研究院、北京通用人工智能研究院以及理海大學的黃維然教授共同完成的研究,發表于2025年6月的arXiv預印本平臺。感興趣的讀者可以通過arXiv:2506.09736v1訪問完整論文,研究代碼已在GitHub開源:https://github.com/YutingLi0606/Vision-Matters。

研究團隊在實驗中發現了一個令人驚訝的現象。他們讓純文本的大語言模型(比如Qwen2.5-7B)閱讀圖片的文字描述來解數學題,結果竟然能達到甚至超過那些能直接"看到"圖片的多模態模型(比如Qwen2.5-VL-7B)的表現。這就像是一個只能聽別人描述棋局的象棋選手,竟然下得比能親眼看到棋盤的選手還要好。

更有趣的是,當他們給這些純文本模型提供圖片描述時,表現還會進一步提升。在MathVision數學測試中,原本得分25.4分的多模態模型,當換成只看文字描述的語言模型時,得分竟然提升到了28.5分。這種現象就像是一個學生通過閱讀別人的筆記反而比直接看教科書學得更好。

這個發現揭示了一個重要問題:當前的多模態AI雖然能夠"看到"圖片,卻沒有有效地將視覺信息整合到推理過程中。它們就像是擁有完美視力但缺乏視覺注意力的學生,能看清每個細節,卻不知道哪些信息對解題真正重要。

基于這個洞察,研究團隊提出了一個巧妙的解決方案:通過給AI的"眼睛"增加一些"噪音"和"干擾",反而能讓它學會更好地"看"。這聽起來有點反直覺,就像是故意給學生的眼鏡上添加一些斑點,結果卻讓他們看得更清楚。

一、視覺擾動的三個"訓練招式"

研究團隊設計了三種視覺擾動策略,每一種都像是給AI進行的不同類型的"視覺訓練"。

第一種訓練叫做"分心物拼接"。想象你正在考試,老師故意在你的試卷旁邊放了一張無關的漫畫。如果你能在這種干擾下仍然專注于解題,那你的注意力就得到了很好的訓練。研究團隊就是這樣做的——他們在原始的數學題圖片旁邊橫向拼接一張完全無關的圖片,迫使AI學會忽略干擾信息,專注于真正重要的內容。

第二種訓練叫做"保持主導的混合"。這就像是在一杯清水中滴入幾滴墨水,水的本質沒有改變,但顏色略有不同。研究團隊將原始圖片與一張無關圖片按照8:2或9.5:0.5的比例進行混合,讓原始圖片仍然占主導地位,但添加了一些視覺"噪音"。這種訓練幫助AI學會提取圖片中最重要、最穩定的特征,而不是過分依賴細微的紋理細節。

第三種訓練叫做"隨機旋轉"。就像我們有時需要轉動手機來更好地看清照片一樣,研究團隊將圖片隨機旋轉小角度(比如正負15度),讓AI學會無論圖形處于什么角度都能正確理解。這對幾何題特別有用,因為三角形不管怎么轉,它的本質屬性都不會改變。

這三種訓練方法的巧妙之處在于,它們都保留了圖片的核心信息,只是增加了一些"挑戰",就像是在健身房里增加重量來讓肌肉變得更強壯。

二、令人矚目的實驗成果

研究團隊進行了一系列大規模實驗,結果令人印象深刻。他們在四個重要的數學推理測試平臺上驗證了這種方法:MathVision、MathVista、MathVerse和We-Math。這些測試就像是AI界的"數學奧林匹克競賽",涵蓋了從基礎幾何到復雜的圖表分析等各種題型。

實驗覆蓋了三種不同的AI訓練方法。第一種叫做監督微調(SFT),就像是給學生提供標準答案讓他們學習模仿。第二種叫做直接偏好優化(DPO),類似于告訴學生什么樣的答案是好的,什么樣的是不好的。第三種叫做群體強化學習(GRPO),更像是讓學生們互相競爭,通過比較來提升水平。

在所有測試中,添加了視覺擾動的模型都表現得更好。以GEOQA幾何數據集為例,使用GRPO訓練方法的模型,在添加視覺擾動后,平均分數從53.3%提升到了54.4%,提升了2.1個百分點。雖然聽起來不多,但在AI領域,這樣的提升已經相當顯著了,就像是奧運會上百米賽跑提升0.1秒一樣珍貴。

更有趣的是,研究團隊還測試了這種方法在已經很先進的AI模型上的效果。他們發現,即使是那些已經經過精心訓練的頂級模型,在應用了視覺擾動技術后,性能仍然能夠進一步提升。這就像是即使是職業運動員,通過特殊的訓練方法仍然能夠突破個人最佳成績。

三、不同問題類型的"個性化"提升

研究團隊深入分析發現,不同類型的視覺擾動對不同類型的數學問題有著不同的效果,這個發現特別有趣。

對于幾何問題,"隨機旋轉"訓練效果最好。研究顯示,幾何題的正確率從428道題目中答對變成了443道,提升了3.5%。這很容易理解——當AI習慣了從各種角度看圖形后,它就不會被圖形的朝向所迷惑,能夠更好地理解空間關系。就像一個經常轉動魔方的人,無論魔方處于什么角度,都能快速識別出每個面的模式。

對于科學類問題和計數問題,"分心物拼接"訓練最有效。科學題的正確率從724道提升到745道,增長了2.9%;計數題從379道提升到389道,增長了2.6%。這是因為這類問題往往包含很多復雜的視覺元素,AI需要學會在眾多信息中篩選出真正重要的部分,就像在嘈雜的環境中專注聽某個人說話的能力。

對于表格類問題,情況則有所不同。雖然"分心物拼接"仍然有幫助,但"隨機旋轉"反而會降低表現。這也很好理解——表格是有固定閱讀順序的,如果把表格轉個角度,確實會增加閱讀難度。

這些發現告訴我們,AI的"視覺訓練"需要針對不同任務進行定制,就像不同的體育項目需要不同的訓練方法一樣。

四、技術實現的巧妙設計

研究團隊在技術實現上也展現了很高的智慧。他們設計的視覺擾動系統就像是一個靈活的"訓練器械",可以很容易地集成到現有的AI訓練流程中,不需要改變AI的基礎架構或者收集新的訓練數據。

在具體操作上,訓練過程就像是烹飪時調味料的添加——每次訓練時,系統會隨機選擇三種擾動方法中的一種應用到圖片上。這種隨機性確保AI能夠接觸到各種不同的視覺挑戰,就像一個全面的體能訓練計劃。

更重要的是,這種方法的成本很低。它不需要額外的計算資源或者昂貴的硬件設備,只需要在現有的訓練過程中添加一個簡單的圖像處理步驟。這就像是在健身時只需要改變一下動作角度,就能鍛煉到更多肌肉群,而不需要購買新的器械。

研究團隊還貼心地開源了他們的代碼,這意味著全世界的AI研究者都可以免費使用這種技術,就像是分享了一個有效的健身方法。

五、更深層的科學發現

這項研究最有價值的地方不僅僅是提出了一種新的訓練方法,更重要的是它揭示了多模態AI的一個根本性問題:當前的AI系統在視覺信息處理上還有很大的改進空間。

研究團隊通過"有效秩"這個指標來衡量AI模型的知識容量。他們發現,經過視覺擾動訓練的模型,其有效秩顯著提升了。在MathVision測試中,從73.6提升到85.7;在MathVerse測試中,從62.4提升到77.6。這個數值的提升意味著AI的"大腦"變得更加豐富和靈活,能夠存儲和處理更多樣化的信息。

這個發現有點像是發現了大腦的一個新規律:通過適當的"困難訓練",不僅能提升特定能力,還能增強整體的認知容量。這為未來的AI發展指明了一個重要方向。

研究還發現,那些破壞圖像信息的擾動方法(比如高斯模糊、隨機裁剪等)會降低AI的表現,這進一步證實了他們方法的科學性。這就像是區分了"有益的挑戰"和"有害的干擾"——前者能讓你變得更強,后者只會拖累你的表現。

六、對AI未來發展的啟示

這項研究帶來的啟示遠超出了數學推理的范疇。它告訴我們,在AI的發展過程中,"看得更好"與"想得更清楚"是密不可分的。過去,很多研究專注于改進AI的"思考"算法,但這項研究提醒我們,改進AI如何"觀察"世界同樣重要。

研究團隊提出的"更好的推理始于更好的觀察"這一理念,可能會改變整個AI領域的研究方向。未來的AI系統不僅需要更強大的推理能力,還需要更敏銳的感知能力。

這種方法的普適性也很強。雖然這項研究專注于數學推理,但視覺擾動的思路可以應用到其他需要視覺理解的任務中,比如醫學圖像分析、自動駕駛、機器人視覺等領域。就像一個好的教育方法不僅能提升數學成績,還能培養學生的整體學習能力。

更有趣的是,這種方法對于AI的"泛化能力"有很大幫助。經過視覺擾動訓練的AI模型,在面對新的、沒見過的圖像時,表現得更加穩定可靠。這就像是一個經過多樣化訓練的運動員,在面對各種比賽環境時都能發揮出穩定的水平。

說到底,這項來自上海交通大學的研究為我們揭示了一個簡單而深刻的道理:有時候,讓事情變得稍微困難一點,反而能讓我們變得更強。在AI的世界里,通過巧妙設計的視覺"挑戰",我們可以訓練出更聰明、更可靠的人工智能系統。

這個發現對普通人意味著什么呢?隨著這種技術的推廣應用,我們可能很快就會看到更智能的AI助手,它們不僅能夠理解我們展示的圖片和圖表,還能從中準確提取信息并進行復雜的推理。無論是幫助學生解決數學題,還是協助醫生分析醫學影像,這種"看得更清楚、想得更明白"的AI都將為我們的生活帶來實實在在的改變。

最后,值得思考的是:如果適當的"困難"能讓AI變得更聰明,那么在人類的學習和成長過程中,我們是否也應該主動尋求一些有益的挑戰呢?這項研究不僅推進了AI技術的發展,也為我們理解學習和智能的本質提供了新的視角。如果讀者對這項研究的技術細節感興趣,可以通過GitHub鏈接查看開源代碼,或訪問arXiv平臺閱讀完整的學術論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大瓜來了!曝黃曉明離婚原因baby婚內出軌,還牽扯到劣跡藝人鄧某

大瓜來了!曝黃曉明離婚原因baby婚內出軌,還牽扯到劣跡藝人鄧某

果娛
2025-06-18 12:22:36
李月汝加盟后達拉斯飛翼首勝背后的故事:從墊底到贏球

李月汝加盟后達拉斯飛翼首勝背后的故事:從墊底到贏球

去山野間追風
2025-06-20 00:03:46
印度開始全盤否定重要人物,這不是一個好征兆,歷史或將重演

印度開始全盤否定重要人物,這不是一個好征兆,歷史或將重演

智慧生活筆記
2025-06-13 18:40:17
司機眼睛小被小米SU7誤判為疲勞駕駛,一路提示20多次,官方回應

司機眼睛小被小米SU7誤判為疲勞駕駛,一路提示20多次,官方回應

金融界
2025-06-19 17:36:54
暑假開始,貴人降臨,橫財不斷的三個星座,注定大富大貴

暑假開始,貴人降臨,橫財不斷的三個星座,注定大富大貴

小晴星座說
2025-06-18 17:59:35
宮魯鳴為何非要開除李夢?無非這3個原因,每一個都讓人信服

宮魯鳴為何非要開除李夢?無非這3個原因,每一個都讓人信服

體育就你秀
2025-06-19 09:07:25
別克全新GL8陸上公務艙6月26日上市 多項配置全面升級

別克全新GL8陸上公務艙6月26日上市 多項配置全面升級

太平洋汽車
2025-06-19 22:05:23
調查人員:印度空難失事航班起飛時“雙發動機失效”,可能當時正在使用應急電源供電

調查人員:印度空難失事航班起飛時“雙發動機失效”,可能當時正在使用應急電源供電

可樂談情感
2025-06-18 22:07:11
卸任15年后,貴州師范大學原副校長黃開烈被查

卸任15年后,貴州師范大學原副校長黃開烈被查

紅星新聞
2025-06-19 15:47:38
“罕見”!英媒:特朗普將與巴基斯坦陸軍元帥共進午餐

“罕見”!英媒:特朗普將與巴基斯坦陸軍元帥共進午餐

環球網資訊
2025-06-19 07:29:40
廣東男籃續約意向達成,黃榮奇留隊,大外援鎖定卡巴,場均16+13

廣東男籃續約意向達成,黃榮奇留隊,大外援鎖定卡巴,場均16+13

中國籃壇快訊
2025-06-19 14:29:02
中國女籃險勝!贏球不可怕,可怕是宮魯鳴賽后一席話 被日本打服

中國女籃險勝!贏球不可怕,可怕是宮魯鳴賽后一席話 被日本打服

史行途
2025-06-19 10:48:35
伊朗的天快亮了

伊朗的天快亮了

戰爭研究所
2025-06-17 23:53:53
新華社消息|美國將對所有赴美學生簽證申請人進行網絡審查

新華社消息|美國將對所有赴美學生簽證申請人進行網絡審查

新華社
2025-06-19 10:01:11
收手吧!驢臉黢黑大白牙,卻硬演傾國大美女,到底誰在硬捧她?

收手吧!驢臉黢黑大白牙,卻硬演傾國大美女,到底誰在硬捧她?

果娛
2025-06-17 12:00:41
一年狂賺300億!賺中國錢還毒害中國人 ,泰國榴蓮全含一級致癌物

一年狂賺300億!賺中國錢還毒害中國人 ,泰國榴蓮全含一級致癌物

素衣讀史
2025-01-22 17:11:58
國防大樓被炸,引7國排隊參戰,哈梅內伊安排后事,領袖要換人?

國防大樓被炸,引7國排隊參戰,哈梅內伊安排后事,領袖要換人?

科技有趣事
2025-06-18 14:04:40
其實女人是很享受這種酥酥麻麻的感覺的

其實女人是很享受這種酥酥麻麻的感覺的

五月的書房
2025-06-18 00:55:21
有特權就無所謂?一言不發的那爾那茜,終于不再顧及所謂的體面

有特權就無所謂?一言不發的那爾那茜,終于不再顧及所謂的體面

姩姩有娛呀
2025-06-17 20:13:18
美航母剛趕往中東,中方雙航母突然大動作,美軍緊急呼叫日方支援

美航母剛趕往中東,中方雙航母突然大動作,美軍緊急呼叫日方支援

頭條爆料007
2025-06-17 22:33:15
2025-06-20 00:55:00
至頂頭條 incentive-icons
至頂頭條
記錄和推動數字化創新
12164文章數 49634關注度
往期回顧 全部

科技要聞

羅永浩數字人爆火,可怕的不是5500萬GMV

頭條要聞

美打擊伊核設施計劃披露 特朗普鼓勵以總理"繼續干"

頭條要聞

美打擊伊核設施計劃披露 特朗普鼓勵以總理"繼續干"

體育要聞

22年,云南足球走出了一條自己的路

娛樂要聞

章子怡“吃蛋糕”戲在全網爆火

財經要聞

Labubu黃牛價腰斬 誰會是最后的接盤俠

汽車要聞

5.99萬起/空間大續航長 純電小車凱翼拾月Mate上市

態度原創

親子
健康
房產
藝術
教育

親子要聞

小葉教我句話還讓我挺意外,原來中外文化差異這么大

呼吸科專家破解呼吸道九大謠言!

房產要聞

預定爆款!江東CBD+海中,海口這一國企大盤,即將引爆市場!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

2025年山東夏季合格考準考證打印操作詳細教程

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 崇义县| 娱乐| 顺昌县| 涪陵区| 诏安县| 乳山市| 张掖市| 中江县| 杭锦旗| 邹城市| 洛南县| 卢氏县| 双峰县| 沾益县| 达日县| 岳普湖县| 调兵山市| 沈丘县| 会同县| 马山县| 揭西县| 通山县| 平武县| 泗水县| 泽州县| 屏东县| 永靖县| 彰化市| 宝鸡市| 芒康县| 若尔盖县| 宜章县| 永安市| 无为县| 东宁县| 视频| 新源县| 甘洛县| 阳西县| 上犹县| 静宁县|