99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型“拼好題”,45K數據撬動18%提升,數學問題拒絕死記硬背

0
分享至

MathFusion團隊 投稿
量子位 | 公眾號 QbitAI

當前數學領域的數據生成方法常常局限于對單個問題進行改寫或變換,好比是讓學生反復做同一道題的變種,卻忽略了數學題目之間內在的關聯性。

為了打破這種局限,讓大模型學會“串聯”與“并聯”知識,上海AI Lab、人大高瓴等團隊聯合提出了MathFusion,通過指令融合增強大語言模型解決數學問題的能力。



僅使用45K的合成指令,MathFusion在多個基準測試中平均準確率提升了18.0個百分點,展現了卓越的數據效率和性能。



△越靠左上角,模型表現越好且數據效率越高。

核心思想:三種“融合策略”

MathFusion通過三種“融合策略”,將不同的數學問題巧妙地結合起來,生成封裝了二者關系和結構的新問題。



  • 順序融合(Sequential Fusion)
  • 將兩個問題串聯起來,前一個問題的答案作為后一個問題的某個輸入條件。這就像解決一個多步驟問題,模型需要先解出第一步,才能進行第二步,從而學會處理問題間的依賴關系。
  • 并列融合(Parallel Fusion)
  • 將兩個相似的問題融合在一起,對它們的數學概念進行識別和融合,在原來問題的基礎上提出一道新的問題。
  • 條件融合(Conditional Fusion)
  • 創造一個需要對兩個問題的解進行比較和選擇的問題場景。

首先從現有數據集(GSM8K、MATH)中識別出適合融合的問題對(主要通過embedding search),然后應用融合策略生成新問題,并利用GPT-4o-mini來生成解答。通過這三種策略,生成了一個全新的融合數據集MathFusionQA。

融合實例:不同策略的融合結果

為了更直觀地理解這三種融合策略,來看一個具體的例子:

原始問題

  • 問題A:一天內,一艘船在湖中航行4次,每次最多可載12人。請問在2天內,這艘船可以運送多少人?
  • 問題B:學校組織去博物館。他們租了4輛巴士來接送孩子和老師。第二輛巴士的人數是第一輛的兩倍,第三輛比第二輛少6人,第四輛比第一輛多9人。如果第一輛巴士上有12人,請問總共有多少人去了博物館?

順序融合

學校組織一次去博物館的旅行,需要運送學生和老師。首先,請計算一艘船在2天內的載客量,這艘船每天航行4次,每次最多可載12人。然后,將這個總載客量作為第一輛巴士的人數。已知第二輛巴士的人數是第一輛的兩倍,第三輛比第二輛少6人,第四輛比第一輛多9人。請問總共有多少人去了博物館?

并列融合

一所學校組織一次到博物館的實地考察,并租用了4輛巴士和一艘船6。這艘船一天航行2次,每次載客12人。每輛巴士的人數不同:第一輛巴士有12人,…,第四輛比第一輛多9人。請計算在2天內,船和所有巴士總共可以運送多少人?

條件融合

一個社區正在組織兩種不同的郊游活動。對于湖上游覽,一艘船每天運營4次,載客量為12人,他們計劃讓這艘船服務2天。與此同時,一所學校正在安排一次有4輛巴士的博物館之旅11。第一輛巴士有12人,第二輛是第一輛的兩倍,第三輛比第二輛少6人,第四輛比第一輛多9人。考慮到這些安排,哪種交通方式的載客能力更強?

實驗結果:有效捕捉問題間深層聯系

在MathFusionQA的基礎上,使用三種融合策略——順序、并行和條件——對模型(DeepSeekMath-7B、Mistral-7B、Llama3-8B)進行微調。實驗得到以下發現:



顯著提升模型性能與效率:與標準訓練方法(只在GSM8K和MATH上訓練)相比,MathFusion在多個base模型(包括DeepSeekMath-7B、Llama3-8B、Mistral-7B)上都取得了穩定的性能提升。并且,MathFusion在大幅提升性能的同時,保持了極高的數據效率,用遠少于其他方法的數據量就達到了良好的效果。

策略之間優勢互補:將順序融合、條件融合和并行融合三種策略結合使用,組合融合策略始終優于每種單一融合策略。另外,基礎模型性能越弱,組合融合策略帶來的提升就越大。在所有基準測試中,組合融合策略在DeepSeekMath-7B上平均提升了3.1分,在Llama3-8B上提升了4.9分,在Mistral-7B上提升了7.5分。

強大的泛化與擴展能力:MathFusion不僅在in-domain測試中表現優異,在更具挑戰性的out-of-domain基準測試中同樣超越了標準模型。





對MathFusion做進一步的分析,有以下幾點發現:

  • 融合之后的問題的指令遵循難度(IFD)更高,說明融合之后的問題對于模型來說更加困難。
  • 隨著融合數據量的增加,MathFusion模型的性能呈現出近似對數形式的增長。
  • 當把MathFusionQA數據集與DART-Math數據集結合使用時,模型的性能可以得到進一步的提升,甚至超過了單獨使用任何一個數據集時的表現。這表明MathFusion的“問題融合”思路與DART-Math的“挖掘難題”思路是互補的。
  • 通過t-SNE可視化分析,發現MathFusion得到的問題在特征空間中的分布比原始問題更均勻和廣泛。
  • 通過對teacher model的消融分析,證明了MathFusion帶來的提升源自于問題融合本身,而非teacher model的好壞。

總的來說,通過生成結構更多樣、邏輯更復雜的合成問題,MathFusion有效地增強了模型捕捉問題間深層聯系的能力。

但目前MathFusion還只在GSM8K、MATH這種比較簡單的數學問題,以及short cot solution的數據集上進行了驗證,有待進一步擴展到更難的數學問題、long cot solution以及其他領域的數據上。

論文鏈接: https://arxiv.org/abs/2503.16212
代碼庫:https://github.com/QizhiPei/MathFusion

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國關閉GPS,導彈依舊精準轟炸以色列,誰干的?中國還是俄羅斯

美國關閉GPS,導彈依舊精準轟炸以色列,誰干的?中國還是俄羅斯

高山非凡創作
2024-05-09 05:48:13
國安部披露細節!間諜用Word文檔套取我國敏感數據

國安部披露細節!間諜用Word文檔套取我國敏感數據

每日經濟新聞
2025-06-17 13:02:47
菲律賓要變天!莎拉攜家人離境,馬科斯主動喊話中國,信號強烈

菲律賓要變天!莎拉攜家人離境,馬科斯主動喊話中國,信號強烈

浣花洗劍錄
2025-06-16 13:45:08
父親節,一個連資本都不愿意炒作的節日

父親節,一個連資本都不愿意炒作的節日

今夜無局
2025-06-15 12:32:18
超級重磅!湖南拿下全運會!長沙這里要起飛!

超級重磅!湖南拿下全運會!長沙這里要起飛!

星耀長沙
2025-06-17 20:10:07
上海一男子花50萬囤茅臺酒,15年后急用錢時,才發現它的真實價值

上海一男子花50萬囤茅臺酒,15年后急用錢時,才發現它的真實價值

溫情郵局
2025-06-13 13:59:55
做一次腸鏡,“有效期”可維持多久?醫生揭曉答案,看完漲知識了

做一次腸鏡,“有效期”可維持多久?醫生揭曉答案,看完漲知識了

中醫陳旺醫生
2025-06-09 22:25:03
金建希病情惡化

金建希病情惡化

藍鉆故事
2025-06-17 23:56:25
最新封裝技術!華為挑戰臺積電!

最新封裝技術!華為挑戰臺積電!

中國半導體論壇
2025-06-17 20:56:58
國鐵 12306 上線汽車托運小程序,北京運至深圳 2289 元等

國鐵 12306 上線汽車托運小程序,北京運至深圳 2289 元等

IT之家
2025-06-17 18:58:30
拆除500平方米老舊建筑!哈爾濱市南崗區老黃房子露出來了

拆除500平方米老舊建筑!哈爾濱市南崗區老黃房子露出來了

生活報
2025-06-16 22:05:32
德國總理梅爾茨:以色列是在為我們所有人做骯臟的工作

德國總理梅爾茨:以色列是在為我們所有人做骯臟的工作

仗劍看世界
2025-06-18 00:36:16
以色列駐華盛頓大使:美國是唯一擁有可擊中伊朗福爾多核設施的導彈的國家

以色列駐華盛頓大使:美國是唯一擁有可擊中伊朗福爾多核設施的導彈的國家

和訊網
2025-06-17 11:55:16
邵佳一排面拉滿!賽后繞場一周鞠躬致謝,塞蒂恩:他是偉大主帥

邵佳一排面拉滿!賽后繞場一周鞠躬致謝,塞蒂恩:他是偉大主帥

奧拜爾
2025-06-17 22:20:24
一部代表作都沒有,卻高高在上當評委,連謝霆鋒、刀郎都難逃魔掌

一部代表作都沒有,卻高高在上當評委,連謝霆鋒、刀郎都難逃魔掌

明月聊史
2025-06-03 16:20:03
神十九返回后,為何沒消息?空間站被撞后,神舟二十號已加防1次

神十九返回后,為何沒消息?空間站被撞后,神舟二十號已加防1次

環球科學貓
2025-06-16 10:59:37
詹姆斯:杰里-韋斯特9進總決賽只有一冠 而他是我們聯盟的logo

詹姆斯:杰里-韋斯特9進總決賽只有一冠 而他是我們聯盟的logo

直播吧
2025-06-18 03:53:33
A股最后的提醒,周三開盤千萬要注意了,市場即將變盤!

A股最后的提醒,周三開盤千萬要注意了,市場即將變盤!

悠然安晴
2025-06-18 00:07:09
朱亞文沈佳妮夫婦罕見同框,倆女兒出鏡好漂亮,全家都是高個子

朱亞文沈佳妮夫婦罕見同框,倆女兒出鏡好漂亮,全家都是高個子

振華觀史
2025-06-17 23:32:54
韋神要出場了!海淀一停車場按每7分鐘計費標準,讓車主腦筋卡殼

韋神要出場了!海淀一停車場按每7分鐘計費標準,讓車主腦筋卡殼

火山詩話
2025-06-17 06:12:48
2025-06-18 04:08:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10686文章數 176167關注度
往期回顧 全部

科技要聞

51歲劉強東談幾年前"退休":當時太理想主義

頭條要聞

救護車轉運重癥患兒800公里收費28000元 衛健委回應

頭條要聞

救護車轉運重癥患兒800公里收費28000元 衛健委回應

體育要聞

杰威40+6雷霆3-2步行者 SGA31+10

娛樂要聞

重男輕女還雌競?朱丹行為引爭議

財經要聞

白酒股崩了,誰在“拋棄”茅臺?

汽車要聞

高級感拉滿 極氪9X全新配色“極晝白”亮相

態度原創

家居
本地
教育
公開課
軍事航空

家居要聞

輕奢簡約 大戶型三代之家

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

教育要聞

貴州元寶村小學支教流水賬(Day1)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗襲擊摩薩德總部

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 上思县| 安泽县| 无锡市| 盱眙县| 泾源县| 遂宁市| 克什克腾旗| 鄂伦春自治旗| 浙江省| 田东县| 永宁县| 乌兰察布市| 昌黎县| 秦皇岛市| 鄂托克旗| 上思县| 荔波县| 桑日县| 澄城县| 基隆市| 横山县| 泾阳县| 甘谷县| 遂宁市| 红原县| 孝感市| 固镇县| 阳曲县| 河源市| 长兴县| 鸡泽县| 应城市| 寿阳县| 吉木萨尔县| 祁连县| 年辖:市辖区| 鸡泽县| 越西县| 招远市| 密云县| 拉萨市|