7B專業(yè)領(lǐng)域大模型，能打DeepSeek- R1？測試甚至不如QwQ:32B

2025-03-24 13:23:12　來源: 機(jī)器學(xué)習(xí)與Python社區(qū)

北京舉報

分享至

大家好，我是 Ai 學(xué)習(xí)的老章

很久沒有聽到專業(yè)大模型的消息了

我記得大模型剛剛興起的時候，各行各業(yè)開啟了“大練”行業(yè)大模型的熱潮，能源、醫(yī)療、金融、政務(wù)、法律等等，每一個領(lǐng)域都有一堆行業(yè)大模型。后來各路通用大模型大放異彩，行業(yè)大模型有點沉寂了，尤其是 DeepSeek 來了之后，通用、推理大模型太能打了，訓(xùn)練領(lǐng)域大模型還不如直接接入 DeepSeek 靠譜了。

但是事物都有兩面性， DeepSeek R1 帶火了知識蒸餾，反而降低了行業(yè)大模型微調(diào)技術(shù)難度和成本。這不，上海財經(jīng)大學(xué)統(tǒng)計與數(shù)據(jù)科學(xué)學(xué)院張立文教授與其領(lǐng)銜的金融大語言模型課題組剛以 Qwen2.5-7B-Instruct 為基座，通過高質(zhì)量的可驗證金融問題微調(diào)訓(xùn)練出了 Fin-R1，號稱在多個金融領(lǐng)域基準(zhǔn)測試上的表現(xiàn)達(dá)到參評模型的 SOTA 水平。

我看了他們的技術(shù)報告：https://arxiv.org/abs/2503.16252，數(shù)據(jù)蒸餾過程確實采用了 DeepSeek - R1 官方提供的思路。

訓(xùn)練過程分兩個階段：1、通過高質(zhì)量金融推理數(shù)據(jù)的 SFT (Supervised Fine-Tuning) 幫助模型初步提升金融推理能力；2、在 GRPO（Group Relative Policy Optimization) 算法的基礎(chǔ)上結(jié)合格式獎勵和準(zhǔn)確度獎勵進(jìn)行強(qiáng)化學(xué)習(xí)，以此進(jìn)一步提升金融推理任務(wù)的準(zhǔn)確性和泛化能力。

評測結(jié)果：在聚焦真實金融表格數(shù)值推理任務(wù)的 FinQA 以及多輪推理交互場景的 ConvFinQA 兩大關(guān)鍵任務(wù)測試上分別以 76.0 和 85.0 的得分在參評

Model

Parameters

FinQA

ConvFinQA

Ant_Finance

TFNS

Finance-Instruct-500k

Average

DeepSeek-R1

671B

71.0

82.0

90.0

78.0

70.078.2Fin-R1

76.085.0

81.0

71.0

62.9

75.2

Qwen-2.5-32B-Instruct

32B

72.0

78.0

84.0

77.0

58.0

73.8

DeepSeek-R1-Distill-Qwen-32B

32B

70.0

72.0

87.0

79.0

54.0

72.4

Fin-R1-SFT

73.0

81.0

76.0

68.0

61.0

71.9

Qwen-2.5-14B-Instruct

14B

68.0

77.0

84.0

72.0

56.0

71.4

DeepSeek-R1-Distill-Llama-70B

70B

68.0

74.0

84.0

62.0

56.0

69.2

DeepSeek-R1-Distill-Qwen-14B

14B

62.0

73.0

82.0

65.0

49.0

66.2

Qwen-2.5-7B-Instruct

60.0

66.0

85.0

68.0

49.0

65.6

DeepSeek-R1-Distill-Qwen-7B

55.0

62.0

71.0

60.0

42.0

58.0

? 模型部署、測試

??：modelscope、vllm、open-webui 等安裝，請參考我前幾天寫的：[[2025-03-22-大模型推理引擎vllm，啟動QwQ-32B]]

1、下載模型

Github 地址：https://github.com/SUFE-AIFLM-Lab/Fin-R1
模型地址：https://modelscope.cn/models/AI-ModelScope/Fin-R1

下載完整模型庫：sudo modelscope download --model AI-ModelScope/Fin-R1 --local_dir /home/data-local/Fin-R1，將模型下載到指定的本地目錄 "/home/data-local/Fin-R1" 中。

模型文件差不多 15GB

2、啟動模型

我有 2 張4090，我看新聞?wù)f一張卡也能跑，但是官方文檔也是使用的 2 張卡

CUDA_VISIBLE_DEVICES=4，5 vllm serve "/home/data-local/Fin-R1" --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.9 --max-model-len 16384 --tensor-parallel-size 2 --served-model-name "Fin-R1"

模型權(quán)重僅占用了 7 個 GB 顯存，Pytorch 占用 1.5B、KV cache 占了 12.4GB

3、接入 open-webui

測試一個問題

貸款 100 萬元，期限 360 期，貸款利率 2.85%，等額本息法，計算還款總額，利息總額，每月還款額分別是多少？

先看標(biāo)準(zhǔn)答案

Fin-R1的計算過程，有模有樣但謬之千里

這結(jié)果和房貸利息網(wǎng)的計算結(jié)果相差也太大了。。

輸出速度倒是蠻快的

我最近很喜歡的 QwQ:32B 能不能搞定此題呢？

4 張卡本地部署的 QwQ:32B 計算的結(jié)果還是可以的，些許誤差，可以接受。

我又在通義千問官網(wǎng)問了一下，幾乎是分毫不差！

個人測試結(jié)果，不代表模型真實實力，后續(xù)我會再測測。

制作不易，如果這篇文章覺得對你有用，可否點個關(guān)注。給我個三連擊：點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.