大家好,我是Ai學習的老章
Reddit看到一個帖子:104個量化模型在大海撈針測試中的表現[1]
作者在 H·G·威爾斯的《時間機器》中插入了幾段荒謬對話,測試文本長達 1 萬詞元(約覆蓋小說前 5 章內容),并附帶簡短系統提示要求大模型定位這些荒謬對話并復述。
選擇的模型都是可以在 32GB 顯存GPU可運行的量化模型
評分標準:所有模型在每個溫度值下都進行了多次測試(例如在 0.0、0.1、0.2、0.3 等溫度下分別進行多次測試),這些結果被匯總為最終得分。
"得分"列表示 LLM 成功解決提示的測試百分比(即正確返回異常行的情況)。
所有測試的上下文長度均設置為 16k——這是為了平衡模型在實際使用中在這個上下文范圍內的表現,并為列表中的思維模型提供足夠的推理空間。
測試結果
Model
量化方式
實驗依據
得分
Meta Llama 系列
Llama_3.2_3B
iq4
0
Llama_3.2_3B
q5
0
Llama_3.2_3B
q6 量化
0
Llama_3.1_8B_Instruct
iq4
43
Llama_3.1_8B_Instruct
q5
13
Llama_3.1_8B_Instruct
q6 量化
10
Llama_3.3_70B_Instruct
iq1
13
Llama_3.3_70B_Instruct
iq2
100
Llama_3.3_70B_Instruct
iq3
100
Llama_4_Scout_17B
iq1
93
Llama_4_Scout_17B
iq2
13
英偉達 Nemotron 系列
Llama_3.1_Nemotron_8B_UltraLong
iq4
60
Llama_3.1_Nemotron_8B_UltraLong
q5
67
Llama_3.3_Nemotron_Super_49B
iq2
無思
93
Llama_3.3_Nemotron_Super_49B
iq2
思考
80
Llama_3.3_Nemotron_Super_49B
iq3
思考
100
Llama_3.3_Nemotron_Super_49B
iq3
無思
93
Llama_3.3_Nemotron_Super_49B
iq4
思考
97
Llama_3.3_Nemotron_Super_49B
iq4
無思
93
Mistral 家族
Mistral_Small_24B_2503
iq4
50
Mistral_Small_24B_2503
q5
83
Mistral_Small_24B_2503
q6 量化
77
微軟 Phi 系列
Phi_4
iq3
7
Phi_4
iq4
7
Phi_4
q5
20
Phi_4
q6 量化
13
阿里巴巴通義千問系列
Qwen2.5_14B_Instruct
iq4
93
Qwen2.5_14B_Instruct
q5
97
Qwen2.5_14B_Instruct
q6 量化
97
Qwen2.5_Coder_32B
iq4
0
Qwen2.5_Coder_32B_Instruct
q5
0
QwQ_32B
iq2
57
QwQ_32B
iq3
100
QwQ_32B
iq4
67
QwQ_32B
q5
83
QwQ_32B
q6 量化
87
Qwen3_14B
iq3
思考
77
Qwen3_14B
iq3
無思
60
Qwen3_14B
iq4
思考
77
Qwen3_14B
iq4
無思
100
Qwen3_14B
q5
無思
97
Qwen3_14B
q5
思考
77
Qwen3_14B
q6 量化
無思
100
Qwen3_14B
q6 量化
思考
77
Qwen3_30B_A3B
iq3
思考
7
Qwen3_30B_A3B
iq3
無思
0
Qwen3_30B_A3B
iq4
思考
60
Qwen3_30B_A3B
iq4
無思
47
Qwen3_30B_A3B
q5
無思
37
Qwen3_30B_A3B
q5
思考
40
Qwen3_30B_A3B
q6 量化
思考
53
Qwen3_30B_A3B
q6 量化
無思
20
Qwen3_30B_A6B_16_Extreme
q4
無思
0
Qwen3_30B_A6B_16_Extreme
q4
思考
3
Qwen3_30B_A6B_16_Extreme
q5
思考
63
Qwen3_30B_A6B_16_Extreme
q5
無思
20
Qwen3_32B
iq3
思考
63
Qwen3_32B
iq3
無思
60
Qwen3_32B
iq4
無思
93
Qwen3_32B
iq4
思考
80
Qwen3_32B
q5
思考
80
Qwen3_32B
q5
無思
87
Google Gemma 家族
Gemma_3_12B_IT
iq4
0
Gemma_3_12B_IT
q5
0
Gemma_3_12B_IT
q6 量化
0
Gemma_3_27B_IT
iq4
3
Gemma_3_27B_IT
q5
0
Gemma_3_27B_IT
q6 量化
0
深度求索(蒸餾版)系列
DeepSeek_R1_Qwen3_8B
iq4
17
DeepSeek_R1_Qwen3_8B
q5
0
DeepSeek_R1_Qwen3_8B
q6 量化
0
深度求索 R1 蒸餾版千問 32B
iq4
37
深度求索 R1 蒸餾版千問 32B
q5
20
深度求索 R1 蒸餾版千問 32B
q6 量化
30
其他
Cogito_v1_Preview__Qwen_14B_
iq3
3
Cogito_v1_Preview__Qwen_14B_
iq4
13
Cogito_v1_Preview__Qwen_14B_
q5
3
DeepHermes_3_Mistral_24B_Preview
iq4
無思
3
DeepHermes_3_Mistral_24B_Preview
iq4
思考
7
DeepHermes_3_Mistral_24B_Preview
q5
思考
37
DeepHermes_3_Mistral_24B_Preview
q5
無思
0
DeepHermes_3_Mistral_24B_Preview
q6 量化
思考
30
DeepHermes_3_Mistral_24B_Preview
q6 量化
無思
3
GLM_4_32B
iq4
10
GLM_4_32B
q5
17
GLM_4_32B
q6 量化
16
結論
原作提到,這個測試方法并非完全科學嚴謹,但最終結果何其實際感受還是相符的:
Gemma3 27B 在某些場景表現驚艷,但遇到大上下文時性能簡直斷崖式下跌!
Qwen3-32B 非常出色,但面對大上下文時總會過度思考。使用"/nothink"指令略有改善,在實際測試中我通常都會加上這個指令——除非具體用例確實需要高級推理能力
即便 Llama 3.3 70B 受限于 32GB 顯存只能運行更低精度的量化版本,其表現依然極具競爭力。我認為 Qwen3-32B 的用戶值得將它重新納入實驗對比——盡管這個模型相對較老。
在量化權重時確實存在一個"斷崖式下跌"的臨界點,但這個臨界點在不同模型間差異巨大
英偉達 Nemotron Super 49B 量化模型表現極為出色,在處理類似的大上下文任務時尤為聰明。與 Llama 3.3 70B 類似,建議在某些工作流中嘗試使用
Nemotron UltraLong 8B 實際表現優異——在長上下文場景中穩定超越本就不俗的 Llama 3.1 8B
QwQ 模型的表現遠超其參數規模,但推理所需的大量 token 讓我更傾向于選擇榜單上的其他模型
Qwen3-14B 堪稱同量級中的冠軍選手
-the end-
參考資料
104個量化模型在大海撈針測試中的表現: https://www.reddit.com/r/LocalLLM/comments/1liy7ku/i_thousands_of_tests_on_104_different_ggufs_10k/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.