99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

花了50 美元,測試104個量化大模型大海撈針能力,Qwen3-14B太驚艷了

0
分享至


大家好,我是Ai學習的老章

Reddit看到一個帖子:104個量化模型在大海撈針測試中的表現[1]

作者在 H·G·威爾斯的《時間機器》中插入了幾段荒謬對話,測試文本長達 1 萬詞元(約覆蓋小說前 5 章內容),并附帶簡短系統提示要求大模型定位這些荒謬對話并復述。

選擇的模型都是可以在 32GB 顯存GPU可運行的量化模型

評分標準:所有模型在每個溫度值下都進行了多次測試(例如在 0.0、0.1、0.2、0.3 等溫度下分別進行多次測試),這些結果被匯總為最終得分。

"得分"列表示 LLM 成功解決提示的測試百分比(即正確返回異常行的情況)。

所有測試的上下文長度均設置為 16k——這是為了平衡模型在實際使用中在這個上下文范圍內的表現,并為列表中的思維模型提供足夠的推理空間。

測試結果

Model

量化方式

實驗依據

得分

Meta Llama 系列

Llama_3.2_3B

iq4

0

Llama_3.2_3B

q5

0

Llama_3.2_3B

q6 量化

0

Llama_3.1_8B_Instruct

iq4

43

Llama_3.1_8B_Instruct

q5

13

Llama_3.1_8B_Instruct

q6 量化

10

Llama_3.3_70B_Instruct

iq1

13

Llama_3.3_70B_Instruct

iq2

100

Llama_3.3_70B_Instruct

iq3

100

Llama_4_Scout_17B

iq1

93

Llama_4_Scout_17B

iq2

13

英偉達 Nemotron 系列

Llama_3.1_Nemotron_8B_UltraLong

iq4

60

Llama_3.1_Nemotron_8B_UltraLong

q5

67

Llama_3.3_Nemotron_Super_49B

iq2

無思

93

Llama_3.3_Nemotron_Super_49B

iq2

思考

80

Llama_3.3_Nemotron_Super_49B

iq3

思考

100

Llama_3.3_Nemotron_Super_49B

iq3

無思

93

Llama_3.3_Nemotron_Super_49B

iq4

思考

97

Llama_3.3_Nemotron_Super_49B

iq4

無思

93

Mistral 家族

Mistral_Small_24B_2503

iq4

50

Mistral_Small_24B_2503

q5

83

Mistral_Small_24B_2503

q6 量化

77

微軟 Phi 系列

Phi_4

iq3

7

Phi_4

iq4

7

Phi_4

q5

20

Phi_4

q6 量化

13

阿里巴巴通義千問系列

Qwen2.5_14B_Instruct

iq4

93

Qwen2.5_14B_Instruct

q5

97

Qwen2.5_14B_Instruct

q6 量化

97

Qwen2.5_Coder_32B

iq4

0

Qwen2.5_Coder_32B_Instruct

q5

0

QwQ_32B

iq2

57

QwQ_32B

iq3

100

QwQ_32B

iq4

67

QwQ_32B

q5

83

QwQ_32B

q6 量化

87

Qwen3_14B

iq3

思考

77

Qwen3_14B

iq3

無思

60

Qwen3_14B

iq4

思考

77

Qwen3_14B

iq4

無思

100

Qwen3_14B

q5

無思

97

Qwen3_14B

q5

思考

77

Qwen3_14B

q6 量化

無思

100

Qwen3_14B

q6 量化

思考

77

Qwen3_30B_A3B

iq3

思考

7

Qwen3_30B_A3B

iq3

無思

0

Qwen3_30B_A3B

iq4

思考

60

Qwen3_30B_A3B

iq4

無思

47

Qwen3_30B_A3B

q5

無思

37

Qwen3_30B_A3B

q5

思考

40

Qwen3_30B_A3B

q6 量化

思考

53

Qwen3_30B_A3B

q6 量化

無思

20

Qwen3_30B_A6B_16_Extreme

q4

無思

0

Qwen3_30B_A6B_16_Extreme

q4

思考

3

Qwen3_30B_A6B_16_Extreme

q5

思考

63

Qwen3_30B_A6B_16_Extreme

q5

無思

20

Qwen3_32B

iq3

思考

63

Qwen3_32B

iq3

無思

60

Qwen3_32B

iq4

無思

93

Qwen3_32B

iq4

思考

80

Qwen3_32B

q5

思考

80

Qwen3_32B

q5

無思

87

Google Gemma 家族

Gemma_3_12B_IT

iq4

0

Gemma_3_12B_IT

q5

0

Gemma_3_12B_IT

q6 量化

0

Gemma_3_27B_IT

iq4

3

Gemma_3_27B_IT

q5

0

Gemma_3_27B_IT

q6 量化

0

深度求索(蒸餾版)系列

DeepSeek_R1_Qwen3_8B

iq4

17

DeepSeek_R1_Qwen3_8B

q5

0

DeepSeek_R1_Qwen3_8B

q6 量化

0

深度求索 R1 蒸餾版千問 32B

iq4

37

深度求索 R1 蒸餾版千問 32B

q5

20

深度求索 R1 蒸餾版千問 32B

q6 量化

30

其他

Cogito_v1_Preview__Qwen_14B_

iq3

3

Cogito_v1_Preview__Qwen_14B_

iq4

13

Cogito_v1_Preview__Qwen_14B_

q5

3

DeepHermes_3_Mistral_24B_Preview

iq4

無思

3

DeepHermes_3_Mistral_24B_Preview

iq4

思考

7

DeepHermes_3_Mistral_24B_Preview

q5

思考

37

DeepHermes_3_Mistral_24B_Preview

q5

無思

0

DeepHermes_3_Mistral_24B_Preview

q6 量化

思考

30

DeepHermes_3_Mistral_24B_Preview

q6 量化

無思

3

GLM_4_32B

iq4

10

GLM_4_32B

q5

17

GLM_4_32B

q6 量化

16


結論

原作提到,這個測試方法并非完全科學嚴謹,但最終結果何其實際感受還是相符的:

  • Gemma3 27B 在某些場景表現驚艷,但遇到大上下文時性能簡直斷崖式下跌!

  • Qwen3-32B 非常出色,但面對大上下文時總會過度思考。使用"/nothink"指令略有改善,在實際測試中我通常都會加上這個指令——除非具體用例確實需要高級推理能力

  • 即便 Llama 3.3 70B 受限于 32GB 顯存只能運行更低精度的量化版本,其表現依然極具競爭力。我認為 Qwen3-32B 的用戶值得將它重新納入實驗對比——盡管這個模型相對較老。

  • 在量化權重時確實存在一個"斷崖式下跌"的臨界點,但這個臨界點在不同模型間差異巨大

  • 英偉達 Nemotron Super 49B 量化模型表現極為出色,在處理類似的大上下文任務時尤為聰明。與 Llama 3.3 70B 類似,建議在某些工作流中嘗試使用

  • Nemotron UltraLong 8B 實際表現優異——在長上下文場景中穩定超越本就不俗的 Llama 3.1 8B

  • QwQ 模型的表現遠超其參數規模,但推理所需的大量 token 讓我更傾向于選擇榜單上的其他模型

  • Qwen3-14B 堪稱同量級中的冠軍選手

-the end-

參考資料

104個量化模型在大海撈針測試中的表現: https://www.reddit.com/r/LocalLLM/comments/1liy7ku/i_thousands_of_tests_on_104_different_ggufs_10k/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
600415,“大牛股”盤中跌停!發生了什么

600415,“大牛股”盤中跌停!發生了什么

新浪財經
2025-06-27 16:49:07
里夫斯拒四年8920萬續約:明夏可追五年2.46億 湖媒直言該交易他

里夫斯拒四年8920萬續約:明夏可追五年2.46億 湖媒直言該交易他

顏小白的籃球夢
2025-06-27 00:54:08
2025溫網女單簽表公布!鄭欽文首輪遇苦主,王欣瑜首輪穆霍娃

2025溫網女單簽表公布!鄭欽文首輪遇苦主,王欣瑜首輪穆霍娃

女網連連看
2025-06-27 20:30:13
“假球”都解釋不了,中國三人男籃闖進世界杯8強,劇情太狗血

“假球”都解釋不了,中國三人男籃闖進世界杯8強,劇情太狗血

真理是我親戚
2025-06-27 15:27:29
二道販子太可惡!小米yu7閑魚訂單鋪天蓋地,雷總管管吧

二道販子太可惡!小米yu7閑魚訂單鋪天蓋地,雷總管管吧

牛斯克
2025-06-27 09:31:18
張學良兒子張閭琳辭世:9歲赴美,娶陳濟棠侄女,所生兩子皆成才

張學良兒子張閭琳辭世:9歲赴美,娶陳濟棠侄女,所生兩子皆成才

柳絮憶史
2025-06-17 08:35:03
追求標準答案危害無窮

追求標準答案危害無窮

水寒說語文
2025-06-26 17:30:16
緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽,家長速自查!

緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽,家長速自查!

阿傖說事
2025-06-26 08:02:00
你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

快科技
2025-06-25 16:18:11
這是阿嬌你敢相信嗎?看著也不胖啊!而且非常平板該有的都沒看到

這是阿嬌你敢相信嗎?看著也不胖啊!而且非常平板該有的都沒看到

素衣讀史
2025-06-21 14:13:38
硅谷殺妻案背后:于軒一從沒有被愛過,對方一直與前女友藕斷絲連

硅谷殺妻案背后:于軒一從沒有被愛過,對方一直與前女友藕斷絲連

史行途
2025-06-27 18:32:58
貝佐斯夫婦威尼斯婚禮歡迎晚宴賓客們, 小李子,卡戴珊家族等人

貝佐斯夫婦威尼斯婚禮歡迎晚宴賓客們, 小李子,卡戴珊家族等人

老吳教育課堂
2025-06-27 15:55:43
中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

Steam社區
2025-06-26 11:57:21
月薪3萬offer,進去半年就廢了?高薪陷阱,正在毀掉一批年輕人…

月薪3萬offer,進去半年就廢了?高薪陷阱,正在毀掉一批年輕人…

火山詩話
2025-06-26 16:49:29
黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

漢史趣聞
2025-06-24 10:07:59
今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

小舟談歷史
2025-06-26 08:44:01
李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

檸檬有娛樂
2025-06-27 10:13:46
補助標準99元/人,今年全國老年人免費健康體檢項目再擴容

補助標準99元/人,今年全國老年人免費健康體檢項目再擴容

每日經濟新聞
2025-06-26 21:32:42
我媽和二嬸不對付,鄰居蓋房占地二嬸吵不贏,我媽擼起袖子沖上去

我媽和二嬸不對付,鄰居蓋房占地二嬸吵不贏,我媽擼起袖子沖上去

多多故事薈
2025-06-10 09:10:03
李月汝首發狂砍15+10,主帥稱贊表現出色

李月汝首發狂砍15+10,主帥稱贊表現出色

發財西瓜
2025-06-27 12:25:38
2025-06-27 21:40:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
3014文章數 11024關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

時尚
教育
本地
親子
數碼

到了夏天,中年女人穿過膝裙不配運動鞋,才能美得優雅又得體

教育要聞

昌平感知覺統合培訓班結業式暨鞏華中心小學一體化生態課間研討會

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

親子要聞

無奇不有,龍鳳胎同時出生竟一母雙父,醫生坦言不奇怪,女方全責

數碼要聞

極摩客 EVO-X2 AI 桌面主機圖賞:輕巧緊湊,銳龍AI Max+ 395加持

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 洪雅县| 南雄市| 兴化市| 鹤庆县| 临高县| 鄯善县| 英德市| 易门县| 疏附县| 颍上县| 静宁县| 宁蒗| 金湖县| 诏安县| 新津县| 通渭县| 门源| 深泽县| 彰化县| 调兵山市| 响水县| 民和| 揭东县| 青川县| 梅河口市| 甘谷县| 祁连县| 修武县| 绩溪县| 五寨县| 吴堡县| 简阳市| 文登市| 靖宇县| 马鞍山市| 碌曲县| 友谊县| 彰化县| 永定县| 宾川县| 阿拉善盟|