99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<abbr id="tbug0"><var id="tbug0"><dl id="tbug0"></dl></var></abbr>

<nav id="tbug0"><strong id="tbug0"></strong></nav>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

花了50 美元，測試104個量化大模型大海撈針能力，Qwen3-14B太驚艷了

2025-06-26 15:38:36　來源: 機器學習與Python社區

北京舉報

0

分享至

大家好，我是Ai學習的老章

Reddit看到一個帖子：104個量化模型在大海撈針測試中的表現[1]

作者在 H·G·威爾斯的《時間機器》中插入了幾段荒謬對話，測試文本長達 1 萬詞元（約覆蓋小說前 5 章內容），并附帶簡短系統提示要求大模型定位這些荒謬對話并復述。

選擇的模型都是可以在 32GB 顯存GPU可運行的量化模型

評分標準：所有模型在每個溫度值下都進行了多次測試（例如在 0.0、0.1、0.2、0.3 等溫度下分別進行多次測試），這些結果被匯總為最終得分。

"得分"列表示 LLM 成功解決提示的測試百分比（即正確返回異常行的情況）。

所有測試的上下文長度均設置為 16k——這是為了平衡模型在實際使用中在這個上下文范圍內的表現，并為列表中的思維模型提供足夠的推理空間。

測試結果

Model

量化方式

實驗依據

得分

Meta Llama 系列

Llama_3.2_3B

iq4

0

Llama_3.2_3B

q5

0

Llama_3.2_3B

q6 量化

0

Llama_3.1_8B_Instruct

iq4

43

Llama_3.1_8B_Instruct

q5

13

Llama_3.1_8B_Instruct

q6 量化

10

Llama_3.3_70B_Instruct

iq1

13

Llama_3.3_70B_Instruct

iq2

100

Llama_3.3_70B_Instruct

iq3

100

Llama_4_Scout_17B

iq1

93

Llama_4_Scout_17B

iq2

13

英偉達 Nemotron 系列

Llama_3.1_Nemotron_8B_UltraLong

iq4

60

Llama_3.1_Nemotron_8B_UltraLong

q5

67

Llama_3.3_Nemotron_Super_49B

iq2

無思

93

Llama_3.3_Nemotron_Super_49B

iq2

思考

80

Llama_3.3_Nemotron_Super_49B

iq3

思考

100

Llama_3.3_Nemotron_Super_49B

iq3

無思

93

Llama_3.3_Nemotron_Super_49B

iq4

思考

97

Llama_3.3_Nemotron_Super_49B

iq4

無思

93

Mistral 家族

Mistral_Small_24B_2503

iq4

50

Mistral_Small_24B_2503

q5

83

Mistral_Small_24B_2503

q6 量化

77

微軟 Phi 系列

Phi_4

iq3

7

Phi_4

iq4

7

Phi_4

q5

20

Phi_4

q6 量化

13

阿里巴巴通義千問系列

Qwen2.5_14B_Instruct

iq4

93

Qwen2.5_14B_Instruct

q5

97

Qwen2.5_14B_Instruct

q6 量化

97

Qwen2.5_Coder_32B

iq4

0

Qwen2.5_Coder_32B_Instruct

q5

0

QwQ_32B

iq2

57

QwQ_32B

iq3

100

QwQ_32B

iq4

67

QwQ_32B

q5

83

QwQ_32B

q6 量化

87

Qwen3_14B

iq3

思考

77

Qwen3_14B

iq3

無思

60

Qwen3_14B

iq4

思考

77

Qwen3_14B

iq4

無思

100

Qwen3_14B

q5

無思

97

Qwen3_14B

q5

思考

77

Qwen3_14B

q6 量化

無思

100

Qwen3_14B

q6 量化

思考

77

Qwen3_30B_A3B

iq3

思考

7

Qwen3_30B_A3B

iq3

無思

0

Qwen3_30B_A3B

iq4

思考

60

Qwen3_30B_A3B

iq4

無思

47

Qwen3_30B_A3B

q5

無思

37

Qwen3_30B_A3B

q5

思考

40

Qwen3_30B_A3B

q6 量化

思考

53

Qwen3_30B_A3B

q6 量化

無思

20

Qwen3_30B_A6B_16_Extreme

q4

無思

0

Qwen3_30B_A6B_16_Extreme

q4

思考

3

Qwen3_30B_A6B_16_Extreme

q5

思考

63

Qwen3_30B_A6B_16_Extreme

q5

無思

20

Qwen3_32B

iq3

思考

63

Qwen3_32B

iq3

無思

60

Qwen3_32B

iq4

無思

93

Qwen3_32B

iq4

思考

80

Qwen3_32B

q5

思考

80

Qwen3_32B

q5

無思

87

Google Gemma 家族

Gemma_3_12B_IT

iq4

0

Gemma_3_12B_IT

q5

0

Gemma_3_12B_IT

q6 量化

0

Gemma_3_27B_IT

iq4

3

Gemma_3_27B_IT

q5

0

Gemma_3_27B_IT

q6 量化

0

深度求索（蒸餾版）系列

DeepSeek_R1_Qwen3_8B

iq4

17

DeepSeek_R1_Qwen3_8B

q5

0

DeepSeek_R1_Qwen3_8B

q6 量化

0

深度求索 R1 蒸餾版千問 32B

iq4

37

深度求索 R1 蒸餾版千問 32B

q5

20

深度求索 R1 蒸餾版千問 32B

q6 量化

30

其他

Cogito_v1_Preview__Qwen_14B_

iq3

3

Cogito_v1_Preview__Qwen_14B_

iq4

13

Cogito_v1_Preview__Qwen_14B_

q5

3

DeepHermes_3_Mistral_24B_Preview

iq4

無思

3

DeepHermes_3_Mistral_24B_Preview

iq4

思考

7

DeepHermes_3_Mistral_24B_Preview

q5

思考

37

DeepHermes_3_Mistral_24B_Preview

q5

無思

0

DeepHermes_3_Mistral_24B_Preview

q6 量化

思考

30

DeepHermes_3_Mistral_24B_Preview

q6 量化

無思

3

GLM_4_32B

iq4

10

GLM_4_32B

q5

17

GLM_4_32B

q6 量化

16

結論

原作提到，這個測試方法并非完全科學嚴謹，但最終結果何其實際感受還是相符的：

Gemma3 27B 在某些場景表現驚艷，但遇到大上下文時性能簡直斷崖式下跌！
Qwen3-32B 非常出色，但面對大上下文時總會過度思考。使用"/nothink"指令略有改善，在實際測試中我通常都會加上這個指令——除非具體用例確實需要高級推理能力
即便 Llama 3.3 70B 受限于 32GB 顯存只能運行更低精度的量化版本，其表現依然極具競爭力。我認為 Qwen3-32B 的用戶值得將它重新納入實驗對比——盡管這個模型相對較老。
在量化權重時確實存在一個"斷崖式下跌"的臨界點，但這個臨界點在不同模型間差異巨大
英偉達 Nemotron Super 49B 量化模型表現極為出色，在處理類似的大上下文任務時尤為聰明。與 Llama 3.3 70B 類似，建議在某些工作流中嘗試使用
Nemotron UltraLong 8B 實際表現優異——在長上下文場景中穩定超越本就不俗的 Llama 3.1 8B
QwQ 模型的表現遠超其參數規模，但推理所需的大量 token 讓我更傾向于選擇榜單上的其他模型
Qwen3-14B 堪稱同量級中的冠軍選手

-the end-

參考資料

104個量化模型在大海撈針測試中的表現: https://www.reddit.com/r/LocalLLM/comments/1liy7ku/i_thousands_of_tests_on_104_different_ggufs_10k/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

2025年中超上海主場VS大連，球場管理員不讓球迷站著看賽

中安在線 2025-06-27 11:59:28
615 跟貼 615
盧宇光在庫爾斯克被無人機擊中，正在搶救

小A看世界 2025-06-27 00:59:10
44839 跟貼 44839

一個急救員眼中，民營長途轉運救護車的“利”與“亂”

澎湃新聞 2025-06-27 07:04:27
1059 跟貼 1059

河北網紅公司1.1億元深圳“搶樓”后悔拍，業內認為“成交總價過高”，有何隱情？

每日經濟新聞 2025-06-27 08:19:13
3274 跟貼 3274
熱搜第一！大學生熱得在樓道、操場打地鋪，東北多所高校回應無空調

大風新聞 2025-06-27 14:03:06
327 跟貼 327

上海官宣：后天出梅！下周或現39~40℃酷熱，開啟“鐵板燒”模式

魯中晨報 2025-06-27 15:16:13
84 跟貼 84

路中間正安裝漂亮的新護欄男子飆“國粹”：每年都在換

火煉樹 2025-06-27 17:18:52
4292 跟貼 4292
苗華被免去中央軍事委員會委員職務

新京報 2025-06-27 15:32:11
149 跟貼 149

手指粗的螺紋鋼一掰就斷？工人發視頻曝光樓盤鋼筋問題，當地通報：情況不實

極目新聞 2025-06-27 00:30:46
2802 跟貼 2802
加沙15歲男孩餓到只剩18公斤醫院營養補劑已枯竭

大象新聞 2025-06-27 12:23:07
5673 跟貼 5673
歐爾班：匈牙利不支持烏克蘭加入歐盟

環球網資訊 2025-06-26 22:09:49
5027 跟貼 5027
深圳市酒協呼吁酒廠主動減速降價丨封面觀酒

封面新聞 2025-06-27 17:59:05
24 跟貼 24
世界頂級數學家張益唐回國全職加盟中山大學

南方都市報 2025-06-27 19:05:13
17 跟貼 17
伊朗外長：以色列目前擁有90枚核彈頭，除以之外中東其他國家沒有一個擁核；外界估計以色列掌握核武器介于90-200枚之間

揚子晚報 2025-06-27 08:08:24
1 跟貼 1
男生高考696分收到清北“橄欖枝”：清華先找到我，北大晚了一步

星視頻 2025-06-27 14:16:59
73 跟貼 73
澎湃回聲丨“逐本”多款產品被曝成分與備案不符：企業致歉并整改

澎湃新聞 2025-06-27 17:12:29
71 跟貼 71
突破3萬億港元香港GDP連升9季

南方都市報 2025-06-27 07:04:49
71 跟貼 71
全程37小時、美軍內部吹噓……美媒揭美軍奔襲伊朗轟炸核設施任務細節

環球網資訊 2025-06-27 06:44:06
1 跟貼 1
1-5月國有企業利潤總額16514億元同比下降2.8%

界面新聞 2025-06-27 15:54:58
36 跟貼 36
反不正當競爭法完成修訂

新華社 2025-06-27 09:16:16
311 跟貼 311
1棵樹采購價近80萬！福州煙臺山公園“天價樹”調查：已有多棵死亡

揚子晚報 2025-06-27 10:38:28
0 跟貼 0
“成筐的充電寶被攔”！有機場已經提前執行新規定

上觀新聞 2025-06-27 07:34:08
1 跟貼 1
上海一小區電梯頻頻失重急墜，原因“甩鍋”黃梅天？

瀟湘晨報 2025-06-27 21:19:24
0 跟貼 0
最新回應：雙方暫時分開，獨家畫面公布↗

看看新聞Knews 2025-06-27 21:13:17
0 跟貼 0
相機鋰電池無3C標識不能過檢？北京上海機場：相機電池要求不變

新京報 2025-06-27 13:43:41
0 跟貼 0
五臺山和尚扔掉老人供奉大米，在佛殿里滿嘴臟話：這種米我們有的是

小蘿卜絲 2025-06-27 10:52:06
0 跟貼 0

600415，“大牛股”盤中跌停！發生了什么

600415，“大牛股”盤中跌停！發生了什么

新浪財經

2025-06-27 16:49:07

里夫斯拒四年8920萬續約：明夏可追五年2.46億湖媒直言該交易他

里夫斯拒四年8920萬續約：明夏可追五年2.46億湖媒直言該交易他

顏小白的籃球夢

2025-06-27 00:54:08

2025溫網女單簽表公布！鄭欽文首輪遇苦主，王欣瑜首輪穆霍娃

2025溫網女單簽表公布！鄭欽文首輪遇苦主，王欣瑜首輪穆霍娃

女網連連看

2025-06-27 20:30:13

“假球”都解釋不了，中國三人男籃闖進世界杯8強，劇情太狗血

“假球”都解釋不了，中國三人男籃闖進世界杯8強，劇情太狗血

真理是我親戚

2025-06-27 15:27:29

二道販子太可惡！小米yu7閑魚訂單鋪天蓋地，雷總管管吧

二道販子太可惡！小米yu7閑魚訂單鋪天蓋地，雷總管管吧

牛斯克

2025-06-27 09:31:18

張學良兒子張閭琳辭世：9歲赴美，娶陳濟棠侄女，所生兩子皆成才

張學良兒子張閭琳辭世：9歲赴美，娶陳濟棠侄女，所生兩子皆成才

柳絮憶史

2025-06-17 08:35:03

追求標準答案危害無窮

水寒說語文

2025-06-26 17:30:16

緊急避雷！“毒兒童牙膏”相繼曝光，絕非危言聳聽，家長速自查！

緊急避雷！“毒兒童牙膏”相繼曝光，絕非危言聳聽，家長速自查！

阿傖說事

2025-06-26 08:02:00

你上下行速度多少！工信部：1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

你上下行速度多少！工信部：1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

快科技

2025-06-25 16:18:11

這是阿嬌你敢相信嗎？看著也不胖啊！而且非常平板該有的都沒看到

這是阿嬌你敢相信嗎？看著也不胖啊！而且非常平板該有的都沒看到

素衣讀史

2025-06-21 14:13:38

硅谷殺妻案背后：于軒一從沒有被愛過，對方一直與前女友藕斷絲連

硅谷殺妻案背后：于軒一從沒有被愛過，對方一直與前女友藕斷絲連

史行途

2025-06-27 18:32:58

貝佐斯夫婦威尼斯婚禮歡迎晚宴賓客們，小李子，卡戴珊家族等人

貝佐斯夫婦威尼斯婚禮歡迎晚宴賓客們，小李子，卡戴珊家族等人

老吳教育課堂

2025-06-27 15:55:43

中國游戲超越日本！來自日本玩家の認可！IGN日本高度評價《歸唐》！甘肅文旅廳宣布支持開發組古跡掃描

中國游戲超越日本！來自日本玩家の認可！IGN日本高度評價《歸唐》！甘肅文旅廳宣布支持開發組古跡掃描

Steam社區

2025-06-26 11:57:21

月薪3萬offer，進去半年就廢了？高薪陷阱，正在毀掉一批年輕人…

月薪3萬offer，進去半年就廢了？高薪陷阱，正在毀掉一批年輕人…

火山詩話

2025-06-26 16:49:29

黃一鳴自曝：王思聰每次約她，車費都給10萬，來給5萬，回再給5萬

黃一鳴自曝：王思聰每次約她，車費都給10萬，來給5萬，回再給5萬

漢史趣聞

2025-06-24 10:07:59

今年養老金調整有點“小意外”，通知要7月公布嗎？誰能漲的多？

今年養老金調整有點“小意外”，通知要7月公布嗎？誰能漲的多？

小舟談歷史

2025-06-26 08:44:01

李湘和16歲女兒回國，直奔商場買鞋買衣服，王詩齡不化妝很清純

李湘和16歲女兒回國，直奔商場買鞋買衣服，王詩齡不化妝很清純

檸檬有娛樂

2025-06-27 10:13:46

補助標準99元/人，今年全國老年人免費健康體檢項目再擴容

補助標準99元/人，今年全國老年人免費健康體檢項目再擴容

每日經濟新聞

2025-06-26 21:32:42

我媽和二嬸不對付，鄰居蓋房占地二嬸吵不贏，我媽擼起袖子沖上去

我媽和二嬸不對付，鄰居蓋房占地二嬸吵不贏，我媽擼起袖子沖上去

多多故事薈

2025-06-10 09:10:03

李月汝首發狂砍15+10，主帥稱贊表現出色

李月汝首發狂砍15+10，主帥稱贊表現出色

發財西瓜

2025-06-27 12:25:38

機器學習與Python社區

機器學習算法與Python

3014文章數 11024關注度

往期回顧全部

科技要聞

雷軍：小米汽車成功沒靠營銷，靠的是能力

頭條要聞

美國打擊伊朗核設施后美軍一將領進入特朗普核心圈

頭條要聞

美國打擊伊朗核設施后美軍一將領進入特朗普核心圈

體育要聞

曼城“庫里”連線，送尤文晚安好夢

娛樂要聞

炸裂！榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好多家單位被罰

汽車要聞

配置升級/貴賓座椅全新GL8陸上公務艙售22.99萬

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

教育

本地

親子

數碼

到了夏天，中年女人穿過膝裙不配運動鞋，才能美得優雅又得體

教育要聞

昌平感知覺統合培訓班結業式暨鞏華中心小學一體化生態課間研討會

本地新聞

被貴妃帶火的“唐代頂流”，如今怎么不火了

親子要聞

無奇不有，龍鳳胎同時出生竟一母雙父，醫生坦言不奇怪，女方全責

數碼要聞

極摩客 EVO-X2 AI 桌面主機圖賞：輕巧緊湊，銳龍AI Max+ 395加持

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：洪雅县| 南雄市| 兴化市| 鹤庆县| 临高县| 鄯善县| 英德市| 易门县| 疏附县| 颍上县| 静宁县| 宁蒗| 金湖县| 诏安县| 新津县| 通渭县| 门源| 深泽县| 彰化县| 调兵山市| 响水县| 民和| 揭东县| 青川县| 梅河口市| 甘谷县| 祁连县| 修武县| 绩溪县| 五寨县| 吴堡县| 简阳市| 文登市| 靖宇县| 马鞍山市| 碌曲县| 友谊县| 彰化县| 永定县| 宾川县| 阿拉善盟|

<samp id="whvgu"><option id="whvgu"></option></samp>