網易首頁 > 網易號 > 正文申請入駐

谷歌推最強單加速模型Gemma 3，PK QwQ-32B 5道題僅對1個！

2025-03-13 08:12:50　來源: AI先鋒官

北京舉報

分享至

作者｜子川

來源｜AI先鋒官

就在昨日的的巴黎開發者日上，谷歌宣布推出了 Gemma 3 全家桶，這是一款基于 Gemini 2.0 的全新開源模型。

同時Gemma 3 還引入了多模態能力，支持視覺語言輸入和文本輸出，以及結構化輸出和函數調用等功能。

可處理多達 128k 個Token的上下文，理解 140 多種語言。

Gemma 3 在設計之初，目標就是小而精。

此次共發布四款不同尺寸版本(1B, 4B, 12B, 27B) ，開發者可以直接在手機、筆記本電腦上直接快速地運行。

對于其能力，谷歌表示：Gemma 3 是單個 GPU 或 TPU 上運行的功能最強大的模型。

它的跑分成績也確實不賴。

在LMArena競技場中，Gemma 3取得了1339 ELO的高分，Gemma 3 27B參數模型直接擊敗了o1-preview、o3-mini high、DeepSeek V3等眾多頂尖模型，排進了榜單前十。

同時，Gemma 3 27B 在 Chatbot Arena Elo 分數測試中排名第二，僅次于 DeepSeek-R1，超過了 DeepSeek DeepSeek v3、OpenAI 的 o3-mini等一系列模型。

在多項基準測試中，Gemma 3全家桶相較于Gemma 2實現了全面提升，不過在其他領域得分不及Gemini 1.5以及Gemini 2。

那實際效果否和官方給的測評一樣厲害呢？老規矩，上手測一下就知道了。

前日，阿里開源了推理模型QwQ-32B，實測過后，效果非常出色，正好QwQ-32B和Gemma 3 27B尺寸差不多，我們用它們倆來PK一下，看看誰更勝一籌。

為了防止在測試過程中開掛，會關閉QwQ-32B的搜索功能。

題目一：數草莓

Gemma 3 27B：

QwQ-32B：

想不到Gemma 3一上來就翻車了，2025年，這道題居然還有模型做錯.....

Gemma 3 回答只有2個“r”，而QwQ-32B還是一如既往的穩，回答正確。

題目二：房子里有五個人，A、B、C、D和E，A正在和B看電視，D在睡覺，E在打乒乓球，請問C在做什么？

這道題是一道較為簡單推理題，因為乒乓球是雙人運動，目前只有E一個人在玩，那么還有一個人是誰呢？答案呼之欲出就是C了，我們來看它們的回答。

Gemma 3 27B：

QwQ-32B：

好家伙，Gemma 3再度翻車，它的回答是"C在和A、B一起看電視"。反觀QwQ-32B依舊回答正確。

再來一道簡單的推理題，看看Gemma 3是否還會翻車。

題目三：有1000kg蘑菇，含水量是99％。現在曬幾天，曬到含水量為98%，需要曬掉多少水？

Gemma 3 27B：

QwQ-32B：

終于， Gemma 3回答準確了，再回答錯誤，我都會懷疑是不是用錯了模型，同樣回答準確的還有QwQ-32B。

是時候上上難度了，來道高度燒腦的推理題。

題目四：日期推理題

提示詞:老師告訴學生自己的生日是以下日期之一：3月4日、3月5日、3月8日、6月4日、6月7日、9月1日、9月5日、12月1日、12月2日、12月8日，老師只告訴了A月份，告訴了B日期。A說：“我不知道老師的生日，但B肯定也不知道。” B說：“我本來也不知道，但現在我知道了。” A說：“那我也知道了。” 請問老師的生日是哪一天？

Gemma 3 27B：

QwQ-32B：

Gemma 3 依舊推理錯誤，正確答案是9月1日，QwQ-32B推理正確。

怎么剛上難度，Gemma 3就回答錯誤了，難道是湊巧碰上了？

那就再來一道同樣難度的推理題。

題目五：猜牌小游戲

題目：S先生、P先生、Q先生他們知道桌子的抽屜里有16張撲克牌：紅桃A、Q、4；黑桃J、8、4、2、7、3；草花K、Q、5、4、6；方塊A、5。約翰教授從這16張牌中挑出一張牌來，并把這張牌的點數告訴P先生，把這張牌的花色告訴Q先生。這時，約翰教授問P先生和Q先生：你們能從已知的點數或花色中推知這張牌是什么牌嗎？于是，S先生聽到如下的對話：P先生：我不知道這張牌。Q先生：我知道你不知道這張牌。P先生：現在我知道這張牌了。Q先生：我也知道了。聽罷以上的對話，S先生想了一想之后，就正確地推出這張牌是什么牌。請問：這張牌是什么牌。

Gemma 3 27B：

QwQ-32B：

還得是QwQ-32B啊，一如既往的穩定，成功推理出“方塊5”，同樣穩定輸出的還有Gemma 3，給出的答案是“黑桃4”，推理錯誤。

測試結果出乎意料，一共測試了5道推理題，Gemma 3僅答對了一道題，而QwQ-32B模型，全部回答正確，然后小編又去計算了第二遍，結果依舊沒變。

整體測試下來，Gemma 3的推理能力確實不太行。

目前Gemma 3全家桶已在Google AI Studio上線，大家感興趣的去測試一下，免費，支持白嫖！

附上使用地址：https://aistudio.google.com/

掃碼邀請進群，我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學一些AI搞錢技能。

往期文章回顧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.