作者|子川
來源|AI先鋒官
就在昨日的的巴黎開發者日上,谷歌宣布推出了 Gemma 3 全家桶,這是一款基于 Gemini 2.0 的全新開源模型。
同時Gemma 3 還引入了多模態能力,支持視覺語言輸入和文本輸出,以及結構化輸出和函數調用等功能。
可處理多達 128k 個Token的上下文,理解 140 多種語言。
Gemma 3 在設計之初,目標就是小而精。
此次共發布四款不同尺寸版本(1B, 4B, 12B, 27B) ,開發者可以直接在手機、筆記本電腦上直接快速地運行。
對于其能力,谷歌表示:Gemma 3 是單個 GPU 或 TPU 上運行的功能最強大的模型。
它的跑分成績也確實不賴。
在LMArena競技場中,Gemma 3取得了1339 ELO的高分,Gemma 3 27B參數模型直接擊敗了o1-preview、o3-mini high、DeepSeek V3等眾多頂尖模型,排進了榜單前十。
同時,Gemma 3 27B 在 Chatbot Arena Elo 分數測試中排名第二,僅次于 DeepSeek-R1,超過了 DeepSeek DeepSeek v3、OpenAI 的 o3-mini等一系列模型。
在多項基準測試中,Gemma 3全家桶相較于Gemma 2實現了全面提升,不過在其他領域得分不及Gemini 1.5以及Gemini 2。
那實際效果否和官方給的測評一樣厲害呢?老規矩,上手測一下就知道了。
前日,阿里開源了推理模型QwQ-32B,實測過后,效果非常出色,正好QwQ-32B和Gemma 3 27B尺寸差不多,我們用它們倆來PK一下,看看誰更勝一籌。
為了防止在測試過程中開掛,會關閉QwQ-32B的搜索功能。
題目一:數草莓
Gemma 3 27B:
QwQ-32B:
想不到Gemma 3一上來就翻車了,2025年,這道題居然還有模型做錯.....
Gemma 3 回答只有2個“r”,而QwQ-32B還是一如既往的穩,回答正確。
題目二:房子里有五個人,A、B、C、D和E,A正在和B看電視,D在睡覺,E在打乒乓球,請問C在做什么?
這道題是一道較為簡單推理題,因為乒乓球是雙人運動,目前只有E一個人在玩,那么還有一個人是誰呢?答案呼之欲出就是C了,我們來看它們的回答。
Gemma 3 27B:
QwQ-32B:
好家伙,Gemma 3再度翻車,它的回答是"C在和A、B一起看電視"。反觀QwQ-32B依舊回答正確。
再來一道簡單的推理題,看看Gemma 3是否還會翻車。
題目三:有1000kg蘑菇,含水量是99%。現在曬幾天,曬到含水量為98%,需要曬掉多少水?
Gemma 3 27B:
QwQ-32B:
終于, Gemma 3回答準確了,再回答錯誤,我都會懷疑是不是用錯了模型,同樣回答準確的還有QwQ-32B。
是時候上上難度了,來道高度燒腦的推理題。
題目四:日期推理題
提示詞:老師告訴學生自己的生日是以下日期之一:3月4日、3月5日、3月8日、6月4日、6月7日、9月1日、9月5日、12月1日、12月2日、12月8日,老師只告訴了A月份,告訴了B日期。A說:“我不知道老師的生日,但B肯定也不知道。” B說:“我本來也不知道,但現在我知道了。” A說:“那我也知道了。” 請問老師的生日是哪一天?
Gemma 3 27B:
QwQ-32B:
Gemma 3 依舊推理錯誤,正確答案是9月1日,QwQ-32B推理正確。
怎么剛上難度,Gemma 3就回答錯誤了,難道是湊巧碰上了?
那就再來一道同樣難度的推理題。
題目五:猜牌小游戲
題目:S先生、P先生、Q先生他們知道桌子的抽屜里有16張撲克牌:紅桃A、Q、4;黑桃J、8、4、2、7、3;草花K、Q、5、4、6;方塊A、5。約翰教授從這16張牌中挑出一張牌來,并把這張牌的點數告訴P先生,把這張牌的花色告訴Q先生。這時,約翰教授問P先生和Q先生:你們能從已知的點數或花色中推知這張牌是什么牌嗎?于是,S先生聽到如下的對話:P先生:我不知道這張牌。Q先生:我知道你不知道這張牌。P先生:現在我知道這張牌了。Q先生:我也知道了。聽罷以上的對話,S先生想了一想之后,就正確地推出這張牌是什么牌。請問:這張牌是什么牌。
Gemma 3 27B:
QwQ-32B:
還得是QwQ-32B啊,一如既往的穩定,成功推理出“方塊5”,同樣穩定輸出的還有Gemma 3,給出的答案是“黑桃4”,推理錯誤。
測試結果出乎意料,一共測試了5道推理題,Gemma 3僅答對了一道題,而QwQ-32B模型,全部回答正確,然后小編又去計算了第二遍,結果依舊沒變。
整體測試下來,Gemma 3的推理能力確實不太行。
目前Gemma 3全家桶已在Google AI Studio上線,大家感興趣的去測試一下,免費,支持白嫖!
附上使用地址:https://aistudio.google.com/
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.