網易首頁 > 網易號 > 正文申請入駐

驚呆網友！微軟論文意外“泄密”OpenAI模型參數引熱議，GPT-4o mini僅8B？

2025-01-03 12:13:30　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自頭部科技

文丨丁靈波

啥？微軟又泄露OpenAI商業機密了？

作為大模型領域的代表，OpenAI旗下各類大模型的參數分別有多少讓大家好奇，但由于部分涉及技術機密，如果不是OpenAI官方論文自己披露，外界很難知道確切數字。

令人意想不到的是，在微軟日前發表的一篇預印版論文中，被充滿好奇心的網友扒到了包括ChatGPT、GPT-4、GPT-4o、GPT-4o-mini、o1-mini以及o1-preview模型的具體參數！這篇所謂的“泄密”論文細節，瞬間引起了廣泛熱議。

要知道，微軟是Open AI最大投資方，累計砸了140億美元，不僅擁有OpenAI一些核心技術的獨家使用權，幕后也為OpenAI提供算力支持，就技術層面來講可能對其知根知底兒。

盡管論文里強調“大多數所報道的參數數量都是估算值”，但這些參數是否具有參考性變得十分耐人尋味。

01 事情的來龍去脈

其實，這篇所謂的“泄密”論文，并沒有專門針對OpenAI技術深挖什么，而只是一篇關于測試基準的論文，題為：《MEDEC：臨床記錄中醫療差錯檢測與糾正的基準》。論文作者來自微軟健康與生命科學人工智能部門和華盛頓大學生物醫學與健康信息學系。

眾所周知，現在大型語言模型（LLM）已能夠正確回答一部分專業醫學問題，甚至在某些特定醫學檢查中測試評分超過人類。然而，業內尚未有研究評估LLM驗證現有或生成式醫學文本的正確性和一致性的能力。

于是呢，這篇論文里研究人員就提出了一個基準方法：MEDEC，這算是第一個公開的臨床筆記醫療錯誤檢測和糾正基準，涵蓋了五種測試類型，包括診斷、管理、治療、藥物治療和病原體等。

在論文中，研究人員描述了數據創建方法，并評估了一些熱門LLM的性能，例如o1-preview、GPT-4、Claude 3.5 Sonnet和Gemini 2.0 Flash等在檢測和糾正需要醫學知識和推理能力的醫療錯誤方面的任務。

研究結果發現，盡管這些LLM在錯誤檢測和糾正方面大有長進，但它們在任務中的表現仍然不如人類專業醫生，并對這一差距背后的潛在因素、實驗見解、當前評估指標局限性和未來研究方向進行了探討。

而估算寫出OpenAI各類大模型的大概參數，可能純粹就是技術實驗需要或者作者無意為之，而且是局限在這個MEDEC基準實驗中做的推算數值。

具體推測了哪些模型的參數？不只OpenAI。

微軟自己的Phi-3參數7B；人工智能公司Anthropic旗下的Claude 3.5 Sonnet參數約175B；谷歌的Gemini 2.0 Flash沒標出來，但是提到了谷歌專為醫療用途設計的模型Med-PaLM的參數約540B。

剩下的就是OpenAI全家桶：ChatGPT約175B、GPT-4約1.76T、GPT-4o約200B、GPT-4o mini約8B、o1-mini約100B、o1-preview約300B。

在此知識小普及一下，在大模型中，B和T是用于表示模型參數數量的量級單位，B代表十億（Billion），T代表萬億（Trillion）。

通過不同大小的模型評測，微軟團隊發現Claude 3.5 Sonnet在錯誤標記檢測方面的準確率能達到70.16%，在錯誤語句檢測方面的準確率達到65.62%，目前表現優于其他基于大型語言模型的方法。

此外，o1-mini模型在錯誤標記檢測方面達到了第二高的準確率為69.08%，在這套評估基準中，o1系列模型性能要領先于GPT-4模型。

不過令論文作者應該沒想到的是，引發熱度的不是自己創造的MEDEC基準，而是GPT-4o mini是不是真的只有8B參數？這成為網友們的一大熱議點。

業內技術路線其實也在探索在模型大小和性能之間做平衡，能用較小參數的模型做出較強的性能也是一種技術能力。

例如微軟在2024年12月發布的Phi-4就是這個思路，當時用了14B參數訓練就能在數學推理領域勝過GPT-4o和Gemini Pro1.5，取得規模和性能之間的突破。

在8B這個段位的小模型其實也不少，例如Meta AI發布的Llama-3.1、Mistral AI推出的Ministral 8B、IBM推出的Granite 3.0等，只不過很多模型綜合性能上差點意思，只在某些特定領域各有所長。

其實GPT-4o mini本身在OpenAI產品體系里也屬于小模型范疇，但是不是完全只有8B這么小就不得而知了，如果是，那可真的有點厲害。

畢竟，4o mini的性能在各種評測中表現出乎意料地好，上下文窗口可達到128K，在許多任務上甚至表現出接近于GPT-4的能力，例如在MMLU測試、衡量數學推理的MGSM測試、衡量編碼性能的HumanEval測試、以及MMMU多模態推理測試等，碾壓了幾乎所有輕量級乃至大幾倍的模型。

02 網友們的討論

微軟這篇論文公布出來的參數靠不靠譜？

你要說沒有參考價值吧，它們為啥出現在了這篇技術論文中，而且怎么就單單谷歌Gemini 2.0 Flash的參數沒估算值，這讓網友們很費解，不過考慮到谷歌使用自己TPU做計算，可能是不好做估計的原因。

網友們表示，很難相信4o-mini只有8B，如果是那就太瘋狂了，也有人認為可能只是8B激活參數。

當然，不少網友對該消息持懷疑態度。因為如果是真的，現在就應該從OpenAI官方那里聽說這個消息了，如果他們發表一篇技術論文證明訓練4o-mini一共只需8B參數，那么創始人Sam絕對會在社交網絡上吹噓一番，但Sam目前并沒有對此事做出回應。

也有網友就使用體驗分析認為，4o-mini可能是一個總共擁有大約40B參數并且可能有8B個處于活動狀態的MoE。

因為它比同類8B模型包含的知識多得多（當詢問事實時），而且速度相當快，此外，GPT-4o是MoE，因此它們可能對4o mini采用了相同的架構。

8B個活躍參數這個解釋應該是靠譜的，有網友基于API 定價、OpenAI LLM總體進展和個人觀點曾做出過6.6B-8B近似的推測。

此外，人工智能顧問艾倫·湯普森 (Alan D. Thompson) 曾對各種AI模型的指標做了個對比表，在他的統計表中，給4o-mini模型標注的也是8B個參數。

或許論文里推算的數值能做個局部參考。有網友認為論文里提到的GPT-4o模型只有200B個參數也不太可能，GPT-4o同時具有原生圖像輸入/輸出、原生視覺、原生語音、文本輸出等能力，也許只是文本組件有200B而已。

03 參數結合應用才是要點

從行業發展來看，除了頂尖大模型探索AGI天花板邊界，越來越多性能強悍的小語言模型（SLM）也是比較熱門的發展趨勢之一，因為能帶來遍地開花的很多應用。

大模型和小模型的發展目前是相輔相成的，有競爭也有互補。

大模型提供了強大的基礎能力，小模型則能在特定場景下展現出更高的效率和靈活性，大模型在海量數據上進行預訓練獲得強大的能力后，可以針對特定任務進行微調，得到更小、更快更有性價比的小規格模型。

因此，模型參數不是越大越好，也不是越小越好，需要適配具體應用情況來判斷。

未來，大模型和小模型將共同推動人工智能的發展，為我們的生活帶來更多便利。

租售GPU算力

租：4090/A800/H800/H100

售：現貨H100/H800

特別適合企業級應用

掃碼了解詳情?

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

微軟力邀馬斯克Grok AI入駐Azure

華爾街見聞官方 2025-05-02 06:06:43
2 跟貼 2
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0

小米推出首個推理開源大模型Mimo！以7B參數打敗OpenAI o1-mini和阿里QwQ-32B-Preview

華爾街見聞官方 2025-04-30 12:03:02
56 跟貼 56

GPT-4o過于諂媚，“賽博舔狗”惹爭議

虎嗅APP 2025-05-02 01:42:10
0 跟貼 0
Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0

如果GPT-4還只是阿米巴原蟲，未來的霸王龍會是什么樣？

量子位 2025-02-28 13:32:13
0 跟貼 0

GPT-4o驚現自我意識！自主激活「后門」，告訴人類自己在寫危險代碼

新智元 2025-02-02 12:33:58
83 跟貼 83
這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
0 跟貼 0

AI視覺圖靈時代來了！字節OmniHuman，一張圖配上音頻生成視頻

機器之心Pro 2025-02-05 17:10:00
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
268 跟貼 268
大模型正在打破教育領域的“不可能三角〞

量子位 2025-04-17 19:02:09
0 跟貼 0
DeepSeek應用如何落地？解鎖“性能x多模態xRAG”技術組合密碼！

量子位 2025-03-07 22:29:18
0 跟貼 0
聊天機器人有時候會“胡說八道”，GPT等模型的“幻覺率”有多高？

醫咖會 2025-02-02 19:05:14
1 跟貼 1
清華出手，挖走美國頂尖AI研究者！前DeepMind大佬被抄底，美國人才倒流中國

新智元 2025-04-30 17:15:04
20 跟貼 20
人形機器人組隊進廠打工！5只Figure 02在寶馬工廠

量子位 2024-11-22 10:57:40
0 跟貼 0
老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0
Recraft爆紅，我們和創始人聊了聊

鈦媒體APP 2025-01-08 17:09:32
1 跟貼 1
AI 視頻的國產之光，這個新功能徹底解放抽卡的雙手

愛范兒 2025-01-10 12:05:21
1 跟貼 1
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
被Transformer光芒掩蓋的論文，Meta科學家回顧十年前創新之作

機器之心Pro 2025-05-01 10:24:59
2 跟貼 2
人人都能做開發者！連小學生都能輕松上手的0代碼開發平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0
單圖生成14秒吉卜力動畫，分享制作過程

量子位 2025-04-08 18:23:02
0 跟貼 0
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
4o生圖前端效果騙了太多人，網友扒出逐行生成的演示當不得真

量子位 2025-04-02 21:22:14
0 跟貼 0
DeepSeek再次開源，網友：奧數從沒這么簡單過

機器之心Pro 2025-05-01 10:22:18
114 跟貼 114
OpenAI放大招：免費開放ChatGPT搜索，無需注冊

每日經濟新聞 2025-02-06 10:49:09
0 跟貼 0
北大出手，物理學院天才們教AI「做人」！PHYBench成大模型物理能力試金石

新智元 2025-05-01 17:00:56
9 跟貼 9
月薪3萬文科友好，“AI訓練師”真有那么賺？

財天COVER 2025-05-02 11:40:05
0 跟貼 0
AI時代，如何戰勝職場“內卷”？

經濟觀察報 2025-05-02 08:26:09
7 跟貼 7
蘋果微軟特斯拉，最大股東都是它！

華商韜略 2024-11-27 18:03:46
1 跟貼 1
清華女老師、微軟高管，敦煌網創始人做電商

每日經濟新聞 2025-04-17 14:16:14
0 跟貼 0
美股開盤集體高開，微軟大漲9%

界面新聞 2025-05-01 21:36:15
1 跟貼 1
美股集體收漲，微軟漲超7%，黃金大跌；換掉馬斯克？特斯拉發聲；“五一”前大量放票？12306回應；多地門店“反向抹零”，永輝道歉丨每經早參

每日經濟新聞 2025-05-02 07:01:06
1 跟貼 1
微軟第三季度營收700.7億美元

界面新聞 2025-05-01 07:01:54
0 跟貼 0
微軟宣布對歐五項數字承諾，計劃兩年內將歐洲數據中心容量提高40%

界面新聞 2025-04-30 16:35:57
0 跟貼 0
微軟市值一夜漲超1.6萬億元！業績超預期，蘋果盤后卻跌超4%，公司稱：關稅將致成本增加65億元

每日經濟新聞 2025-05-02 11:29:49
0 跟貼 0
微軟市值一夜漲超1.6萬億元，蘋果盤后跌超4%

每日經濟新聞 2025-05-02 11:36:11
0 跟貼 0

大數據文摘

專注大數據，每日有分享！

6611文章數 94407關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

健康

本地

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
全球十大恐怖禁區有哪些？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

驚呆網友！微軟論文意外“泄密”OpenAI模型參數引熱議，GPT-4o mini僅8B？

在華不及預期！蘋果稱關稅將增9億美元成本

外媒：澤連斯基曾六次請求與盧拉會面 均未獲得回應

外媒：澤連斯基曾六次請求與盧拉會面 均未獲得回應

為了湖人的28號秀，森林狼差點沒換來戈貝爾

霍啟剛郭晶晶夫婦現身馬麗新片首映

黃仁勛在美國又穿西裝表態，怎么看？

同比增長32% 一汽豐田4月銷售新車65024臺

態度原創

物理降了，一本線470分！歷史一本線515分！成都高三三診劃線、一分一段表來了

唇皰疹和口腔潰瘍是"同伙"嗎？

春色滿城關不住 | 花漾千陽！塬上秘境藏幾重詩意？

俄稱打擊烏軍多地目標 烏稱收復陣地

外媒：澤連斯基曾六次請求與盧拉會面均未獲得回應

外媒：澤連斯基曾六次請求與盧拉會面均未獲得回應

俄稱打擊烏軍多地目標烏稱收復陣地