99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

驚呆網友!微軟論文意外“泄密”OpenAI模型參數引熱議,GPT-4o mini僅8B?

0
分享至


大數據文摘受權轉載自頭部科技

文丨丁靈波

啥?微軟又泄露OpenAI商業機密了?

作為大模型領域的代表,OpenAI旗下各類大模型的參數分別有多少讓大家好奇,但由于部分涉及技術機密,如果不是OpenAI官方論文自己披露,外界很難知道確切數字。

令人意想不到的是,在微軟日前發表的一篇預印版論文中,被充滿好奇心的網友扒到了包括ChatGPT、GPT-4、GPT-4o、GPT-4o-mini、o1-mini以及o1-preview模型的具體參數!這篇所謂的“泄密”論文細節,瞬間引起了廣泛熱議。


要知道,微軟是Open AI最大投資方,累計砸了140億美元,不僅擁有OpenAI一些核心技術的獨家使用權,幕后也為OpenAI提供算力支持,就技術層面來講可能對其知根知底兒。

盡管論文里強調“大多數所報道的參數數量都是估算值”,但這些參數是否具有參考性變得十分耐人尋味。

01 事情的來龍去脈

其實,這篇所謂的“泄密”論文,并沒有專門針對OpenAI技術深挖什么,而只是一篇關于測試基準的論文,題為:《MEDEC:臨床記錄中醫療差錯檢測與糾正的基準》。論文作者來自微軟健康與生命科學人工智能部門和華盛頓大學生物醫學與健康信息學系。


眾所周知,現在大型語言模型(LLM)已能夠正確回答一部分專業醫學問題,甚至在某些特定醫學檢查中測試評分超過人類。然而,業內尚未有研究評估LLM驗證現有或生成式醫學文本的正確性和一致性的能力。

于是呢,這篇論文里研究人員就提出了一個基準方法:MEDEC,這算是第一個公開的臨床筆記醫療錯誤檢測和糾正基準,涵蓋了五種測試類型,包括診斷、管理、治療、藥物治療和病原體等。

在論文中,研究人員描述了數據創建方法,并評估了一些熱門LLM的性能,例如o1-preview、GPT-4、Claude 3.5 Sonnet和Gemini 2.0 Flash等在檢測和糾正需要醫學知識和推理能力的醫療錯誤方面的任務。

研究結果發現,盡管這些LLM在錯誤檢測和糾正方面大有長進,但它們在任務中的表現仍然不如人類專業醫生,并對這一差距背后的潛在因素、實驗見解、當前評估指標局限性和未來研究方向進行了探討。

而估算寫出OpenAI各類大模型的大概參數,可能純粹就是技術實驗需要或者作者無意為之,而且是局限在這個MEDEC基準實驗中做的推算數值。


具體推測了哪些模型的參數?不只OpenAI。

微軟自己的Phi-3參數7B;人工智能公司Anthropic旗下的Claude 3.5 Sonnet參數約175B;谷歌的Gemini 2.0 Flash沒標出來,但是提到了谷歌專為醫療用途設計的模型Med-PaLM的參數約540B。

剩下的就是OpenAI全家桶:ChatGPT約175B、GPT-4約1.76T、GPT-4o約200B、GPT-4o mini約8B、o1-mini約100B、o1-preview約300B。

在此知識小普及一下,在大模型中,B和T是用于表示模型參數數量的量級單位,B代表十億(Billion),T代表萬億(Trillion)。

通過不同大小的模型評測,微軟團隊發現Claude 3.5 Sonnet在錯誤標記檢測方面的準確率能達到70.16%,在錯誤語句檢測方面的準確率達到65.62%,目前表現優于其他基于大型語言模型的方法。


此外,o1-mini模型在錯誤標記檢測方面達到了第二高的準確率為69.08%,在這套評估基準中,o1系列模型性能要領先于GPT-4模型。

不過令論文作者應該沒想到的是,引發熱度的不是自己創造的MEDEC基準,而是GPT-4o mini是不是真的只有8B參數?這成為網友們的一大熱議點。

業內技術路線其實也在探索在模型大小和性能之間做平衡,能用較小參數的模型做出較強的性能也是一種技術能力。

例如微軟在2024年12月發布的Phi-4就是這個思路,當時用了14B參數訓練就能在數學推理領域勝過GPT-4o和Gemini Pro1.5,取得規模和性能之間的突破。


在8B這個段位的小模型其實也不少,例如Meta AI發布的Llama-3.1、Mistral AI推出的Ministral 8B、IBM推出的Granite 3.0等,只不過很多模型綜合性能上差點意思,只在某些特定領域各有所長。


其實GPT-4o mini本身在OpenAI產品體系里也屬于小模型范疇,但是不是完全只有8B這么小就不得而知了,如果是,那可真的有點厲害。


畢竟,4o mini的性能在各種評測中表現出乎意料地好,上下文窗口可達到128K,在許多任務上甚至表現出接近于GPT-4的能力,例如在MMLU測試、衡量數學推理的MGSM測試、衡量編碼性能的HumanEval測試、以及MMMU多模態推理測試等,碾壓了幾乎所有輕量級乃至大幾倍的模型。

02 網友們的討論

微軟這篇論文公布出來的參數靠不靠譜?

你要說沒有參考價值吧,它們為啥出現在了這篇技術論文中,而且怎么就單單谷歌Gemini 2.0 Flash的參數沒估算值,這讓網友們很費解,不過考慮到谷歌使用自己TPU做計算,可能是不好做估計的原因。

網友們表示,很難相信4o-mini只有8B,如果是那就太瘋狂了,也有人認為可能只是8B激活參數。


當然,不少網友對該消息持懷疑態度。因為如果是真的,現在就應該從OpenAI官方那里聽說這個消息了,如果他們發表一篇技術論文證明訓練4o-mini一共只需8B參數,那么創始人Sam絕對會在社交網絡上吹噓一番,但Sam目前并沒有對此事做出回應。


也有網友就使用體驗分析認為,4o-mini可能是一個總共擁有大約40B參數并且可能有8B個處于活動狀態的MoE。

因為它比同類8B模型包含的知識多得多(當詢問事實時),而且速度相當快,此外,GPT-4o是MoE,因此它們可能對4o mini采用了相同的架構。

8B個活躍參數這個解釋應該是靠譜的,有網友基于API 定價、OpenAI LLM總體進展和個人觀點曾做出過6.6B-8B近似的推測。


此外,人工智能顧問艾倫·湯普森 (Alan D. Thompson) 曾對各種AI模型的指標做了個對比表,在他的統計表中,給4o-mini模型標注的也是8B個參數。


或許論文里推算的數值能做個局部參考。有網友認為論文里提到的GPT-4o模型只有200B個參數也不太可能,GPT-4o同時具有原生圖像輸入/輸出、原生視覺、原生語音、文本輸出等能力,也許只是文本組件有200B而已。

03 參數結合應用才是要點

從行業發展來看,除了頂尖大模型探索AGI天花板邊界,越來越多性能強悍的小語言模型(SLM)也是比較熱門的發展趨勢之一,因為能帶來遍地開花的很多應用。

大模型和小模型的發展目前是相輔相成的,有競爭也有互補。

大模型提供了強大的基礎能力,小模型則能在特定場景下展現出更高的效率和靈活性,大模型在海量數據上進行預訓練獲得強大的能力后,可以針對特定任務進行微調,得到更小、更快更有性價比的小規格模型。

因此,模型參數不是越大越好,也不是越小越好,需要適配具體應用情況來判斷。

未來,大模型和小模型將共同推動人工智能的發展,為我們的生活帶來更多便利。

租售GPU算力

租:4090/A800/H800/H100

售:現貨H100/H800

特別適合企業級應用

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
逛工廠比逛迪士尼還香?

逛工廠比逛迪士尼還香?

中國新聞周刊
2025-05-01 08:53:15
歐洲遭遇大停電,中國一位電工意外“紅”了

歐洲遭遇大停電,中國一位電工意外“紅”了

上觀新聞
2025-05-02 09:54:23
布倫森40分送制勝三分!尼克斯拒絕逆轉,4-2活塞晉級對陣綠軍

布倫森40分送制勝三分!尼克斯拒絕逆轉,4-2活塞晉級對陣綠軍

湖人崛起
2025-05-02 10:28:06
前河床主席:德米凱利斯犯了八歲孩子都不會犯的錯誤,他真的毀了一切

前河床主席:德米凱利斯犯了八歲孩子都不會犯的錯誤,他真的毀了一切

雷速體育
2025-05-02 09:33:36
新史記:協和23歲醫學博士韓佳澍傳

新史記:協和23歲醫學博士韓佳澍傳

妮妮玩不夠
2025-05-01 07:24:33
今年的五一很反常!外國人來中國的特別多,入境游單量倍數猛增!

今年的五一很反常!外國人來中國的特別多,入境游單量倍數猛增!

青青子衿
2025-05-01 23:55:25
肖飛: 這么嚴重的網暴,這是把人往死里逼,我就算死了也死不瞑目

肖飛: 這么嚴重的網暴,這是把人往死里逼,我就算死了也死不瞑目

特特農村生活
2025-05-01 14:51:58
女子扔鼻涕紙后續:身份被扒,同事都知道工作堪憂!華東師大淪陷

女子扔鼻涕紙后續:身份被扒,同事都知道工作堪憂!華東師大淪陷

阿傖說事
2025-05-01 22:29:36
越想越氣!董襲瑩的姑姑簡直太過分了,竟抄襲自己學生的論文!

越想越氣!董襲瑩的姑姑簡直太過分了,竟抄襲自己學生的論文!

青青子衿
2025-05-02 00:51:34
西方情報機構評估:朝軍入俄初期傷亡較大,陣亡人數或超5000人!

西方情報機構評估:朝軍入俄初期傷亡較大,陣亡人數或超5000人!

凱撒談兵
2025-05-01 17:17:05
外媒爆:澤連斯基曾六次致信盧拉請求會面,均未獲巴西方面回應

外媒爆:澤連斯基曾六次致信盧拉請求會面,均未獲巴西方面回應

環球網資訊
2025-05-02 10:16:38
山東一景區怕游客趕不到海,一下午撒3000斤蛤蜊!工作人員:給游客提供情緒價值

山東一景區怕游客趕不到海,一下午撒3000斤蛤蜊!工作人員:給游客提供情緒價值

現代快報
2025-05-02 10:35:04
看來董襲瑩的家人真的急了,也讓我們見識了什么是速度

看來董襲瑩的家人真的急了,也讓我們見識了什么是速度

魔都姐姐雜談
2025-04-30 18:57:09
“提供關鍵零部件支持”,美媒:美軍證實從“飛機墳場”調撥退役F-16支援烏克蘭

“提供關鍵零部件支持”,美媒:美軍證實從“飛機墳場”調撥退役F-16支援烏克蘭

環球網資訊
2025-05-02 11:51:21
泰山已經失守!全國游客這哪是來旅游,這是來排隊登基,人潮密集

泰山已經失守!全國游客這哪是來旅游,這是來排隊登基,人潮密集

追風小狗
2025-05-02 07:10:06
特朗普承認貨架變空:美國小孩只能有2個玩具了

特朗普承認貨架變空:美國小孩只能有2個玩具了

大象新聞
2025-05-02 07:15:04
本想懲罰一對半,沒想到一座大山被崩了!央媒發聲處理董某和機構

本想懲罰一對半,沒想到一座大山被崩了!央媒發聲處理董某和機構

奇思妙想草葉君
2025-05-01 23:24:30
豁免25%關稅!剛剛,美國證實!

豁免25%關稅!剛剛,美國證實!

證券時報
2025-05-02 08:29:06
小S獻祭二女兒的瓜!

小S獻祭二女兒的瓜!

八卦瘋叔
2025-05-02 10:01:38
安東尼轟逆足世界波!打懵曼聯前隊友,霸氣跪滑慶祝,19場造10球

安東尼轟逆足世界波!打懵曼聯前隊友,霸氣跪滑慶祝,19場造10球

我愛英超
2025-05-02 05:39:38
2025-05-02 12:12:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6611文章數 94407關注度
往期回顧 全部

科技要聞

在華不及預期!蘋果稱關稅將增9億美元成本

頭條要聞

外媒:澤連斯基曾六次請求與盧拉會面 均未獲得回應

頭條要聞

外媒:澤連斯基曾六次請求與盧拉會面 均未獲得回應

體育要聞

為了湖人的28號秀,森林狼差點沒換來戈貝爾

娛樂要聞

霍啟剛郭晶晶夫婦現身馬麗新片首映

財經要聞

黃仁勛在美國又穿西裝表態,怎么看?

汽車要聞

同比增長32% 一汽豐田4月銷售新車65024臺

態度原創

教育
健康
本地
公開課
軍事航空

教育要聞

物理降了,一本線470分!歷史一本線515分!成都高三三診劃線、一分一段表來了

唇皰疹和口腔潰瘍是"同伙"嗎?

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄稱打擊烏軍多地目標 烏稱收復陣地

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 定边县| 桐乡市| 马鞍山市| 汶上县| 榆社县| 民勤县| 逊克县| 黄浦区| 东乌| 阜南县| 社会| 无极县| 商都县| 双鸭山市| 文登市| 岳西县| 慈利县| 上栗县| 乌拉特中旗| 新密市| 义乌市| 孟村| 平果县| 巫溪县| 清涧县| 江北区| 京山县| 望江县| 酒泉市| 利津县| 大名县| 丰都县| 无极县| 鹤壁市| 滦南县| 大冶市| 博野县| 扶沟县| 景东| 乐平市| 科尔|