大數據文摘受權轉載自頭部科技
文丨丁靈波
啥?微軟又泄露OpenAI商業機密了?
作為大模型領域的代表,OpenAI旗下各類大模型的參數分別有多少讓大家好奇,但由于部分涉及技術機密,如果不是OpenAI官方論文自己披露,外界很難知道確切數字。
令人意想不到的是,在微軟日前發表的一篇預印版論文中,被充滿好奇心的網友扒到了包括ChatGPT、GPT-4、GPT-4o、GPT-4o-mini、o1-mini以及o1-preview模型的具體參數!這篇所謂的“泄密”論文細節,瞬間引起了廣泛熱議。
要知道,微軟是Open AI最大投資方,累計砸了140億美元,不僅擁有OpenAI一些核心技術的獨家使用權,幕后也為OpenAI提供算力支持,就技術層面來講可能對其知根知底兒。
盡管論文里強調“大多數所報道的參數數量都是估算值”,但這些參數是否具有參考性變得十分耐人尋味。
01 事情的來龍去脈
其實,這篇所謂的“泄密”論文,并沒有專門針對OpenAI技術深挖什么,而只是一篇關于測試基準的論文,題為:《MEDEC:臨床記錄中醫療差錯檢測與糾正的基準》。論文作者來自微軟健康與生命科學人工智能部門和華盛頓大學生物醫學與健康信息學系。
眾所周知,現在大型語言模型(LLM)已能夠正確回答一部分專業醫學問題,甚至在某些特定醫學檢查中測試評分超過人類。然而,業內尚未有研究評估LLM驗證現有或生成式醫學文本的正確性和一致性的能力。
于是呢,這篇論文里研究人員就提出了一個基準方法:MEDEC,這算是第一個公開的臨床筆記醫療錯誤檢測和糾正基準,涵蓋了五種測試類型,包括診斷、管理、治療、藥物治療和病原體等。
在論文中,研究人員描述了數據創建方法,并評估了一些熱門LLM的性能,例如o1-preview、GPT-4、Claude 3.5 Sonnet和Gemini 2.0 Flash等在檢測和糾正需要醫學知識和推理能力的醫療錯誤方面的任務。
研究結果發現,盡管這些LLM在錯誤檢測和糾正方面大有長進,但它們在任務中的表現仍然不如人類專業醫生,并對這一差距背后的潛在因素、實驗見解、當前評估指標局限性和未來研究方向進行了探討。
而估算寫出OpenAI各類大模型的大概參數,可能純粹就是技術實驗需要或者作者無意為之,而且是局限在這個MEDEC基準實驗中做的推算數值。
具體推測了哪些模型的參數?不只OpenAI。
微軟自己的Phi-3參數7B;人工智能公司Anthropic旗下的Claude 3.5 Sonnet參數約175B;谷歌的Gemini 2.0 Flash沒標出來,但是提到了谷歌專為醫療用途設計的模型Med-PaLM的參數約540B。
剩下的就是OpenAI全家桶:ChatGPT約175B、GPT-4約1.76T、GPT-4o約200B、GPT-4o mini約8B、o1-mini約100B、o1-preview約300B。
在此知識小普及一下,在大模型中,B和T是用于表示模型參數數量的量級單位,B代表十億(Billion),T代表萬億(Trillion)。
通過不同大小的模型評測,微軟團隊發現Claude 3.5 Sonnet在錯誤標記檢測方面的準確率能達到70.16%,在錯誤語句檢測方面的準確率達到65.62%,目前表現優于其他基于大型語言模型的方法。
此外,o1-mini模型在錯誤標記檢測方面達到了第二高的準確率為69.08%,在這套評估基準中,o1系列模型性能要領先于GPT-4模型。
不過令論文作者應該沒想到的是,引發熱度的不是自己創造的MEDEC基準,而是GPT-4o mini是不是真的只有8B參數?這成為網友們的一大熱議點。
業內技術路線其實也在探索在模型大小和性能之間做平衡,能用較小參數的模型做出較強的性能也是一種技術能力。
例如微軟在2024年12月發布的Phi-4就是這個思路,當時用了14B參數訓練就能在數學推理領域勝過GPT-4o和Gemini Pro1.5,取得規模和性能之間的突破。
在8B這個段位的小模型其實也不少,例如Meta AI發布的Llama-3.1、Mistral AI推出的Ministral 8B、IBM推出的Granite 3.0等,只不過很多模型綜合性能上差點意思,只在某些特定領域各有所長。
其實GPT-4o mini本身在OpenAI產品體系里也屬于小模型范疇,但是不是完全只有8B這么小就不得而知了,如果是,那可真的有點厲害。
畢竟,4o mini的性能在各種評測中表現出乎意料地好,上下文窗口可達到128K,在許多任務上甚至表現出接近于GPT-4的能力,例如在MMLU測試、衡量數學推理的MGSM測試、衡量編碼性能的HumanEval測試、以及MMMU多模態推理測試等,碾壓了幾乎所有輕量級乃至大幾倍的模型。
02 網友們的討論
微軟這篇論文公布出來的參數靠不靠譜?
你要說沒有參考價值吧,它們為啥出現在了這篇技術論文中,而且怎么就單單谷歌Gemini 2.0 Flash的參數沒估算值,這讓網友們很費解,不過考慮到谷歌使用自己TPU做計算,可能是不好做估計的原因。
網友們表示,很難相信4o-mini只有8B,如果是那就太瘋狂了,也有人認為可能只是8B激活參數。
當然,不少網友對該消息持懷疑態度。因為如果是真的,現在就應該從OpenAI官方那里聽說這個消息了,如果他們發表一篇技術論文證明訓練4o-mini一共只需8B參數,那么創始人Sam絕對會在社交網絡上吹噓一番,但Sam目前并沒有對此事做出回應。
也有網友就使用體驗分析認為,4o-mini可能是一個總共擁有大約40B參數并且可能有8B個處于活動狀態的MoE。
因為它比同類8B模型包含的知識多得多(當詢問事實時),而且速度相當快,此外,GPT-4o是MoE,因此它們可能對4o mini采用了相同的架構。
8B個活躍參數這個解釋應該是靠譜的,有網友基于API 定價、OpenAI LLM總體進展和個人觀點曾做出過6.6B-8B近似的推測。
此外,人工智能顧問艾倫·湯普森 (Alan D. Thompson) 曾對各種AI模型的指標做了個對比表,在他的統計表中,給4o-mini模型標注的也是8B個參數。
或許論文里推算的數值能做個局部參考。有網友認為論文里提到的GPT-4o模型只有200B個參數也不太可能,GPT-4o同時具有原生圖像輸入/輸出、原生視覺、原生語音、文本輸出等能力,也許只是文本組件有200B而已。
03 參數結合應用才是要點
從行業發展來看,除了頂尖大模型探索AGI天花板邊界,越來越多性能強悍的小語言模型(SLM)也是比較熱門的發展趨勢之一,因為能帶來遍地開花的很多應用。
大模型和小模型的發展目前是相輔相成的,有競爭也有互補。
大模型提供了強大的基礎能力,小模型則能在特定場景下展現出更高的效率和靈活性,大模型在海量數據上進行預訓練獲得強大的能力后,可以針對特定任務進行微調,得到更小、更快更有性價比的小規格模型。
因此,模型參數不是越大越好,也不是越小越好,需要適配具體應用情況來判斷。
未來,大模型和小模型將共同推動人工智能的發展,為我們的生活帶來更多便利。
租售GPU算力
租:4090/A800/H800/H100
售:現貨H100/H800
特別適合企業級應用
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.