今日,OpenAI以一場春季發布會,向世界宣告了人工智能發展的新篇章——GPT-4o(其中“o”代表“omni”,即“全能”),一個集文本、圖片、視頻、語音于一體的全能模型,能實時響應用戶的需求,并通過語音來實時回答你,你可以隨時打斷它。還具有視覺能力,能識別物體并根據視覺做出快速的響應和回答,具有非常強的邏輯推理能力。它的速度比 GPT4-turbo快2倍,價格便宜 50%!
GPT-4o的主要能力
全模態處理能力:能夠接受并整合文本、音頻和圖像作為輸入,并生成這三種類型任意組合的輸出。這種能力極大地增強了與用戶的交互體驗,使得交流方式更加自然多樣。
實時響應速度:GPT-4o在音頻輸入的響應時間上取得了顯著提升,最快僅需2322毫秒,平均響應時間為320毫秒,接近人類對話的自然延遲,提供絲滑如真人的互動體驗。
增強的圖像與音頻理解:相較于前代模型,GPT-4o在圖像和音頻理解方面尤為出色,能夠更好地識別圖像內容、理解語境中的聲音,包括背景噪音、說話者的身份和情感,甚至能輸出笑聲、歌唱等情感豐富的音頻。
個性化與定制化體驗:用戶可以根據自身需求調整GPT-4o的輸出風格和內容,企業與開發者也能針對特定應用場景配置模型參數,以實現最佳效果。
高級對話管理:支持多輪對話管理,保持上下文的一致性,即便在復雜的對話場景下也能提供連貫、相關的回答,同時能處理如計劃制定、問題解決等復雜任務。
多語言支持:在50多種語言中提高了質量和速度,讓更多人能享受到GPT-4o的服務,進一步推動全球用戶接入。
安全性與道德規范:引入更嚴格的內容審核和過濾系統,減少有害內容的生成,確保模型的使用符合倫理標準和法律要求。
API擴展與開發者工具:GPT-4o不僅在ChatGPT中可用,還被引入至API中,開發者能更便捷地構建AI應用,享受兩倍于GPT-4 Turbo的速度,降低一半的成本,及五倍的速率限制提升。
無縫集成與用戶界面更新:發布macOS的ChatGPT桌面應用,通過快捷鍵即時交互,支持截圖和直接討論,以及語音視頻對話,用戶界面的更新也更友好、對話化。
免費與廣泛接入:GPT-4o級別智能服務的免費或低成本提供給所有用戶,包括高級工具,體現了OpenAI普及高效AI工具的使命,讓數億用戶受益。
模型評估
根據傳統基準測試,GPT-4o 在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級別的性能,同時在多語言、音頻和視覺功能上設置了新的高水位線。
改進推理 - GPT-4o 在 0-shot COT MMLU(常識問題)上創下了 88.7% 的新高分。所有這些評估都是通過我們新的簡單評估收集的(在新窗口中打開)圖書館。此外,在傳統的5-shot no-CoT MMLU上,GPT-4o創下了87.2%的新高分。(注:Llama3 400b(在新窗口中打開)還在訓練中)
音頻 ASR 性能 - GPT-4o 比 Whisper-v3 顯著提高了所有語言的語音識別性能,特別是對于資源匱乏的語言。
音頻翻譯性能 - GPT-4o 在語音翻譯方面樹立了新的最先進水平,并且在 MLS 基準測試中優于 Whisper-v3。
M3Exam - M3Exam 基準測試既是多語言評估也是視覺評估,由來自其他國家標準化測試的多項選擇題組成,有時還包括圖形和圖表。在所有語言的基準測試中,GPT-4o 都比 GPT-4 更強。(我們省略了斯瓦希里語和爪哇語的視力結果,因為這些語言的視力問題只有 5 個或更少。
視覺理解評估 - GPT-4o 在視覺感知基準上實現了最先進的性能。
LMSys 競技場上測試了一個版本,即 im-also-a-good-gpt2-chatbot下面是測試結果 牛P啊,遙遙領先....
Sam Altman在其博客文章“GPT-40”中著重闡述了兩大核心觀點:
AI工具免費或低成本提供給用戶和新的語音(及視頻)模式是前所未有的計算機界面體驗,最后,Sam Altman特別感謝團隊為實現這些成就所投入的巨大努力。
▲ 滑動查看往期內容
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.