OpenAI GPT-4o 的語音模式進入灰度測試階段,預計將于今年秋季全面開放。這一消息引起了業內外的廣泛關注,尤其是在國內外大廠紛紛加速 AI 視頻和語音模型開發的背景下,OpenAI 的新進展無疑成為焦點。
語音模式的突破:更自然、更智能的交互
此次 OpenAI 針對部分 ChatGPT Plus 用戶推出的 GPT-4o 語音模式,以其高度自然的對話體驗吸引了眾多用戶的目光。新模式不僅支持實時對話,用戶可以隨意打斷和調整互動過程,還具備識別并回應用戶情緒的能力。這種情感層次的豐富,使得人機交互不僅僅停留在功能性層面,更向情感化和人性化邁進。
多語言支持與應用場景
GPT-4o 在多語言支持方面展現了強大實力,包括法語、西班牙語和烏爾都語等多種語言的流暢表達,讓用戶體驗到無縫溝通的便捷。不少獲得測試資格的用戶紛紛探索 GPT-4o 在不同應用場景中的表現:有的將其化身為激情四溢的足球解說員,實時為觀眾帶來比賽解說;有的則利用其作為“第二外語教練”,幫助糾正發音并提高語言水平。
情感陪伴與心理健康
除了實用的語言和交流功能,GPT-4o 在情感陪伴方面的表現同樣出色。通過語音模式和自定義功能,一些用戶成功“復活”了已故的親友,與他們進行溫馨對話。這一創新應用不僅為用戶帶來了情感上的慰藉,還為人工智能在心理健康領域的應用開辟了新的可能性。
GPT-4o Long Output:64K token 輸出的強大能力
在推出語音模式的同時,OpenAI 還宣布了 GPT-4o 的另一個重要功能——長輸出模式。該功能將每次請求的輸出能力提升至64K token,相當于200頁小說的內容量。這為需要大量信息的用戶提供了更全面、細致的響應。
價格與應用場景
新模型的價格調整為每百萬輸入 token 6 美元,輸出 token 為 18 美元,盡管輸出 token 的數量是 GPT-4o 的16倍,但價格上漲幅度僅為 3 美元。長輸出功能主要適用于數據轉換等用例,如將文檔從一種語言翻譯成另一種語言,或從文檔中提取結構化數據。這一功能的推出,將為用戶在多個領域提供更強大的處理能力。
市場競爭與未來展望
與其他市面上的 AI 模型相比,GPT-4o 在性價比和實用性方面具有顯著優勢。雖然像 Gemini 和 Claude 等模型的輸出能力甚至超過百萬 token,但 OpenAI 的長輸出模式在保證高效處理的同時,仍保持了良好的用戶體驗。
OpenAI 方面表示,推出更長輸出模型的決策是基于用戶反饋。隨著用戶對更長輸出內容的需求增加,GPT-4o 的發布無疑為滿足這些需求提供了有力支持。在未來,隨著 GPT-4o 的全面開放,用戶將能享受到更加智能、貼心的語音交互體驗,以及高效的信息獲取和處理能力。
▲ 滑動查看往期內容
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.