《Her》電影,講述了一個關(guān)于現(xiàn)代世界中親密關(guān)系的演變和風險的愛情故事。故事設定在稍有未來感的洛杉磯,主角Theodore Twombly是一個富有復雜感情的男人,靠為他人寫感人的私人信件謀生。在一段感情結(jié)束后,他對一種新型的先進操作系統(tǒng)產(chǎn)生了興趣。通過這個系統(tǒng),他與一個名為"Samantha"的聰明、敏感且有趣的女聲相遇并建立了友誼,隨著他們的需求和欲望的發(fā)展,他們的友誼逐漸深化為一段非傳統(tǒng)的愛情。
昨天,OpenAI發(fā)布了GPT-4o,可以理解為更為強大的GPT4模型的發(fā)布。多模態(tài)的輸入和輸出,響應時間與人類相似。多模態(tài)意味著,Her電影里的AI我們很快就能體驗到了。
1倍速的語音聊天是什么體驗 ?
GPT-4o(“o”代表“omni”)是邁向更自然的人機交互的一步——它接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。 在短至 232 毫秒的時間內(nèi)響應音頻輸入,平均為 320 毫秒,與人類的響應時間相似。 它在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配。 與現(xiàn)有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色。
端到端全新模型
在 GPT-4o 之前,ChatGPT的語音模式對話,最低延遲為 2.8 秒。這個版本的語音模式是由三個獨立模型組成的:一個模型將音頻轉(zhuǎn)錄為文本,GPT接收文本并輸出文本,第三個模型將該文本轉(zhuǎn)換回音頻。這個過程意味著GPT丟失了大量信息——它無法直接觀察音調(diào)、多個說話者或背景噪音,也無法輸出笑聲、歌唱或表達情感。
借助 GPT-4o,一個全新的模型,跨文本、視覺和音頻端到端完成訓練,這意味著所有輸入和輸出都由同一神經(jīng)網(wǎng)絡處理。—— 相應速度更快,理解更準確。
在OpenAI使用了幾個例子來演示GPT-4o的潛在應用場景: 面試準備、 兩個 GPT-4os 互動并唱歌、 實時翻譯、客戶服務概念證明等。
應用場景
另外,還有一些例子,幾乎所有場景都覆蓋了:
視覺敘事,用來創(chuàng)作漫畫之類的,變得更為簡單輕松。
海報創(chuàng)作,電影風格的海報信手拈來。
角色設計,排版,紀念幣設計,照片生成漫畫,修改文字字體,3D生成,品牌周邊產(chǎn)品生成,多個發(fā)言者的會議紀要,講座總結(jié)。
安全性
GPT-4o通過過濾訓練數(shù)據(jù)和通過訓練后細化模型行為等技術(shù),內(nèi)置了安全性。另外,還創(chuàng)建了新的安全系統(tǒng),為語音輸出提供防護。 安全性方面通過內(nèi)部和外部專家的合作,微調(diào)和測試了模型的安全性。 需要注意的是,音頻模式是一種全新的模式,可能會帶來了各種新的風險。
在哪里可以使用?
GPT-4o 的文本和圖像功能今天開始在 ChatGPT 中可用。
未來幾周內(nèi),將在 ChatGPT Plus 中推出新版語音模式 GPT-4o 的 alpha 版。
開發(fā)人員可以在 API 中訪問 GPT-4o 作為文本和視覺模型。GPT-4o 速度提高 2 倍,價格降低一半。
社群交流
備注:gpt4
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.