Her ? GPT-4o

2024-05-14 12:56:20　來源: 人間三角

江蘇舉報

分享至

《Her》電影，講述了一個關(guān)于現(xiàn)代世界中親密關(guān)系的演變和風險的愛情故事。故事設定在稍有未來感的洛杉磯，主角Theodore Twombly是一個富有復雜感情的男人，靠為他人寫感人的私人信件謀生。在一段感情結(jié)束后，他對一種新型的先進操作系統(tǒng)產(chǎn)生了興趣。通過這個系統(tǒng)，他與一個名為"Samantha"的聰明、敏感且有趣的女聲相遇并建立了友誼，隨著他們的需求和欲望的發(fā)展，他們的友誼逐漸深化為一段非傳統(tǒng)的愛情。

昨天，OpenAI發(fā)布了GPT-4o，可以理解為更為強大的GPT4模型的發(fā)布。多模態(tài)的輸入和輸出，響應時間與人類相似。多模態(tài)意味著，Her電影里的AI我們很快就能體驗到了。

1倍速的語音聊天是什么體驗？

GPT-4o（“o”代表“omni”）是邁向更自然的人機交互的一步——它接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音頻和圖像的任意組合輸出。在短至 232 毫秒的時間內(nèi)響應音頻輸入，平均為 320 毫秒，與人類的響應時間相似。它在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配。與現(xiàn)有模型相比，GPT-4o 在視覺和音頻理解方面尤其出色。

端到端全新模型

在 GPT-4o 之前，ChatGPT的語音模式對話，最低延遲為 2.8 秒。這個版本的語音模式是由三個獨立模型組成的：一個模型將音頻轉(zhuǎn)錄為文本，GPT接收文本并輸出文本，第三個模型將該文本轉(zhuǎn)換回音頻。這個過程意味著GPT丟失了大量信息——它無法直接觀察音調(diào)、多個說話者或背景噪音，也無法輸出笑聲、歌唱或表達情感。

借助 GPT-4o，一個全新的模型，跨文本、視覺和音頻端到端完成訓練，這意味著所有輸入和輸出都由同一神經(jīng)網(wǎng)絡處理。—— 相應速度更快，理解更準確。

在OpenAI使用了幾個例子來演示GPT-4o的潛在應用場景：面試準備、兩個 GPT-4os 互動并唱歌、實時翻譯、客戶服務概念證明等。

應用場景

另外，還有一些例子，幾乎所有場景都覆蓋了：

視覺敘事，用來創(chuàng)作漫畫之類的，變得更為簡單輕松。

海報創(chuàng)作，電影風格的海報信手拈來。

角色設計，排版，紀念幣設計，照片生成漫畫，修改文字字體，3D生成，品牌周邊產(chǎn)品生成，多個發(fā)言者的會議紀要，講座總結(jié)。

安全性

GPT-4o通過過濾訓練數(shù)據(jù)和通過訓練后細化模型行為等技術(shù)，內(nèi)置了安全性。另外，還創(chuàng)建了新的安全系統(tǒng)，為語音輸出提供防護。安全性方面通過內(nèi)部和外部專家的合作，微調(diào)和測試了模型的安全性。需要注意的是，音頻模式是一種全新的模式，可能會帶來了各種新的風險。

在哪里可以使用？

GPT-4o 的文本和圖像功能今天開始在 ChatGPT 中可用。

未來幾周內(nèi)，將在 ChatGPT Plus 中推出新版語音模式 GPT-4o 的 alpha 版。

開發(fā)人員可以在 API 中訪問 GPT-4o 作為文本和視覺模型。GPT-4o 速度提高 2 倍，價格降低一半。

社群交流

備注：gpt4

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.