99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI深夜發(fā)布3個(gè)全新的語音模型,一手實(shí)測都在這了。

0
分享至

OpenAI最近總是喜歡搞突襲。

昨晚11點(diǎn)的時(shí)候突然發(fā)了一個(gè)預(yù)告,4秒鐘的音頻的大概意思,就是太平洋時(shí)間10點(diǎn)我們發(fā)個(gè)產(chǎn)品。

然后就在北京時(shí)間凌晨1點(diǎn),開了一場直播,發(fā)了一些新玩意。

總結(jié)一下就是:

2個(gè)比Whisper更好的語音轉(zhuǎn)文本的STT模型: gpt-4o-transcribe和gpt-4o-mini-transcribe ,1個(gè)文本生成語音的TTS模型 : gpt-4o-mini-tts 。這些模型都 提供了API的接入方式。沒了。

一個(gè)一個(gè)說。

1. STT模型:gpt-4o-transcribe

gpt-4o-transcribe和gpt-4o-mini-transcribe說是兩個(gè),其實(shí)也就是一個(gè)了,后者是前者的小參數(shù)版。

這個(gè)模型的作用跟當(dāng)年的Whisper是一樣的,跟大家在剪映里用的一鍵生成字幕的作用也是一樣的,就是把一段語音,轉(zhuǎn)成對應(yīng)的正確的文本。

我們一般把他們稱為,STT(Speech-to-Text)模型。

這個(gè)模型的核心,就是就是識別文字的準(zhǔn)確率有多高,我相信大家在用剪映生成字幕的時(shí)候,一定會出現(xiàn)很多文字識別錯誤的情況,所以評判一個(gè)ASR模型效果咋樣,就看正確率。

他們的跑分是這樣的。

這個(gè)是OpenAI的幾個(gè)STT模型在FLEURS數(shù)據(jù)集上的詞錯率(Word Error Rate, WER)的對比表現(xiàn)??v坐標(biāo)表示詞錯率,越低代表模型的轉(zhuǎn)錄準(zhǔn)確性越高;橫坐標(biāo)代表不同語言。

詞錯率的意思就是用于衡量語音識別系統(tǒng)的準(zhǔn)確性,它通過計(jì)算模型轉(zhuǎn)錄文本與人工參考文本之間的錯誤比例來得出,錯得越少,WER越低,模型的表現(xiàn)也就越好。

中文是從左往右數(shù)第五個(gè),cmn,可以看到突出了一個(gè)小山丘,錯誤率一下子就都上來了,比隔壁幾個(gè)都要高一些,中文還是難。。。

最后那幾個(gè)一柱擎天的語言都比較小眾,比如bn是孟加拉語、mr是馬拉地與、最高的那個(gè)ml是馬拉雅拉姆語。。。

他們除了跟自己比外,又放了一個(gè)跟別人家模型相比的圖。

Gemini是google的,scribe是Anthropic的,在對比的這些里面,確實(shí)達(dá)到了SOTA,但是不知道沒比的模型里面,有沒有比OpenAI更強(qiáng)的。

我自己也做了一下實(shí)測,把我的兩個(gè)口播視頻去識別了一下,識別出來的效果在此,大家可以對比一下。標(biāo)紅的就是識別錯誤的地方。

其實(shí)都大差不差,這么一看,GPT-4o- mini- transcribe的性價(jià)比感覺非常突出。

GPT-4o-transcribe這個(gè)系列的兩個(gè)模型,有一個(gè)蠻不錯的特點(diǎn),就是會自動清噪和去除非主線人物的語音識別。

比如這個(gè)案例。

這個(gè)片段是剪輯完的成片,所以有音樂,甚至在19秒以后,還有BGM里面的別人唱歌的聲音,這些其實(shí)都是噪音, GPT-4o-transcribe幾乎全部剔除了,在整個(gè)轉(zhuǎn)錄里,我?guī)缀鯖]看到什么錯誤,除了把我的名字,卡茲克識別成了卡斯克。。。

我又試了一段粵語的,效果居然還可以,大致的好像是對的,就是細(xì)節(jié)這塊我不太能驗(yàn)證了,有懂粵語的朋友可以看一下。

最后價(jià)格這塊提一下。

gpt-4o-transcribe是每分鐘大概$0.006,也就是人民幣0.004元/分鐘;

gpt-4o-mini-transcribe是 每分鐘大概$0.003, 也就是人民幣0.002元/分鐘.

整體不算貴了。

2. TTS模型:gpt-4o-mini-tts

OpenAI的一個(gè)新的TTS模型。

在英語效果和聲音上,聽了下,還算不錯,不過畢竟這是國內(nèi),所以其實(shí)我更關(guān)注的是中文的生成效果。

我隨手跑了一個(gè),就,你們聽聽這個(gè)效果。。。

情緒什么的其實(shí)講道理,還可以的,就是這個(gè)中文發(fā)音,真的一股子大佐味,這到底用的什么數(shù)據(jù)集啊。。。

11Labs也有這個(gè)問題,中文根本沒法聽,太違和了。

對比一下海螺(現(xiàn)在產(chǎn)品也更名叫Minimax了),他們的Audio生成出來的同文字的中文是這個(gè)效果。

在發(fā)音上,根本就不是一個(gè)級別的,中國人的語音模型,還是得看中國制造。。。

英語上,感覺很純正,日語發(fā)音上,也感覺有點(diǎn)怪怪的。。。

這次OpenAI給gpt-4o-mini-tts做了一個(gè)小小的功能演示網(wǎng)站,約等于免費(fèi)給大家用了。

還挺有意思的。

網(wǎng)址在此: https://www.openai.fm/

最上面的VOICE是固定的音色,音色你是沒辦法克隆也沒辦法自定義的,所以只能選這些。

下面的VIBE比較有意思,大概的意思就是情緒基調(diào),有N多的預(yù)設(shè)模板,同時(shí)你也可以用Prompt自己捏。

OpenAI給了官方模板,是這個(gè)樣子的:

Voice: High-energy, upbeat, and encouraging, projecting enthusiasm and motivation. 
Punctuation: Short, punchy sentences with strategic pauses to maintain excitement and clarity.
Delivery: Fast-paced and dynamic, with rising intonation to build momentum and keep engagement high. 
Phrasing: Action-oriented and direct, using motivational cues to push participants forward. 
Tone: Positive, energetic, and empowering, creating an atmosphere of encouragement and achievement.

翻譯過來就是:

聲音(Voice):充滿活力、熱情洋溢且積極鼓勵,聲音要能傳遞出熱情與動力。

標(biāo)點(diǎn)(Punctuation):使用短小有力的句子,并通過適當(dāng)停頓,保持興奮感和清晰度。

語速(Delivery):語速較快、富有變化,并用升調(diào)增加節(jié)奏感與吸引力,確保聽眾持續(xù)投入。

措辭(Phrasing):直接明了、強(qiáng)調(diào)行動,使用鼓勵性的語言來推動聽眾積極參與。

語調(diào)(Tone):積極向上、充滿能量與力量感,營造鼓勵與成功的氛圍。

所以我們是能看到,有5個(gè)可以自己去捏的參數(shù)。你可以隨便自定義。

但是這玩意,說實(shí)話寫起來也非常麻煩,我試了一下后,不如直接交給AI,這玩意誰特么手搓啊= =

幾秒鐘,一段定制好的prompt就OK了,我們?nèi)拥街暗木W(wǎng)頁里。

再用一段我很喜歡的《反叛的魯魯修》里面的臺詞去試一下。

大家自己判別吧。

在價(jià)格上, gpt-4o-mini-tts是$0.015/分鐘,大概1毛錢人名幣1分鐘,說實(shí)話,已經(jīng)幾乎是最低價(jià)了。

11labs的價(jià)格大概是每分鐘1塊3人民幣。

Minimax已經(jīng)算是價(jià)格屠夫了,大概也要1毛8人民幣1分鐘。

這就是OpenAI今天的發(fā)布了。

如果你是開發(fā)者,想知道怎么接入,一切都在他們的API文檔里。

https://platform.openai.com/docs/guides/audio

這次還蠻方便的,10行代碼就可以接了。

STT模型gpt-4o-mini-transcribe我還是蠻推薦用的,實(shí)測下來感覺性價(jià)比最高,差距不是很大,價(jià)格還低一半。

TTS模型 gpt-4o-mini-tts如果你是做英文場景的語音,還是值得一用的,畢竟便宜是真便宜,效果也還不錯,中文的話不推薦用,因?yàn)闆]法用,中文我還是無腦推薦Minimax的Audio模塊,不僅中文效果好,性價(jià)比高,海外版還可以語音克隆。

網(wǎng)址在此: https://www.minimax.io/audio

很久以前我也首發(fā)安利過一次,現(xiàn)在依然有效:

以上就是這一次OpenAI的全部發(fā)布了,熬夜肝完,為大家?guī)碜钚迈r的實(shí)測。

好了,我要去睡兩小時(shí)了,預(yù)約的早上9點(diǎn)醫(yī)院做手術(shù)...

大家晚安~

以上,既然看到這里了,如果覺得不錯,隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克、dongyi

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@gmail.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
云南酒店被蛇咬,扎十八只血清,兩年還在受折磨

云南酒店被蛇咬,扎十八只血清,兩年還在受折磨

重生一次
2025-06-06 20:53:03
泰國總理:軍方已準(zhǔn)備好捍衛(wèi)國家主權(quán)!泰國外交部長:6月14日與柬埔寨的會談目標(biāo)是緩解緊張局勢

泰國總理:軍方已準(zhǔn)備好捍衛(wèi)國家主權(quán)!泰國外交部長:6月14日與柬埔寨的會談目標(biāo)是緩解緊張局勢

和訊網(wǎng)
2025-06-06 13:35:03
一切為高考讓路,但不意味著可以騎在別人頭上拉屎!

一切為高考讓路,但不意味著可以騎在別人頭上拉屎!

胖胖說他不胖
2025-06-06 15:27:24
電商三巨頭差距斷崖:京東營收3011億,拼多多957億,阿里真意外

電商三巨頭差距斷崖:京東營收3011億,拼多多957億,阿里真意外

說說史事
2025-06-05 20:25:02
東北女子在普洱一酒店遭毒蛇咬傷注射十六支血清搶救,自述時(shí)隔兩年仍時(shí)常頭暈

東北女子在普洱一酒店遭毒蛇咬傷注射十六支血清搶救,自述時(shí)隔兩年仍時(shí)常頭暈

上游新聞
2025-06-06 20:26:07
打通北京電話后,特朗普態(tài)度大變,做出5個(gè)重大讓步,中方贏麻了

打通北京電話后,特朗普態(tài)度大變,做出5個(gè)重大讓步,中方贏麻了

墜入二次元的海洋
2025-06-06 17:16:57
2-0!法網(wǎng)變天了:4屆冠軍遭淘汰,薩巴創(chuàng)歷史,鄭欽文坐收漁利

2-0!法網(wǎng)變天了:4屆冠軍遭淘汰,薩巴創(chuàng)歷史,鄭欽文坐收漁利

體育就你秀
2025-06-06 06:49:12
吃燒烤三人花780元?上海游客稱在重慶被宰,店主:很便宜了

吃燒烤三人花780元?上海游客稱在重慶被宰,店主:很便宜了

瀟湘晨報(bào)
2025-06-06 16:56:16
韋東奕近照流出,家屬曝光其牙齒脫落原因,堂哥透露韋神后續(xù)安排

韋東奕近照流出,家屬曝光其牙齒脫落原因,堂哥透露韋神后續(xù)安排

傲傲講歷史
2025-06-06 20:12:07
馬斯克爆料特朗普涉愛潑斯坦案!特朗普:他瘋了!

馬斯克爆料特朗普涉愛潑斯坦案!特朗普:他瘋了!

新民周刊
2025-06-06 20:06:58
國足工作人員:這印尼隊(duì)踢得也不怎么樣,但還是拿不下來!

國足工作人員:這印尼隊(duì)踢得也不怎么樣,但還是拿不下來!

懂球帝
2025-06-06 12:53:12
中美高級別二軌對話第二次會議在京舉行

中美高級別二軌對話第二次會議在京舉行

澎湃新聞
2025-06-06 23:25:13
央媒銳評張雪峰退網(wǎng),言辭犀利 句句說到網(wǎng)友心坎里 評論風(fēng)向反轉(zhuǎn)

央媒銳評張雪峰退網(wǎng),言辭犀利 句句說到網(wǎng)友心坎里 評論風(fēng)向反轉(zhuǎn)

傲傲講歷史
2025-06-06 21:12:23
吵完架又后悔了?剛剛,馬斯克稱愿意和特朗普和解

吵完架又后悔了?剛剛,馬斯克稱愿意和特朗普和解

極目新聞
2025-06-06 12:33:03
聯(lián)大選出反華主席,不到2天,安理會生變,中方:公道正義何在?

聯(lián)大選出反華主席,不到2天,安理會生變,中方:公道正義何在?

博覽歷史
2025-06-06 15:08:28
銀環(huán)蛇之禍?三亞死亡女游客搶救記錄曝光|封面頭條

銀環(huán)蛇之禍?三亞死亡女游客搶救記錄曝光|封面頭條

封面新聞
2025-06-06 15:54:04
法網(wǎng)男單半決賽:辛納6-4先勝一盤,暫時(shí)1-0領(lǐng)先德約科維奇

法網(wǎng)男單半決賽:辛納6-4先勝一盤,暫時(shí)1-0領(lǐng)先德約科維奇

懂球帝
2025-06-07 02:09:38
熱鬧!馬斯克與特朗普鬧掰后要自立門戶,疑似揚(yáng)言創(chuàng)建新政黨,獲超80%支持率

熱鬧!馬斯克與特朗普鬧掰后要自立門戶,疑似揚(yáng)言創(chuàng)建新政黨,獲超80%支持率

不掉線電波
2025-06-06 07:45:08
突發(fā)!曝特朗普、馬斯克將通話,特斯拉直拉!

突發(fā)!曝特朗普、馬斯克將通話,特斯拉直拉!

證券時(shí)報(bào)e公司
2025-06-06 16:33:58
普京動手了 !多架核轟夜襲烏克蘭,歐洲徹底慌了!

普京動手了 !多架核轟夜襲烏克蘭,歐洲徹底慌了!

大嘴說天下
2025-06-06 22:52:15
2025-06-07 05:12:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
313文章數(shù) 413關(guān)注度
往期回顧 全部

科技要聞

忍無可忍,馬斯克“瘋了”?

頭條要聞

俄方大規(guī)模襲擊擊中烏境內(nèi)所有預(yù)定目標(biāo) 克宮回應(yīng)

頭條要聞

俄方大規(guī)模襲擊擊中烏境內(nèi)所有預(yù)定目標(biāo) 克宮回應(yīng)

體育要聞

蘇超紅紅火火,國足繼續(xù)下沉

娛樂要聞

章子怡新造型驚到我!國際章突破形象

財(cái)經(jīng)要聞

詳解中美元首通話

汽車要聞

新增兩款專屬車色 奇瑞艾瑞澤8 PRO 2.0T官圖發(fā)布

態(tài)度原創(chuàng)

家居
時(shí)尚
旅游
手機(jī)
公開課

家居要聞

現(xiàn)代風(fēng)格 意式奢華空間

“呼吸感”穿搭今年夏天太火了,時(shí)髦松弛又減齡!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機(jī)要聞

蘋果公布iOS 18最新采用率,已超越去年同期iOS 17系統(tǒng)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 墨竹工卡县| 吴川市| 化隆| 历史| 咸宁市| 甘谷县| 新巴尔虎右旗| 竹北市| 兰西县| 海南省| 伊通| 法库县| 古交市| 庆城县| 叶城县| 固阳县| 太谷县| 扎鲁特旗| 义乌市| 双城市| 福安市| 淮南市| 抚松县| 囊谦县| 易门县| 兴山县| 政和县| 西丰县| 马公市| 堆龙德庆县| 华容县| 响水县| 灌南县| 娱乐| 彝良县| 通山县| 曲周县| 镇雄县| 内乡县| 常州市| 太白县|