01 緣由
昨天我發了一篇Agent的文章,是之前參加北京AI活動的內容整理。然后就有讀者說,如果有音頻就更完美了。
其實當天我是想到了,也把設備都帶過去了,無奈的是,現場的設備不兼容,要考慮現場音響,就沒辦法錄播客了。
我其實很希望大家聽原聲的分享,畢竟我整理的文字也是從2萬多字里刪減后的。一些思考細節沒有呈現。
正好又有讀者希望有音頻,也正好扣子空間上線了AI播客,馬上動手來試一試。試了差不多一個小時,來說說驚喜和不足吧。
02 驚喜
語音的AI味兒,幾乎沒有了。
大家可以聽一聽,語調、語氣、節奏、互動,都非常好。
操作也很簡單,直接自然語言輸入,就可以了。提示詞可以是“根據XX內容,生成XX分鐘的XX播客,然后輸出一個音頻文件”
思考過程也可以展現出來。由于線下的活動是5個嘉賓一起聊的,所以我又給定了新的指示詞,希望不同的人、有不同的聲音。
好家伙,AI真的開始干活了。在腳本里注釋了不同的語氣:沉穩、親切、自信、誠懇、好奇、理性、思索。
有不同語氣,并不難,現在AI語音都有各種版本。重點是,能根據內容識別合適的語氣。比如“稍微保守點”,就識別為理性;“第一個問題”就識別為好奇等等。
整個生成時間差不多10分鐘左右。還有完整的字幕可以對照。
驚喜完了。說說實用性等不足吧。
03 不足
a、首先,盡管給出了不同的語氣,我也嚴格要求了不同角色用不同聲音,但效果來看,基本沒實現。
還是男、女兩個聲音角色,沒有不同。
也許是現在模型默認就是兩位嘉賓對談,而不是多嘉賓對談。
可能考慮是,既然都用AI了,那應該不復雜。復雜的話,直接就真人啊。
b、其次,自己加戲太多。雖然我給了內容、也指示模型嚴格按照推文、讀出來,結果,大模型還是根據推文內容,進行了自己的理解、再加工。
整理的內容倒沒錯,但是,如果給出了嚴格指令的話,還是希望能執行。畢竟,整理后的內容雖然沒錯、但有些表達方式,還是改變了。
尤其對我這個項目來說,當然希望是按照嘉賓確認后的內容來表達。
c、時長。這個應該問題不大,目前應該還是算力局限。
整體而言,對我還是有幫助的。尤其現在不少人不愿意讀長文,那就可以讓AI自動生成一個對話,畢竟聽對話,比單純聽念文本好多了。
但是,如果是AI生成的播客,應該是要打標簽、告知用戶的。這種情況下,用戶是否還愿意聽呢?
就目前播客用戶而言,可能一大半不愿意了。
所以,這個工具對真人播客,似乎幫助又有限了。當然,還是非常不錯的探索。尤其語音效果,還是很驚嘆的。
最后,借用我在Agent那篇文章里的一個觀點:
AI對真人關聯高的創造性工作替代,需要有邊界,全替代未必好;而那些機械、重復、沒有創造價值的工作,可以多替代些。
---全文完,歡迎交流
理工/金融 復合背景
暢銷書《英偉達之道》譯者
百億私募/頭部自媒體 雙重經歷
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.