智東西
編譯 金碧輝
編輯 程茜
智東西6月17日消息,據谷歌官方博客消息,谷歌實驗室6月13日推出音頻概覽(Audio Overviews)這一全新功能。這是谷歌首次在搜索結果中引入由AI生成的播客式音頻摘要。此次更新后,該功能首次在谷歌搜索結果中面向用戶開放(此前僅存在于NotebookLM)。
新升級的谷歌搜索版音頻概覽并非NotebookLM的直接移植,而是基于相同技術框架的獨立功能擴展。
當用戶在Chrome瀏覽器搜索“神經網路工作原理”等復雜議題時,或者如“氬元素有什么用途”時,音頻概覽便會激活。用戶點擊“生成音頻概覽”按鈕,等待約40秒后,就能獲得由兩個AI“主持人”對話形式的語音總結。
該功能需滿足三項條件:訂閱Google AI Pro/AI Ultra套餐、加入實驗室項目且用戶要使用美國IP。
用戶點擊結果頁的生成按鈕后,雙AI主播的對話式解讀將在約40秒后播出,播放器提供暫停、倍速調節及原文跳轉功能,適配駕駛、烹飪等無屏場景操作需求。
一、利用Gemin模型實時抓取網頁內容,音頻生成全程僅需40秒
該系統內容由Gemini模型驅動,系統首先會在前10秒迅速完成網頁抓取操作,并對抓取到的內容進行精準的語義分析;在隨后的25秒內,Gemini模型基于分析結果構建出問答腳本,模擬出貼合問題邏輯的對話框架;Gemini模型5秒完成語音合成并輸出。
不過,由于將響應速度設定為優先級,音頻概覽功能的交互能力有所降低,與NotebookLM能實時追問的功能相比,此版本僅能維持單向輸出,用戶無法在收聽音頻過程中即時提出新問題以獲取進一步解答 。當前,音頻概覽功能僅面向美國用戶提供英文服務,非英語的搜索內容也無法生成對應的音頻摘要。
NotebookLM是谷歌推出的一款基于用戶上傳文檔的個性化AI研究助手,限定了信息來源范圍,卻支持多達50多種格式,PDF、網頁、視頻等都涵蓋其中。NotebookLM為用戶提供了精準摘要,能快速提煉文檔核心要點,以對話形式生動呈現文檔關鍵內容等。
▲谷歌的音頻概覽功能摘要入口(圖源:谷歌)
而此次推出的音頻概覽功能,則延續了NotebookLM的對話式音頻技術邏輯,其生成的語音總結能提取自搜索結果首頁內容,還能幫助用戶更便捷地理解信息。同時,用戶可調整播放速度0.75-1.5倍速,實現“邊聽邊看”的沉浸體驗。
二、谷歌音頻概覽“首登搜索”,NotebookLM完整版縮水為輕量播客
谷歌音頻概覽功能早在2024年9月便已在NotebookLM中亮相,并呈現出完整形態,支持用戶實時追問,助力深度探索信息。
今年5月,據外媒The Verge報道,音頻概覽功能沿用了谷歌I/O大會發布的“重構信息流”技術架構,不過當時谷歌尚未公布語言擴展及區域推廣的具體時間表。
同月14日,谷歌技術團隊在The Verge的獨家專訪中透露,為優化用戶體驗,音頻概覽功能采用了響應速度優化方案,將音頻生成時長固定在40秒左右。
當前此舉主要是為了驗證用戶對這一基礎功能的接受程度。如今,谷歌實驗室于6月13日再次對音頻概覽功能進行升級更新。新升級的谷歌搜索版音頻概覽是基于NotebookLM相同技術框架的獨立功能擴展。
當用戶使用Chrome瀏覽器搜索特定復雜議題時,滿足條件就可能觸發音頻概覽功能,播放器還貼心配備了暫停、倍速調節及原文跳轉功能,適配駕駛、烹飪等無屏場景下的操作需求。
結語:AI“主持人”信息取舍存倫理爭議
當用戶從“閱讀文字”轉向“收聽對話”,AI“主持人”已不僅是信息的轉述者,更成為內容的“敘事架構師”。在教育場景中,學生搜索“量子物理” 時,雙AI主播用生活化比喻拆解復雜概念的40秒音頻,可能比長篇文獻更高效吸收;科研人員檢索跨語言文獻時,語音摘要能突破文字壁壘,將文獻核心觀點轉化為可聽化對話,加速跨學科知識整合。這種“聽覺化”的信息處理方式,使知識傳遞從“主動閱讀”轉向“被動聆聽”的模式。
技術倫理問題隨之浮現。AI“主持人”對信息的取舍邏輯尚未透明,雙人對話形式可能存在誘導性解讀風險。據MIT(麻省理工科技評論)2025年3月預警,當算法掌握聲音表達權時,需建立更嚴格的信息溯源機制。
來源:谷歌、Mashable、The Verge
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.