新智元報道
編輯:定慧
【新智元導讀】谷歌推出全新DolphinGemma大模型,基于30年海豚研究數(shù)據(jù)訓練的AI模型正試圖破解海豚的語言密碼。僅有400M參數(shù)的輕量級模型能在普通Pixel手機上運行,不僅能識別海豚聲音模式,還能預測它們的下一個發(fā)聲——就像LLM預測下一個詞一樣。
你是否曾經(jīng)好奇過海豚神秘的聲音在說什么?
現(xiàn)在借助AI的力量,可以實現(xiàn)「人與海豚」的跨物種交流。
谷歌推出了一款名為DolphinGemma的創(chuàng)新AI模型,不僅能聽懂海豚說什么,還能在水下和海豚實時交流。
聽起來很科幻,但這是真的!看來人類對AI的開發(fā)還不足1%。
DolphinGemma是一個基礎LMM模型——但是使用音頻數(shù)據(jù)來訓練——來學習海豚發(fā)聲的結構并生成類似海豚的聲音序列,也是第一個能和動物交流的LLM。
Google的CEO Sundar Pichai也表示「這朝著實現(xiàn)跨物種交流邁出了非常酷的一步」。
同時Pichai也宣布了將在夏天開源這個模型,也許你可以帶著這個模型去水族館展示一下超能力了。
因為這個模型足夠小,只有400M大小,可以部署在一臺手機上。
幾十年來,理解海豚的哨聲和爆發(fā)脈沖一直是科學前沿。
如果不僅能聆聽海豚,還能充分理解它們復雜交流的模式,是否能打破人類和其他物種的交流障礙?
DolphinGemma打破交流障礙
LLM能預測下一個詞,DolphinGemma也能預測海豚想要說什么。
DolphinGemma利用了Google特有的音頻技術:SoundStream分詞器高效地表示海豚聲音。
這些聲音隨后由適合復雜序列的模型架構處理。
DolphinGemma的參數(shù)只有400M,可以直接部署在Google Pixel手機上。
左側:DolphinGemma 早期測試中生成的哨聲(左側)和爆發(fā)脈沖(右側)
DolphinGemma基于Gemma構建而成,Gemma是Google 的輕量級、最先進的開源模型,這些模型采用與Gemini模型相同的研發(fā)和技術。
和我們熟知的文本LLM類似,但是DolphinGemma是一個音頻輸入、音頻輸出的模型。
它能處理自然海豚聲音序列,以識別模式、結構,并最終預測序列中可能的后續(xù)聲音,就像LLM預測下一個單詞或Token一樣。
海豚數(shù)據(jù)集:WDP數(shù)十年的堅持
想要和海豚「溝通」是一項艱巨的任務。
多虧了WDP的龐大、標記數(shù)據(jù)集,為這項前沿AI研究提供了獨特的機會。
自1985年以來,WDP開展了世界上持續(xù)時間最長的水下海豚研究項目,對巴哈馬特定社區(qū)的野生大西洋斑點海豚(Stenella frontalis)進行了跨代研究。
這種非侵入性的、以「在他們的世界,以他們的方式」為原則的方法,產(chǎn)生了豐富而獨特的數(shù)據(jù)集。
數(shù)十年水下視頻和音頻,與個體海豚身份、生活史和觀察行為仔細配對的數(shù)據(jù)。
一群大西洋斑點海豚,Stenella frontalis
WDP長達數(shù)十年的觀察工作至關重要。
最終目標是理解這些海豚的聲音序列中的結構和潛在含義——尋找海豚語言中模式和規(guī)則。
這種對自然交流的長期分析構成了WDP研究的基礎,并為任何AI分析提供必不可少的上下文數(shù)據(jù)。
左邊:一只母斑點海豚在覓食時觀察她的幼崽。她會使用她獨特的簽名哨聲在幼崽完成活動后叫它回來。右邊:用于可視化海豚哨聲的頻譜圖
用Pixel手機和海豚交流
有了數(shù)據(jù),也訓練好了模型,如何讓DolphinGemma的聲音被海豚聽到呢?
WDP與佐治亞理工學院合作,開發(fā)了「鯨目動物聽力增強遙測」 (Cetacean Hearing Augmentation Telemetry,CHAT)系統(tǒng),一種水下計算機。
CHAT不是直接破譯海豚的復雜自然語言,而是建立一個更簡單、共享的詞匯表。
通過在人類之間演示系統(tǒng),研究人員希望天生好奇的海豚會學會模仿這些哨聲來請求她們喜歡的特定物體。
最終,隨著更多海豚自然聲音的理解,它們也可以被添加到系統(tǒng)中。
CHAT的新一代系統(tǒng)將以Google Pixel 9為基礎,整合揚聲器/麥克風功能,并利用手機的先進處理能力。
使用Pixel智能手機減少了對自定義硬件的需求,縮小了設備的成本和尺寸,極大方便了在公海就行研究的科研人員。
一臺Google Pixel 9在最新的 CHAT 系統(tǒng)硬件內(nèi)部
部署在手機上的DolphinGemma也可以幫助CHAT在海豚發(fā)聲序列的早期預測和識別潛在的模式。
跨物種交流,AI搞定
不得不說,Google推出的DolphinGemma還是值得點個大大的贊的。
在當下巨頭們都在「卷模型」的時候,DolphinGemma不僅另辟蹊徑,同時也讓我們看到了更多AI的可能性。
在探索更多AI應用的同時,也給更多的類似WDP這樣數(shù)十年如一日堅持科研的團隊帶來了更多的機會。
AI對于我們的生活的影響還遠遠沒有結束。
DeepMind的CEO Hassabis透露說,未來計劃與更多的高智商動物進行交流,比如家里的狗。
Hassabis說他想知道自己家的狗在說什么。
誰說不可能呢,也許未來每個人都可以借助AI直接和你的貓狗進行交流。
這個畫面想想還是非常喜感的。
參考資料:
https://blog.google/technology/ai/dolphingemma/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.