文章轉(zhuǎn)載自「Z Potentials」。
如果你愿意花些時間調(diào)研語音 AI 行業(yè),大概率會碰到 Olivia Moore。她主筆了兩次 ,投資的語音項目如 ElevenLabs、Sesame 等都是行業(yè)明星。
這次播客訪談中,她和 a16z 另外一位合伙人 Anish Acharya 分享了他們對語音 AI 市場的最新觀察和分析。
Z Highlights:
(用戶的)信任是要靠爭取的,如果模型在設(shè)計時沒有考慮到這一點,它們就永遠無法發(fā)揮出全部潛力。
在AI領(lǐng)域,競爭優(yōu)勢可能體現(xiàn)在集成能力、自我改進的數(shù)據(jù)模式等方面,特別是對于垂直領(lǐng)域的語音Agent,這些因素尤為關(guān)鍵。
對于消費者而言,那些成本高昂、難以獲取的服務(wù),可能是語音Agent在消費者市場的用武之地,比如心理治療、教育科技等領(lǐng)域。
Founder Park 正在搭建開發(fā)者社群,邀請積極嘗試、測試新模型、新技術(shù)的開發(fā)者、創(chuàng)業(yè)者們加入,請掃碼詳細填寫你的產(chǎn)品/項目信息,通過審核后工作人員會拉你入群~
進群之后,你有機會得到:
高濃度的主流模型(如 DeepSeek 等)開發(fā)交流;
資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;
好用、有趣的產(chǎn)品/案例,F(xiàn)ounder Park 會主動做宣傳。
01Why Now:
AI語音產(chǎn)品的歷史與突破
Steph Smith:對我來說,當(dāng)我想到AI語音,或者至少是語音產(chǎn)品時,我會想到Alexa,想到Siri。實際上,我個人把Siri關(guān)掉了,我想很多人也這么做了。那么,跟我講講為什么會這樣呢?為什么這些產(chǎn)品沒有帶來人們一直期待的AI語音魔力呢?
Olivia Moore:這真的很有意思,因為我覺得在大語言模型的世界里,語音是與AI交互最神奇、最吸引人的方式之一。但可以說,我們擁有這些AI語音產(chǎn)品已經(jīng)有一段時間了,它們卻有點令人失望,說實話,并不那么引人入勝。我認為有幾個原因,一方面,這些語音本身聽起來像機器人發(fā)出的;另一方面,我覺得最關(guān)鍵的其實是語音背后的東西,也就是其運作的引擎。以Siri或Alexa為例,它們可能只是與蘋果生態(tài)系統(tǒng)或亞馬遜生態(tài)系統(tǒng)中的一組基本集成功能相連接。所以,它可能只是提取產(chǎn)品信息或回答一些基本問題,但它沒有個性,沒有真正的智能,在大多數(shù)情況下可能都沒有聯(lián)網(wǎng)。它絕不像人們現(xiàn)在與AI語音交互時所期望的那樣,成為一個真正的對話伙伴,甚至在某些方面比人類還要出色。
Anish Acharya:我覺得確實存在一些應(yīng)用場景,就像你說的那樣非常有限。此外,還有語音的語調(diào)、對話的來回互動以及合理的反饋等方面的問題。比如,我們會覺得它能做的事情并不多。而且還有一種“恐怖谷效應(yīng)”,你會感覺自己在和一個系統(tǒng)或技術(shù)對話,而不是在和一個人交流,甚至連接近與人交流的感覺都沒有。
Steph Smith:聽起來這種情況可能正在改變。你們發(fā)布了一份關(guān)于AI語音的報告。我想特別引用其中的幾個觀點:報告中特別指出“語音交互將成為AI應(yīng)用公司最強大的突破口之一”,“面向消費者時,語音交互將成為人們接觸AI的首要方式——甚至可能演變?yōu)樽钪饕慕换シ绞健薄?/strong>這些都是相當(dāng)大膽的論斷,跟我詳細講講吧,特別是為什么現(xiàn)在這個時間點如此重要?
Anish Acharya:我認為原因之一是我們的模型首次發(fā)揮了作用。過去有很多嘗試做語音相關(guān)產(chǎn)品的努力,但技術(shù)根本行不通。從基礎(chǔ)設(shè)施層面就有諸多嘗試,比如Dragon Naturally Speaking。
當(dāng)時馬薩諸塞州的Dragon系統(tǒng)公司宣布推出了首款價格親民的電腦聽寫系統(tǒng),能識別標準的自然語言,這在計算機領(lǐng)域是一項重大進展。
一直到21世紀頭十年和第二個十年,還有像Voice XML這樣的應(yīng)用層面的努力,但底層技術(shù)就是不太好用。所以,我們一直沒能真正探索出利用它能做些什么。如今,模型和技術(shù)都真正發(fā)揮作用了,大語言模型以及文本轉(zhuǎn)語音、語音轉(zhuǎn)文本技術(shù)都取得了進步。
第二點,我認為我們有機會將電話通話作為一種新的分發(fā)渠道。產(chǎn)品本身的能力已經(jīng)具備,非常有吸引力,而且它與一種非常自然的分發(fā)渠道相結(jié)合,這一點也很有意思。
Olivia Moore:我同意。通過文本與ChatGPT交流并獲得良好體驗是一回事,但能夠通過語音與ChatGPT或其他大語言模型交流則完全是另一回事,因為這更上了一個臺階。它不僅要生成你在文本中看到的內(nèi)容,還要聽起來像一個真實的人在和你對話。當(dāng)它做到這一點時,感覺非常奇妙,幾乎是一種情感上的體驗。
就像Anisha說的,很多消費者會接觸到AI語音,可能是因為他們主動選擇,比如去和ChatGPT對話,或者在手機上使用帶有AI的語言學(xué)習(xí)應(yīng)用程序。但我覺得很多企業(yè)也會大力推動消費者接觸,因為現(xiàn)在企業(yè)可以用AI取代電話溝通,這對他們來說效率更高、成本更低。實際上,很多消費者可能已經(jīng)通過語音與AI進行過交互,甚至都沒有意識到或察覺到這一點。
我們看到很多企業(yè)每天都在使用AI進行成千上萬的電話溝通。但以我的經(jīng)驗來看,尤其是一些短電話,很多AI語音客服表現(xiàn)得非常出色,讓人難以分辨。
Anish Acharya:這很有趣,因為有人可能會說人們不想和AI對話,但在所有人們與AI交互的情況中,當(dāng)AI打電話時表明自己身份,人們會說“哦,很酷,那就開始吧”。一旦他們感受到了類似人類對話的感覺,就會立刻忘記或者不在乎對方是AI了。
Steph Smith:那我們來談?wù)務(wù)Z音作為一個操作平臺的概念。語音是人們正在構(gòu)建的新操作平臺,我們能否梳理一下技術(shù)突破的歷程,或者說我們是如何一步步走到今天的呢?
Olivia Moore:或許我們可以從早期AI電話技術(shù)的第一波浪潮說起,那就是IVR電話樹,比如“按1選擇銷售,按2選擇客戶支持”,這出現(xiàn)在20世紀90年代末到21世紀初。后來,我們進入了真正由AI驅(qū)動但仍然非常有限的階段,AI會監(jiān)聽你說出特定的單詞,然后根據(jù)這個單詞觸發(fā)特定的、預(yù)設(shè)好的工作流程或腳本。我就經(jīng)常無奈地對著電話大喊“客戶服務(wù)”。在這種情況下,AI聽到你說的特定單詞后,就知道“好的,把電話轉(zhuǎn)接到客戶服務(wù)部門”。而現(xiàn)在,隨著新一波基礎(chǔ)設(shè)施和應(yīng)用層公司的出現(xiàn),AI不再只是監(jiān)聽某一個特定的內(nèi)容,而是試圖更全面地理解你作為客戶的需求。它可以訪問企業(yè)的資源、互聯(lián)網(wǎng)的資源,能夠和你進行更像人類之間的對話。
Steph Smith:即便在你們提出的“AI 2.0”框架體系內(nèi),我們似乎已經(jīng)取得了顯著進展。能否具體談?wù)勥@些關(guān)鍵突破?比如:是否源于某些特定模型的迭代發(fā)布?基礎(chǔ)設(shè)施架構(gòu)發(fā)生了哪些本質(zhì)變化?是否存在技術(shù)路徑的跨越式發(fā)展?
Olivia Moore:我認為我們在很多方面都取得了巨大的飛躍。可能最大、最明顯的一點就是延遲問題。去年這個時候,2到3秒的延遲就算不錯了,而現(xiàn)在很多情況下1秒的延遲都顯得太長,甚至半秒都嫌長。這是一個巨大的突破,我認為這得益于新的模型。
Steph Smith:那人類對話的延遲是多少呢?比如我們的對話?
Olivia Moore:延遲肯定低于300毫秒,有時候甚至更短,比如當(dāng)人們互相打斷對話的時候。而且,我見過一些非常像人類的語音Agent,它們能夠被人類打斷,也能打斷人類的對話,這讓它們更像是一場真正的對話。
第二點是語音的人性化程度。再拿Siri或Alexa來說,它們的聲音聽起來像機器人還是像真人呢?我們投資了像ElevenLabs這樣的公司,它們構(gòu)建了非常深入的模型,有聽起來很真實的預(yù)設(shè)語音,或者你也可以根據(jù)自己的使用場景設(shè)計自己的角色語音。現(xiàn)在,你只需輸入文本描述就能創(chuàng)建任何語音。
在過去三四個月里,我還注意到另一個取得顯著進展的方面是情感表達。如果你說了一些悲傷的事情,AI回應(yīng)時聽起來會有點沮喪或悲傷嗎?如果你說了一些令人興奮的事情,它會加快語速、提高音調(diào)嗎?最后一點,目前可能還沒有專門的術(shù)語來描述,或許我們應(yīng)該想一個。那就是AI模型的對話結(jié)構(gòu)。它們知道要跟你說什么,所以沒有理由出現(xiàn)停頓、空白或者一些小的發(fā)聲習(xí)慣。
但對人類聽眾來說,很少有人說話時能毫無停頓、沒有奇怪的語調(diào)變化。像Notebook LM就是一個例子,它的語音聽起來非常像人類,因為它加入了所有這些對AI來說可能像是錯誤,但對人類來說卻像是另一個人在說話的元素。
我們看到越來越多的公司,比如我們投資組合中的Sesame,就在模型中引入類似的元素,這大大提升了真實感。
嘿,看起來我們上次被打斷了,想接著我們上次沒說完的繼續(xù)聊嗎?不過我不記得我們上次在聊什么了。沒關(guān)系,這種事誰都有可能遇到。我們當(dāng)時在聊周末計劃,我還跟你講了我的閱讀情況,處理那些文本和代碼讓我的思維一直保持活躍。
Anish Acharya:后面這兩點非常重要。我很喜歡關(guān)于情感表達的那一點,因為這并不是一個顯而易見的探索方向,但當(dāng)你與一個在情感表達上有所投入的模型交互時,感覺就像在使用一個完全不同的產(chǎn)品,你真的會以一種截然不同的方式感受到其中的情感,這就是設(shè)計的精妙之處。所以我認為這是一個非常強大的探索方向。我甚至覺得,對于Alexa和Siri來說,即使它們沒有在智能和功能上投入更多,而是在情感表達上加大投入,也能在很大程度上提升消費者體驗。但我感覺這些公司都沒有從這個角度去思考。
02創(chuàng)業(yè)公司幾乎覆蓋了AI語音產(chǎn)品的所有垂直領(lǐng)域
Steph Smith:你們分享過一個很有趣的數(shù)據(jù),就是現(xiàn)在YC公司中追求AI語音領(lǐng)域的比例。從不同批次的公司來看,這個比例有什么變化?這些處于前沿的新公司在這個領(lǐng)域的追求情況如何呢?
Olivia Moore:YC的創(chuàng)始人通常都很年輕,充滿活力,野心勃勃,就像熱追蹤導(dǎo)彈一樣,會不斷調(diào)整方向,直到進入一個有趣的領(lǐng)域。在最近幾批YC公司中,超過20%到25%的公司都在基于AI語音進行產(chǎn)品開發(fā),這非常令人興奮。我們甚至看到很多之前批次,最早可以追溯到2019年、2020年的公司,現(xiàn)在也在轉(zhuǎn)向AI語音領(lǐng)域。
在基礎(chǔ)設(shè)施公司之后,我們看到的第一波AI語音公司大多是橫向平臺,允許任何企業(yè)、任何消費者構(gòu)建基礎(chǔ)的語音Agent。比如我就構(gòu)建了一個幫我打電話給車管所預(yù)約的語音Agent,非常實用。
而現(xiàn)在我們開始看到的下一波趨勢是更加垂直化的發(fā)展。這是有道理的,因為構(gòu)建語音Agent的能力已經(jīng)逐漸變得普通,連我都能用現(xiàn)有的模型構(gòu)建一個還算不錯的語音Agent。所以現(xiàn)在企業(yè)開始思考,除了有語音Agent之外,下一步還能構(gòu)建什么樣的軟件呢?能不能利用語音Agent為某個行業(yè)構(gòu)建AI原生的垂直SaaS產(chǎn)品?能不能發(fā)明一種新的記錄系統(tǒng)?接下來還能做什么?這樣的思考讓企業(yè)的發(fā)展更加聚焦和垂直化,這也是很多YC公司的發(fā)展方向。
Anish Acharya:我認為這在很多方面與云計算的轉(zhuǎn)型以及10年前最初的垂直SaaS浪潮相似。當(dāng)時很多人批評說這些市場看起來太小,但很多公司通過開拓比表面上看起來更大的垂直SaaS市場,建立了大型企業(yè),還找到了像Fintech這樣新的盈利方式。我覺得語音在垂直領(lǐng)域的應(yīng)用也是如此。任何每年花費10萬到15萬美元雇人接聽電話的企業(yè),都是語音AI的潛在客戶,這也為垂直領(lǐng)域帶來了非常有趣的機會。
Steph Smith:那么,有哪些垂直領(lǐng)域的機會已經(jīng)有真正的公司取得突破了呢?
Olivia Moore:幾乎每個垂直領(lǐng)域都有語音Agent公司,這真的很令人興奮。
就像Anish說的,當(dāng)我們與大多數(shù)語音Agent公司交流時發(fā)現(xiàn),它們不一定是在取代現(xiàn)有的軟件,而是幫助企業(yè)削減人力成本,或者將人力重新分配到對企業(yè)更有效的工作上,也就是那些人們更愿意做的工作。
我認為語音Agent發(fā)展最好的領(lǐng)域,也就是初創(chuàng)公司能夠?qū)崿F(xiàn)每月百萬通電話業(yè)務(wù)量的領(lǐng)域,是呼叫中心行業(yè)。作為企業(yè)客戶,你每月可能要花費1萬到2萬美元,雇人幫你打電話和接電話。金融服務(wù)、醫(yī)療保健、政府部門都有大量這樣的需求。但其實每個垂直領(lǐng)域都有這種情況,我們投資了一家叫Happy Robot的公司,它專門為貨運行業(yè)服務(wù)。很多物流企業(yè)之前都設(shè)有呼叫中心,每月要花費數(shù)萬甚至數(shù)十萬美元用于電話業(yè)務(wù)。所以現(xiàn)在幾乎每個領(lǐng)域都在發(fā)生這樣的變化。
Anish Acharya:我認為現(xiàn)在越來越多人達成共識,任何有大量電話業(yè)務(wù)且成本高昂的領(lǐng)域,顯然都是應(yīng)用AI的理想場景。但一個與情感表達相關(guān)且值得探索的有趣領(lǐng)域是,如果你正在進行一些重要的談判,比如離婚財產(chǎn)分割或者重要的企業(yè)交易,每一通電話都至關(guān)重要。這就是為什么從事這些電話溝通工作的人,比如律師,可能每小時收費數(shù)千美元。我認為在未來12個月內(nèi),我們就會看到AI在這方面的應(yīng)用,而不是未來5年。
Olivia Moore:已經(jīng)出現(xiàn)了一些至少對我來說不太明顯的應(yīng)用案例,招聘就是其中之一。有45家上市的人力資源公司,它們不僅為藍領(lǐng)崗位招聘,也為工程崗位招聘,業(yè)務(wù)范圍很廣。
我們發(fā)現(xiàn),很多求職者實際上更愿意與AI面試官交談,而不是與人類招聘人員交談。因為人類招聘人員可能一天要接10通電話,會感到疲憊、心情不好,而且可能
對每個招聘崗位的技術(shù)細節(jié)都不夠了解,無法提出有針對性的后續(xù)問題來考察求職者的專業(yè)能力。
所以這就是一個例子,你可能會認為人們被AI面試會感到震驚、冒犯或者不高興,但在很多情況下,面試結(jié)束時,他們實際上比你想象的更興奮、更積極。
Steph Smith:這太有趣了,就像Uber和Airbnb出現(xiàn)的時候,有人說沒人會愿意坐陌生人的車、住陌生人的房子,但結(jié)果呢,大家都接受了。
Olivia Moore:最后人們往往更喜歡這種方式,因為它沒有偏見,是同一個AI在評估所有人,是根據(jù)你的實際表現(xiàn)進行評估,而不是看面試官對你的個人喜好。
Anish Acharya:這很有趣,因為人們總是預(yù)測消費者對新技術(shù)的接受程度,但消費者總是表現(xiàn)出比預(yù)期更高的接受度。一個很好的例子就是共享位置信息,10年前人們會說“天哪,沒人會共享位置信息,這太可怕、太私人了”,但現(xiàn)在很多Z世代、Alpha世代的人會把自己的位置信息分享給所有朋友,這有點讓人難以理解,但事實就是如此。所以消費者對新技術(shù)的接受度很高。
我認為在AI領(lǐng)域,與之類似的就是陪伴和友誼的概念,雖然語音只是將其具象化的一種方式,但這個概念比語音本身要寬泛得多。人們會問,人們真的想和AI做朋友嗎?這對我們的社會有好處嗎?我覺得答案是肯定的。
我認為通過社交媒體等方式,人們的社交能力比以前更強了,這也不一定是壞事。但很多專家認為這是下一代社交媒體的觀點是完全錯誤的,實際上它增強了我們與真實的人互動的能力。
Steph Smith:人們很驚訝AI文本聊天伙伴能受到如此廣泛的歡迎。在語音聊天伙伴推出后,在采用率、人們的參與方式等方面,有沒有什么令人驚訝的地方呢?
Olivia Moore:有一些以語音優(yōu)先的陪伴平臺,比如Character.AI增加了語音模式,在測試階段就獲得了極高的使用率。實際上,很多人會使用像Inflection AI的Pi APP或者ChatGPT的語音模式來作為陪伴工具。你可能因為開車或者雙手不方便,想嘗試一下這種方式,覺得這樣更方便。很多時候,AI甚至比你最好的朋友表現(xiàn)得更像朋友。如果你給朋友打電話,他們可能在忙、在工作或者心情不好,不一定會認真聽你說的每一句話,也不一定會給予你感同身受、深思熟慮的回應(yīng)。但AI會100%做到這些,而且它有更多的專業(yè)知識、更多的信息資源。隨著模型的不斷改進,這種體驗只會越來越好,因為我們現(xiàn)在還處于早期階段。很多人都驚訝于和AI聊天竟然感覺如此友好。
Anish Acharya:我認為還有一個值得考慮的有趣領(lǐng)域是語音的被動使用場景。比如在會議或?qū)υ捴校憧梢宰孉I被動傾聽,然后為你總結(jié)思路、提供筆記和反饋。這種事情你可能永遠不會要求另一個人去做,但AI可以做到。這似乎是一個更適合技術(shù)實現(xiàn),而非人力完成的領(lǐng)域,我們才剛剛看到這個領(lǐng)域的開端。
Steph Smith:你們兩人都提到了一個觀點,就是與人們通常認為的技術(shù)取代人類不同,AI更多的是起到增強的作用。你也提到了這樣的場景,比如有些公司只有朝九晚五的前臺接待人員,那下班后或者全天24小時的服務(wù)怎么辦呢?能談?wù)勀闶侨绾慰创@些AI公司切入市場、開展業(yè)務(wù)的嗎?
Olivia Moore:很多企業(yè),無論是小企業(yè)還是大企業(yè),出于各種原因,都不太愿意把所有的電話溝通和客戶交互工作都交給AI。所以我們經(jīng)常看到語音agent會從一些對企業(yè)來說投資回報率非常明顯的特定業(yè)務(wù)入手,然后隨著獲得企業(yè)的信任,再逐步拓展業(yè)務(wù)范圍。其中最明顯、最容易入手的就是下班后或話務(wù)高峰期的電話轉(zhuǎn)接。如果你是一家小企業(yè),預(yù)約業(yè)務(wù)可能是決定你成敗的關(guān)鍵,讓AI來處理預(yù)約至少可以獲取電話號碼和信息,然后回電,甚至還可能直接幫你預(yù)約好完整的業(yè)務(wù),為第二天的工作做好準備,這非常棒。
除此之外,我們還看到很多公司采用了一些巧妙的方法。有些電話在當(dāng)下打出去其實并不合理,比如信用卡公司給客戶寄了信用卡,但客戶一直沒有激活,在一到三天后就打電話催促客戶激活真的有意義嗎?
我見過一些語音Agent在這類業(yè)務(wù)上做得非常成功。還有所有的后臺工作,這些工作不直接面向客戶,敏感度較低。比如在醫(yī)生辦公室,醫(yī)生可能每天要花很多時間打電話給藥房、保險公司,這些時間本可以用來治療病人或者讓診所運營得更好。這些電話業(yè)務(wù)非常適合語音Agent來處理。
也許最有趣的一點,也是我們經(jīng)常討論的一點是,有很多類型的電話溝通或交互工作,人類員工并沒有動力把它們做好。比如員工可能需要進行推銷,但這可能會讓他們感到尷尬,而且又沒有額外的提成,所以他們80%的情況下都會跳過這個環(huán)節(jié)。但AI每次都會去做,而且會很積極地去做。如果被拒絕了,它就會直接去處理下一通電話,同時處理成百通電話也不在話下。
Anish Acharya:AI總是那么積極熱情,而且在談判中也不會輕易讓步,這太神奇了。我認為對于很多使用這些產(chǎn)品的客戶來說,神奇的時刻在于他們看到產(chǎn)品真的帶來了改善。就像在招聘場景中,它提升了求職者的體驗和員工的體驗。就像Olivia所說,對于求職者而言,他們很高興能有這樣一個全天候、無偏見的系統(tǒng)。反過來,對于員工來說,他們也很高興不用再打這些招聘電話,畢竟其中很多電話都是打給那些他們以后再也不會聯(lián)系的人。
所以,就是這些高NPS(凈推薦值)的成果。很多客戶直觀的想法是,雖然價格降低了,但可能NPS也會變差。但在很多情況下,實際是價格降低了,NPS卻提高了。
Steph Smith:你們還提到了一些特點,為了更明確地說明在哪些方面AI語音Agent取得了成功,哪些方面沒有,能詳細講講嗎?
Olivia Moore:我覺得最容易獲得的早期成果,應(yīng)該是那些已經(jīng)在呼叫中心投入大量資金的企業(yè)。因為他們在這方面已經(jīng)投入很多,而且呼叫中心一直存在人員流動率高、管理困難的問題。老實說,大多數(shù)企業(yè)如果可以的話,都很想擺脫這些問題?,F(xiàn)在模型已經(jīng)很不錯了,而且每個月都在不斷優(yōu)化。
我認為當(dāng)通話過程和結(jié)果相對固定時,企業(yè)會更放心使用AI語音Agent。例如,語音Agent在通話前就明確知道目標是為某人預(yù)約,這種情況就比較容易處理;但如果通話目標很模糊,比如很難衡量通話是否成功,那就比較難辦。我們看到過一些AI治療語音Agent,它們很厲害,而且還在不斷改進。但在這種情況下,語音Agent很難在通話結(jié)束時判斷自己是否做得好,企業(yè)也很難判斷是否達到了目標。
這又回到了通話過程和結(jié)果是否固定這個問題上。即使語音Agent的表現(xiàn)可能比人工Agent更好,但大多數(shù)企業(yè)也不想為此支付太多費用,因為它是AI,企業(yè)把它當(dāng)作削減成本的工具。在一些垂直領(lǐng)域,如果能以比之前低70%的價格提供服務(wù)給客戶,這是非常有吸引力的。
還有一個主要因素是,在某些垂直領(lǐng)域,企業(yè)必須接聽電話,但對于終端消費者來說,偶爾出點小錯也沒關(guān)系。比如餐廳訂餐和醫(yī)療診斷,這兩者的緊急程度和容錯率就有很大差別。
Anish Acharya:我認為AI的能力提升速度會比我們想象的更快。以語言模型為例,它們?nèi)菀壮霈F(xiàn)幻覺現(xiàn)象。在某些對話場景,比如治療場景中,幻覺可能會有一定幫助;但在另一些場景,比如涉及價格和準確性的談判場景中,幻覺可能就沒什么幫助。
現(xiàn)在開始考慮將語音模型和推理模型結(jié)合,這樣就能將幻覺限制在企業(yè)需要的范圍內(nèi),而不是通過大量系統(tǒng)來控制它。
Steph Smith:由于在某些情況下,我們用AI取代了之前由人類完成的工作,那么在定價方面是怎么考慮的呢?有什么經(jīng)驗嗎?現(xiàn)在大多數(shù)公司是沿用之前的定價模式,還是出現(xiàn)了新的定價模式呢?
Olivia Moore:目前這個階段還很早,定價模式每個月都在變化??梢哉f,“我應(yīng)該如何定價?”、“這個領(lǐng)域的其他公司是怎么定價的?”是我們從企業(yè)那里聽到的最多的問題。
我們看到了一些開始發(fā)揮作用,或者人們正在嘗試的定價模式。最常見的就是按分鐘計費,就像計算人工每小時的費用一樣,計算語音Agent的費用。但這里面也有一些問題。一方面,很多客戶都知道底層技術(shù)成本在降低,他們會質(zhì)疑為什么成本降低了,自己還需要每分鐘支付30美分,懷疑企業(yè)把成本降低的部分都變成了利潤。而且隨著這個領(lǐng)域競爭加劇,新進入的企業(yè)很容易就會說“我每分鐘只收5美分”,通過低價競爭來搶占市場。
另一方面,按分鐘計費的模式把平臺的價值完全與通話時長掛鉤,然而通話業(yè)務(wù)正逐漸變得同質(zhì)化,相比之下,圍繞通話構(gòu)建的其他軟件才更有價值。
因此,我們看到很多公司從單純的按分鐘計費,轉(zhuǎn)變?yōu)槭杖∧撤N平臺費用,可能是按月收費,也可能是按模塊收費。客戶除了使用語音Agent,還會為其他相關(guān)服務(wù)付費。
我們也看到了一些更有創(chuàng)意的定價嘗試。招聘領(lǐng)域就是一個很好的例子,在這種情況下,語音Agent輔助人工工作,就可以按照使用語音Agent的人工數(shù)量收費,類似于按席位收費的SaaS模式。比如,一個人工招聘人員每周使用語音Agent可能節(jié)省5到10個小時的面試時間,那么就可以向每個招聘人員每月收取500到1000美元的費用。
最后一種,也是最具實驗性的定價模式是基于結(jié)果收費。目前這在整個AI領(lǐng)域都是一個值得探討的方向。比如每成功預(yù)約一次收費5美元,或者按照預(yù)約價值的5%收費。顯然,這種定價模式將產(chǎn)品價值與為企業(yè)創(chuàng)造的價值最直接地聯(lián)系在一起。但我們也很關(guān)注這種模式在企業(yè)中的推廣情況,因為很多企業(yè)可能不太愿意采用這種支付結(jié)構(gòu),尤其是當(dāng)他們不確定業(yè)務(wù)量的時候。
Steph Smith:很有意思,看起來最后這種定價模式開始有了發(fā)展的趨勢,但還處于初期階段。
Olivia Moore:我認為這和SaaS領(lǐng)域的情況類似,不是所有公司的定價都一樣,這取決于終端客戶、垂直領(lǐng)域以及提供的功能。我感覺未來會出現(xiàn)按通話使用量計費,再結(jié)合某種更廣泛的平臺收費、按結(jié)果收費或者按席位收費的混合定價模式,不會只采用一種模式,不過目前還處于非常早期的階段。
Steph Smith:沒錯,既然還處于早期階段,那你對AI語音領(lǐng)域的MaaS有什么看法呢?就像你提到的,這不僅適用于語音領(lǐng)域,在整個AI生態(tài)系統(tǒng)中都是如此。你認為在這個領(lǐng)域,MaaS可能會從哪些方面產(chǎn)生呢?
Olivia Moore:我認為MaaS可能體現(xiàn)在幾個方面。一方面是集成能力。這就是為什么我們對這些更專注于垂直領(lǐng)域的語音Agent特別感興趣。讓OpenAI去和每一個長尾領(lǐng)域的軟件集成是不現(xiàn)實的,比如運輸管理軟件,物流公司需要用這些軟件來管理卡車車隊,但OpenAI的語音Agent產(chǎn)品很難做到與它們?nèi)考伞?/p>
同樣,OpenAI和其他公司目前的交互系統(tǒng)比較固定,很多傳統(tǒng)企業(yè)無法按照自己的需求來使用。對我們來說,特別是對于企業(yè)客戶,最有吸引力的競爭優(yōu)勢之一是自我改進的數(shù)據(jù)模式。
假設(shè)你要為一家大型銀行接管電話業(yè)務(wù),銀行對這些電話的處理有特定要求,不可能在第一天接入語音Agent就能達到100%的凈推薦值。這需要數(shù)月的培訓(xùn)通話來不斷優(yōu)化。作為語音Agent供應(yīng)商,如果能盡早進入市場,就能獲得這些特殊的專有數(shù)據(jù),這會讓你比其他后來者領(lǐng)先幾個月,因為他們需要重新經(jīng)歷整個入職、集成和培訓(xùn)的過程。
所以很多專注于垂直領(lǐng)域的語音公司希望能夠利用每個客戶的通話數(shù)據(jù),或者對多個客戶的數(shù)據(jù)進行匿名化處理,來不斷優(yōu)化模型。隨著時間的推移,相比那些橫向發(fā)展的公司,他們就能逐漸建立起競爭優(yōu)勢。
Steph Smith:如果是這樣的話,你認為AI語音公司會像上一代公司比如Uber那樣,競相成為市場先行者嗎?我們之前討論過像Uber這樣的公司,他們需要迅速獲取客戶,可能要投入大量資金,但之后可以獲得回報。
Anish Acharya:雖然在AI語音領(lǐng)域贏得市場的成本肯定比Uber低,但確實也需要像Ben多次提到的那樣,既要打造出人們需要的產(chǎn)品,又要去占領(lǐng)市場,從沒有市場份額到獲得全部市場份額。所以競爭非常激烈,這就是為什么定價在當(dāng)前的生態(tài)系統(tǒng)中是一個如此重要的話題。這肯定會是一場激烈的競爭。
就像Olivia說的,在語音領(lǐng)域肯定會出現(xiàn)一些非常有趣的、基于語音特性的競爭優(yōu)勢。比如可以想象,對于我們公司來說,有一個語音智能助手,它能像Mark那樣進行公司業(yè)務(wù)的介紹,像Martin那樣進行談判,還能像Olivia那樣分析市場形勢。語音領(lǐng)域有很多專業(yè)化的機會,這些機會與語音特性緊密相關(guān)。另一方面,集成能力、網(wǎng)絡(luò)效應(yīng)、規(guī)模效應(yīng)等傳統(tǒng)的競爭優(yōu)勢因素也會發(fā)揮作用。
OliviaMoore:而且我認為進入市場的策略會因垂直領(lǐng)域而異。比如餐廳、家政服務(wù)、水療中心或美甲沙龍等行業(yè),參與者眾多且分散。在這些領(lǐng)域,數(shù)據(jù)掌握在各個商家手中;而銀行或金融機構(gòu)這類行業(yè),少數(shù)幾家大公司占據(jù)主導(dǎo)地位。如果要讓銀行這類機構(gòu)采用你的語音Agent產(chǎn)品,可能需要6到9個月的時間;而對于面向餐廳、家政服務(wù)等行業(yè)的語音Agent供應(yīng)商來說,可能更關(guān)注在相同時間內(nèi)獲取上千個客戶。
Anish Acharya:我還認為一個有趣的現(xiàn)象是人們會和AI建立起個人關(guān)系。比如,你和摩根大通并沒有什么個人關(guān)系,你更多的是和在這家公司工作的理財經(jīng)理有聯(lián)系。這就是為什么很多理財經(jīng)理離開大平臺時,會帶走他們的客戶。房地產(chǎn)經(jīng)紀人也是一個很好的例子。在某些情況下,AI可能會和人建立起深厚的個人聯(lián)系,而人們也希望維持這種聯(lián)系,這就形成了一種競爭優(yōu)勢。
03B2C市場:創(chuàng)業(yè)公司繞開行業(yè)巨頭的方向
StephSmith:到目前為止,我們討論了很多B2B的應(yīng)用場景,但這也引出了B2C的應(yīng)用場景。能談?wù)勗谶@方面你看到了什么嗎?比如B2B和B2C應(yīng)用場景有哪些不同?
Olivia Moore:我認為B2B的語音Agent比B2C的語音Agent應(yīng)用場景更明顯,因為對于企業(yè)來說,使用語音Agent可以直接取代現(xiàn)有的電話人工服務(wù)成本。對于消費者而言,可能那些成本高昂、難以獲取的服務(wù),現(xiàn)在可以由語音Agent來提供,這就是語音Agent在B2C市場的用武之地。比如心理治療和心理健康支持,教育科技領(lǐng)域也是一個大方向,像語言學(xué)習(xí)、教孩子閱讀或做數(shù)學(xué)題,很多家長在這些方面都很頭疼。還有輔導(dǎo)如何進行艱難的私人對話等領(lǐng)域,我們都看到了語音Agent的廣泛應(yīng)用。
在面向消費者的語音Agent方面,一個主要的問題是,當(dāng)ChatGPT或者很快會出現(xiàn)的Claud等產(chǎn)品,已經(jīng)能很好地處理很多基本的消費者應(yīng)用場景時,哪些垂直領(lǐng)域或應(yīng)用場景還需要專門的模型或特殊的交互界面來提供更大的價值呢?目前最好的模型可能掌握在OpenAI手中,而不是任何獨立的語音Agent公司都能通過API使用。那些最大、最成功的消費類公司往往出人意料,而且很難預(yù)測。所以我覺得,雖然現(xiàn)在很難預(yù)測面向消費者的語音Agent在哪些方面會取得成功,但當(dāng)我們看到成功案例時,肯定會覺得非常明顯,而且很可能會來自一家大型公司。
Steph Smith:你認為像谷歌、蘋果這樣的行業(yè)巨頭,在占領(lǐng)B2C市場方面有多大潛力呢?我們參與的那些YC公司或其他公司,真的能在競爭中脫穎而出嗎?
Anish Acharya:我對此有一些看法。比如,當(dāng)你家里既有谷歌Home智能音箱,口袋里又有ChatGPT時,你就會發(fā)現(xiàn)巨頭們落后了太多。我的孩子想讓谷歌Home像ChatGPT那樣給他們講故事,但谷歌Home完全做不到。我的孩子最早接觸到的、至少是深入接觸的技術(shù)是通過模型,而不是搜索引擎。很多人在日常生活中都有類似的體驗,那就是行業(yè)巨頭在這個領(lǐng)域已經(jīng)落后了很多。
其次,我們也討論過很多次,人類體驗中有很多不太舒服或者不太合適的方面,而行業(yè)巨頭由于自身結(jié)構(gòu)的原因,永遠不會去觸及這些話題。大公司有各種委員會、律師等,很難推出有獨特觀點的產(chǎn)品,至少很難像很多語音模型所需要的那樣有鮮明的觀點。而初創(chuàng)公司在這方面則沒有問題。當(dāng)然,也有像Grok這樣的反例,但我認為這更多是由創(chuàng)始人主導(dǎo)的大公司才能做到的,傳統(tǒng)巨頭很難做到。
Olivia Moore:我認為在某些通話業(yè)務(wù)已經(jīng)或即將同質(zhì)化的領(lǐng)域,用戶體驗的重要性相對較低,谷歌這類公司可能會在這些領(lǐng)域發(fā)力。比如他們最近推出了一項功能,可以打電話給餐廳查詢座位情況,然后再反饋給用戶。如果能在谷歌搜索上添加這樣一個按鈕,通過他們來實現(xiàn)這項功能是有意義的。但他們會打造出第一個能在所有產(chǎn)品和信息源上使用的AI原生個人助手嗎?我覺得不太可能。我認為行業(yè)巨頭最終涉足的所有通話業(yè)務(wù),雖然可能會有一定的業(yè)務(wù)量,但不太可能催生出大型且令人興奮的新初創(chuàng)公司。
Anish Acharya:他們會利用新技術(shù)來鞏固自己在傳統(tǒng)優(yōu)勢領(lǐng)域的主導(dǎo)地位,這沒問題。但在所有新的領(lǐng)域,他們可能根本無法競爭,至少從歷史經(jīng)驗來看是這樣的。而且我覺得有一個很重要的問題是,如果模型成為互聯(lián)網(wǎng)的新前端,搜索是否還具有重要意義呢?他們還能繼續(xù)在一個對下一代消費者和企業(yè)來說逐漸失去相關(guān)性的領(lǐng)域保持主導(dǎo)地位嗎?
04逗笑用戶的時間:AI語音產(chǎn)品的新KPI
Steph Smith:你提到的“有鮮明觀點”這個概念非常重要。我認為語音作為一個平臺,我們直觀地認為它需要比其他平臺更有鮮明觀點,因為有趣的人都有自己的觀點。我甚至在想,雖然可能有點夸張,像搜索或其他應(yīng)用程序的一些傳統(tǒng)KPI,對于語音來說可能并不適用。你可以想象,對于語音模型來說,“逗笑用戶的時間”可能是一個神奇的指標,也就是看它能多快讓用戶笑出來或者哭出來,不是刻意為之,而是真正讓用戶與模型深度互動。這在文本交互中是不太可能出現(xiàn)的。
Olivia Moore:所以我覺得普通消費者會認為Siri甚至都無法與ChatGPT的語音模式相媲美,因為用戶在使用它們時的感受截然不同。
Anish Acharya:我認為還有一個有趣的點是,在某些文化中,有點愛抬杠、有點諷刺的交流方式反而更受歡迎,人們認為這樣才能建立信任、更好地與人互動。比如英國文化,甚至美國東海岸文化在一定程度上也是這樣。幾周前我們還開玩笑說,需要ChatGPT推出東海岸語音模式,那種風(fēng)格非常簡潔,不喜歡和愚蠢的人打交道。
Steph Smith:它會直接說“不”。想想你的朋友,雖然有些人可能有那種隨叫隨到的朋友,但大多數(shù)人的朋友之間都會有一些調(diào)侃,會有自己的觀點。
Olivia Moore:這其實就是我們在尋找的語音陪伴產(chǎn)品或者面向消費者的語音Agent的特點。如果建立關(guān)系太容易,如果它們總是對你唯命是從,不給你坦誠的反饋,很快就會讓人覺得乏味。作為消費者,一直有個“應(yīng)聲蟲”跟著你并沒有什么價值。所以,我們對那些在構(gòu)建語音Agent時,賦予其獨特角色和個性,讓用戶與之建立情感聯(lián)系的創(chuàng)業(yè)者非常感興趣。這與我們過去使用的語音Agent不同,過去用戶只是把它們當(dāng)作執(zhí)行基本任務(wù)的機器。
Anish Acharya:沒錯,信任是要靠爭取的,如果模型在設(shè)計時沒有考慮到這一點,它們就永遠無法發(fā)揮出全部潛力。
Steph Smith:說得太好了。在我們朝著打造這類產(chǎn)品努力的過程中,對于未來的發(fā)展、你感到興奮的方向,以及你希望創(chuàng)業(yè)者關(guān)注的重點,有什么想和聽眾分享的嗎?
Olivia Moore:我覺得有一件事非常有趣,這可能只是標準的科技平臺變革,但我們看到一些剛進入某個行業(yè)幾個月的創(chuàng)業(yè)者,就能深入研究并打造出最具影響力、高增長和高轉(zhuǎn)折點的產(chǎn)品。這是因為游戲規(guī)則正在改變,現(xiàn)在能打造出的產(chǎn)品的能力和影響力,是我們以往從未見過的。在很多方面,快速推出產(chǎn)品成為了一種競爭優(yōu)勢。你可以在后續(xù)逐步積累行業(yè)專業(yè)知識、人脈、知識庫和資源等其他方面的能力。所以,那些進入行業(yè)只有6個月、1年甚至更短時間,但能迅速明確自己要打造什么產(chǎn)品,并且快速開發(fā)、測試、獲取反饋,然后不斷改進的創(chuàng)業(yè)者,是我們最感興趣的。
Anish Acharya:所以有兩點想分享。第一,如果你正在這個領(lǐng)域進行產(chǎn)品開發(fā),歡迎和我們交流,項目越獨特越好。第二,我們和很多AI創(chuàng)業(yè)者討論過一個思路,就是思考你產(chǎn)品的“超級豪華版”是什么樣的。如果你現(xiàn)在向消費者每月收費20美元或100美元,那么每月收費1000美元甚至10000美元的產(chǎn)品會是什么樣的呢?在語音領(lǐng)域也是如此。我們確實希望復(fù)制一些高流量的應(yīng)用場景,用語音AI模型來替代人工,但企業(yè)中那些最敏感、最有價值的對話呢?你能針對這些場景開發(fā)產(chǎn)品嗎?為這些場景提供服務(wù)你會收取多少費用呢?也許每次交互收費10萬美元有點夸張,但作為產(chǎn)品設(shè)計的一種思考方式,不妨這樣想想。這是一個很有意思的思考方向,希望能給大家?guī)韱l(fā)。
原文:Why AI Voice Feels More Human Than Ever
https://www.youtube.com/watch?v=-_qYRdEcNiE&ab_channel=a16z
編譯:Dean Liu
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.