2024年12月,AI語言學習領域殺出新的獨角獸,憑借著7800萬美元C輪融資,Speak的投后估值飆升至10億美元。
2016年,90后天才少年Connor Zwick和Andrew Hsu看到AI在語言學習領域的變革潛力,于是創辦了Speak。
Speak成立的初衷是擊碎啞巴英語痛點,其slogan是“讓你輕松‘說’英文的APP”,愿景是為每一位用戶打造一位個性化的“AI tutor”。這也是為什么Speak用掌握英文的句子數量來體現自己能讓人開口的優勢,比如其官網顯示,在第一周的學習中,Speak用戶便掌握了1100句英文。
Speak的機構投資者包括OpenAI Startup Fund、Founders Fund、Khosla Ventures和Buckley Ventures。其中,OpenAI曾四次押注Speak。
Speak的主要市場是非英語母語地區。2018年,Speak正式在韓國上線應用商店,目前已經成為韓國地區排名領先的英語學習應用,之后韓國市場的成功經驗被帶到其他市場。如今,Speak在日本、中國臺灣及其他地區也展現了強勁的增長勢頭。
目前,Speak正在快速接近5000萬美元的年經常性收入(ARR),年增長率超過100%。Andrew Hsu曾透露,截至2024年12月,Speak應用的下載量已超過1000萬次,每位用戶每天的使用時間約為10-20分鐘。在B2B業務方面,有超過200家企業客戶。
Connor和Andrew分別畢業于哈佛大學和斯坦福大學,雖然年輕,但他們在教育領域已經積累了豐富的經驗,比如Connor高二時開發的一款語言學習應用Flashcard+被上市教育企業Chegg收購。
近期,OpenAI與Speak首席執行官Connor進行了一次交談,探討AI如何重塑語言學習,如何讓AI老師更加自然,以及在瞬息萬變的技術大環境中,擴大一家AI初創公司會面臨哪些挑戰。
Q:你什么時候與AI進行了第一次有意義且重要的接觸?這對Speak的規劃有何影響?
Connor:回顧過去10多年,我會想起很多給我留下深刻印象并改變了我對AI看法的時刻。比如,2012年AlexNet論文發布,在當時用深度神經網絡進行圖像識別就已經非常非常厲害了。另一個重要時刻是AlphaGo的出現。
但就我個人而言,我在2015年才真正與AI有了近距離的接觸。我和我的聯合創始人當時正在進行獨立的AI研究,我們盡可能多地汲取知識,閱讀相關的論文,應用各種功能。
我們還從YouTube收集大量數據,把這些數據都輸入到模型中,當時并不知道最終會有什么結果。在第一次訓練后,我們幾個小時后又回來測試,我們創建了一個比當時最先進的口音檢測模型還要好的模型。
我們意識到深度學習將會變得無比強大。只要有足夠多的數據,它就能做出令人驚嘆的事情,在很多情況下,甚至能超越當時最先進的技術……
Q:開始打造AI語言老師時,你們如何以一種讓語言學習者感覺更自然的方式將AI融入平臺?
Connor:對我們來說,關鍵在于如何將深度學習融入語言學習體驗。Speak最初幾年專注于打造真正優質的口語體驗。在我們之前,語言學習應用并沒有真正地將口語要素融入其中。即使有,他們也沒有模型來穩定地理解說話人的各種口音。
語音識別模型對于口音的語音識別非常不準確,但由于我們能夠快速構建出比當時主流模型都要好的語音識別模型,我們看到了將其融入基礎產品體驗的機會,現在已經取得了一些成果。
Q:AI發展非常迅速,你認為該如何有效地規劃未來的產品路線圖?
Connor:我要回答的或許并非是所有人都想聽到的答案,但我相信,如果你想成為AI產品的領導者,你需要對技術和模型的運作方式有深刻的技術直覺。否則,你就無法清晰地意識到,哪些問題可以在下個月或12個月內得到解決,哪些問題則需要很長時間才能解決。
具備了這種直覺,你就能為未來而創造。比如,我們有時候會做一些看起來成本過高的東西,這是因為我們知道一年后這個成本會下降。又或者,我們現在會圍繞模型的弱點進行設計,因為我們知道這些弱點之后會得到改善。
重要的是了解90%、98%、99%和99.9%準確率之間的區別,以及這些區別如何影響產品體驗,要知道90%和99.9%是截然不同的。想要做出合理的產品決策,還需要具備預測曲線何時會上升的能力。
Q:最近AI領域實現的哪些技術突破改變了你對Speak所具備的可能性的看法?
Connor:OpenAI的實時API和音頻多模態功能。就我們的用例來說,我們正在構建一個能夠幫助學習者達到流利水平的“超人類AI口語老師”(superhuman AI speaking tutor),它能充分理解學習者想要表達的內容,而不僅僅是轉錄他們說的話。
AI輔導的終極目標是實現即時理解語調、發音和意圖,然后立即以符合學習者語調的方式提供開放式且自然的反饋。
Q:AI領域中還有哪些其他進展看起來與Speak無關,但實際上卻令你感到興奮?
Connor:人們都說推理是下一個前沿,我也同意這一點。對Speak來說,最優秀的人類教師之所以優秀,是因為他們能夠設計出優秀的學習計劃和課程,深入思考學生的進步,并相應地做出調整。
擁有超級智能體推理能力的AI將成為語言學習的一大突破。雖然這并不是我們領域最顯著的AI進步,但它將對AI老師的教學質量產生巨大影響,使其與最優秀的人類教師一樣高效。
Q:在AI驅動的大環境下,你如何看待語言教師角色的演變?
Connor:數十億人正在嘗試學習英語和其他語言,但優質真人教師的數量不足以滿足這一需求。大多數人不得不依賴書本或在線視頻,而這些與真實的對話截然不同。歸根結底,人們學習語言是為了與他人建立聯系,而不是為了與AI建立聯系。即使AI達到超人類的水平,與真人進行練習的需求也會一直存在。
我們并不是要取代人類教師,而是為了讓全世界的人都能接觸到更優質的語言輔導。
Q:隨著Speak團隊規模擴大,你們如何培養團隊對AI的熟練度?
Connor:最重要的是找到合適的人,好奇心是我們團隊重要的文化基石。我們需要的是自驅力強、渴望探索AI如何擴大影響力的團隊成員。
ChatGPT存在“blank canvas”的問題,通俗地講就是直到人們偶然想到一個應用場景時才會意識到如何使用它。AI用途極其廣泛,我們鼓勵團隊不斷思考:“我能用AI來做這件事嗎?”,并進行測試、驗證。
Q:接下來,哪些AI趨勢將對語言學習產生最顯著的影響?
Connor:一切都可以改進,但目前的關鍵在于利用現有資源打造盡可能優秀的產品。有效應用AI,仍面臨巨大的技術挑戰,我們稱之為“機器學習腳手架”(ML scaffolding),這是賦能整體產品體驗的技術。
我們在這方面已經努力了一段時間,有了先發優勢,但還有很長的路要走。即使今天AI停止前進,我們未來數年還有令人興奮的工作要做。
這些模型特別擅長語言、與人互動、使用語言。在其他許多行業,在真正產生變革效果之前,可能還需要一些突破,但我認為我們現在已經擁有了所需的一切。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.