作者:楊曉鶴
最近,在短視頻等內(nèi)容平臺(tái)上,最火的創(chuàng)業(yè)明星又是馬斯克。
這次不是因?yàn)榛ㄟ呅侣劅岫扰噬撬亩说蕉舜竽P停屘厮估淖詣?dòng)駕駛終于擺脫了算法規(guī)則下,需要窮盡Corner case的模式,仿佛為車機(jī)安裝了感知到?jīng)Q策的大腦。
這是第一性原理的勝利,在馬斯克眼中,自動(dòng)駕駛不能依賴激光雷達(dá)等昂貴的“拐杖”方案,而是應(yīng)該使用直接且便宜的視覺感知方案。所以特斯拉一直往這個(gè)方向探尋,導(dǎo)致其能創(chuàng)造端到端這一顛覆性技術(shù)成果。
而在教育界,第一性原理同樣被一家杭州AI企業(yè)推崇。這家公司名叫精準(zhǔn)學(xué),最近剛剛獲得阿里近2億元投資,逐漸成為AI教育的關(guān)注點(diǎn)。精準(zhǔn)學(xué)創(chuàng)始人楊仁斌曾是阿里“最年輕的技術(shù)總監(jiān)”,創(chuàng)業(yè)理想是利用AI實(shí)現(xiàn)“真人版一對(duì)一輔導(dǎo)教學(xué)”。
在大家眼中,家長(zhǎng)和教師輔導(dǎo)孩子一對(duì)一寫作業(yè),是最難解的場(chǎng)景,每個(gè)家長(zhǎng)都因此崩潰過。楊仁斌曾在此前采訪中說,傳統(tǒng)的一對(duì)一教學(xué)模式,一線城市每小時(shí)收費(fèi)高達(dá)400~800元,“家長(zhǎng)都知道一對(duì)一效果好,但全世界付得起這個(gè)錢的家庭比例很低。”
而端到端語音大模型成為這一問題的最大突破點(diǎn)。精準(zhǔn)學(xué)宣布,公司已在AI語音交互技術(shù)上取得領(lǐng)先性的突破,成功訓(xùn)練了中國(guó)首個(gè)語音端到端大模型“心流知鏡-s(V02)”,可直接實(shí)現(xiàn)語音輸入-語音輸出的交互,使其更適配輔學(xué)場(chǎng)景,使大模型達(dá)到“真人老師”級(jí)別的自然對(duì)話交流體驗(yàn)。
“心流知鏡-s(V02)” 使用端到端語音結(jié)構(gòu),避免了級(jí)聯(lián)ASR+LLM+TTS方式額外延遲,同時(shí)也更好的改善純文本模型損失的情感節(jié)奏等豐富信息,接近人類的語音交互體驗(yàn)。
至此,AI硬件也成為實(shí)時(shí)互動(dòng)的萬能教師。這樣的教育大模型機(jī)器,正成為一個(gè)爆發(fā)的市場(chǎng)。
數(shù)據(jù)也可以佐證,據(jù)艾媒咨詢統(tǒng)計(jì),2023年,中國(guó)教育智能硬件市場(chǎng)規(guī)模達(dá)到807億元,增速接近30%。中國(guó)商務(wù)部數(shù)據(jù)顯示,AI學(xué)習(xí)機(jī)的銷售額在今年上半年增長(zhǎng)了136.6%。
這一賽道的頭部廠商包括科大訊飛、百度、學(xué)而思等,但市場(chǎng)并非只屬于巨頭。 精準(zhǔn)學(xué)合伙人張寧表示,“端到端語音大模型正成為AI教育的主要入門門檻。 ”。 精準(zhǔn)學(xué)率先推出端到端語音大模型,成為AI教育界的重要?jiǎng)?chuàng)新成果。
接近千億的市場(chǎng),大模型學(xué)習(xí)機(jī)能再造一家小米公司嗎?
第一性原理正顛覆教育界
“你如果對(duì)著AI學(xué)習(xí)機(jī)讀Apple,可能你的發(fā)音不準(zhǔn)確,但發(fā)音近似,轉(zhuǎn)到ASR里面的結(jié)果就是對(duì)的。但你把語音的信息,降維到文字之后,有些所謂的言外之意就消失了。”
張寧對(duì)AI鯨選社表示,此前行業(yè)在試圖模擬老師的時(shí)候,無法解決信息傳遞準(zhǔn)確的問題,人的言外之意、情緒以及講話的重音之類的情況,基本都被忽略掉了。
這是在傳統(tǒng)AI時(shí)代,很難解決的問題。因?yàn)閭鹘y(tǒng)AI學(xué)習(xí)的過程,是依靠拍照算法識(shí)別,機(jī)器學(xué)習(xí)解析,語音反饋等環(huán)節(jié),中間要經(jīng)歷CV、OCR、TTS等多個(gè)系統(tǒng),內(nèi)容在多個(gè)AI系統(tǒng)傳遞中,注定有折損。所以當(dāng)時(shí)的很多AI學(xué)習(xí)機(jī)效果并不好。
精準(zhǔn)學(xué)對(duì)這一問題有很深的感悟,在2022年的時(shí)候,精準(zhǔn)學(xué)嘗試做了一款小學(xué)語文作業(yè)批改的AI產(chǎn)品,當(dāng)時(shí)用了macbert等等模型組合,整合了很多方式的各類NLP單任務(wù)AI模型。但依靠這些技術(shù)推出的產(chǎn)品,即使是小學(xué)的語文題目,比如病句批改、語法糾錯(cuò)、閱讀理解、300字作文等場(chǎng)景下,很多死角問題解決得還是勉勉強(qiáng)強(qiáng)。
當(dāng)時(shí)那個(gè)產(chǎn)品沒有在市場(chǎng)上推廣,只找了1000個(gè)用戶去做了一下測(cè)試。然后2022年底GPT橫空出世后。精準(zhǔn)學(xué)用GPT大模型迭代測(cè)試了這款產(chǎn)品,“一下子把所有的這些任務(wù),全都碾壓性的解決掉了。”
對(duì)當(dāng)時(shí)的精準(zhǔn)學(xué)是一個(gè)很深刻的觸動(dòng),張寧形容,“被歷史車輪一下子碾過去的感受。”張寧說道,不是當(dāng)時(shí)產(chǎn)品做得不好,而是相比大模型的生成式AI,技術(shù)迭代太大了。
“我們僅用一周時(shí)間就決定,All in AGI ”,直接做語音大模型,并以此做出深度互動(dòng)的AI Native產(chǎn)品。
如今市場(chǎng)上,大模型學(xué)習(xí)機(jī)已經(jīng)并不鮮見。科大訊飛、網(wǎng)易有道都推出了自己的AI學(xué)習(xí)機(jī)產(chǎn)品。值得一提的是,精準(zhǔn)學(xué)國(guó)內(nèi)首發(fā)端到端語音大模型,并且或是全球首個(gè)開源的端到端語音大模型,并且這一成果將馬上應(yīng)用于新的學(xué)習(xí)機(jī)產(chǎn)品。
精準(zhǔn)學(xué)一直在教育科技賽道,這要求其必須具備深度的AI教學(xué)能力、及時(shí)的語音對(duì)話反饋能力,還要有完備的軟硬件結(jié)合能力。
具體來說,在解決前文提到的Apple發(fā)音問題上,必須在輸入到輸出的多模態(tài)大模型系統(tǒng)中,依靠中間的大模型解決所有的問題,而不是劃分出多個(gè)AI系統(tǒng)解決。
這一目標(biāo)下,精準(zhǔn)學(xué)推出了“心流知鏡-s(V02)”。“我知道大概國(guó)內(nèi)有七八家團(tuán)隊(duì)在做相同的事情,但我們?cè)谛袠I(yè)中快速做出來了”,張寧介紹道。
這不僅是創(chuàng)業(yè)公司動(dòng)作更敏捷的原因,還有對(duì)教育市場(chǎng)的理解。目前在互聯(lián)網(wǎng)教培市場(chǎng),有拍照閱卷、教師排班等助教市場(chǎng),也有一對(duì)一輔導(dǎo)等自學(xué)市場(chǎng),后者市場(chǎng)在教培新政后,對(duì)AI的能力需求越來越大。AI需要像真人一樣的輔導(dǎo)能力,才能被市場(chǎng)接納。
精準(zhǔn)學(xué)在AI擬人教師方面,已經(jīng)有兩年多的產(chǎn)品經(jīng)驗(yàn),借助端到端的語音大模型,實(shí)現(xiàn)堪比真人教師的交互效果。張寧認(rèn)為,他們所在的業(yè)務(wù)場(chǎng)景,決定他們對(duì)新技術(shù)更加渴求。
端到端語音大模型是壁壘
AI教育界開始被精準(zhǔn)學(xué)的成果驚喜。
在特斯拉用端到端,將自動(dòng)駕駛帶入新時(shí)代后,精準(zhǔn)學(xué)公司也在AI語音交互技術(shù)上取得突破,成功訓(xùn)練了中國(guó)首個(gè)語音端到端大模型“心流知鏡-s(V02)”。
張寧介紹,精準(zhǔn)學(xué)是基于通義千問開源的Qwen2-MoE-57B訓(xùn)練,打造的融合文本、語音及情緒的實(shí)時(shí)多模態(tài)教育垂直模型。“心流知鏡-s(V02)”的最大優(yōu)勢(shì),是避免了級(jí)聯(lián)ASR+LLM+TTS方式額外延遲,同時(shí)也更好地改善純文本模型損失的情感節(jié)奏等豐富信息,接近人類的語音交互體驗(yàn)。
實(shí)現(xiàn)語音輸入-語音輸出的實(shí)時(shí)交互后,更適配AI輔學(xué)場(chǎng)景,使大模型達(dá)到“真人老師”級(jí)別的自然對(duì)話交流體驗(yàn)。
這為精準(zhǔn)學(xué)的AI輔學(xué)機(jī)Bong系列帶來了3方面的優(yōu)勢(shì):
第一是信息壓縮和交互延遲大幅降低,與AI實(shí)時(shí)對(duì)話成為可能。
端到端帶來的變革,是去掉ASR和TTS那些單獨(dú)的模型處理步驟,直接輸出語音結(jié)果。這不僅讓語氣和語感等內(nèi)容也被AI理解,信息得到全面的處理,也讓AI輸入到輸出,從以前的延遲數(shù)秒降到幾百毫秒內(nèi),人類在幾百毫秒內(nèi)是感知不出差別的。
第二是AI硬件具備了學(xué)習(xí)能力,無論是增強(qiáng)記憶還是學(xué)習(xí)方法等特色內(nèi)容。
張寧講到,為什么這個(gè)世界上人會(huì)去買錯(cuò)題本和學(xué)霸筆記,他要買的其實(shí)不是那個(gè)本子,他要買的是學(xué)習(xí)能力最優(yōu)秀的學(xué)生,他的學(xué)習(xí)方法或者是能力。精準(zhǔn)學(xué)一直探索的精準(zhǔn)學(xué)習(xí)法,實(shí)際上就在堅(jiān)持這一理念,在大模型的幫助下,AI的記憶能力和模仿能力都大大增強(qiáng),幫助每一個(gè)孩子用科學(xué)精準(zhǔn)的學(xué)習(xí)方法,針對(duì)性AI輔助教學(xué),成為可能。
第三是對(duì)垂直場(chǎng)景的解決能力更強(qiáng),通用大模型弱點(diǎn)被克服。
通用大模型在教育場(chǎng)景中遇到的問題,是很多專屬知識(shí)并不了解。“通用大模型,念個(gè)電子書,念一個(gè)什么電視劇臺(tái)詞就很好,然后或者讓他唱個(gè)歌,模仿個(gè)名人都沒有問題”,張寧說道。
但一遇到那種帶數(shù)學(xué)符號(hào)或者帶分?jǐn)?shù)線,根號(hào)之類的題目,通用大模型很難正常讀出來。而“心流知鏡-s(V02)” 用16萬小時(shí)的教學(xué)語音訓(xùn)練,在很多知識(shí)教學(xué)方面更擅長(zhǎng)。
目前市面上,AI學(xué)習(xí)機(jī)琳瑯滿目,價(jià)格動(dòng)輒2999元到5999元。而真正搭載大模型學(xué)習(xí)機(jī)的少之又少,首發(fā)搭載端到端語音教育垂直大模型的學(xué)習(xí)機(jī),使其落地上述全部AI優(yōu)勢(shì),正是精準(zhǔn)學(xué)的努力目標(biāo)。
實(shí)現(xiàn)真正的「AI名師1對(duì)1 」,市場(chǎng)也會(huì)因此而格局生變。
成為AI教育界的小米嗎?
當(dāng)下的精準(zhǔn)學(xué),正成為踩中時(shí)代風(fēng)口的一家公司。
背后原因,是在墨水屏的學(xué)習(xí)機(jī)熱度過后,市場(chǎng)正迎來對(duì)大模型學(xué)習(xí)機(jī)的熱度。五千元左右一臺(tái),每年市場(chǎng)需求在2000萬臺(tái),千億AI學(xué)習(xí)機(jī)市場(chǎng)會(huì)誕生新的“小米”嗎?
從目前看來,這個(gè)市場(chǎng)很難被大廠和初創(chuàng)公司占領(lǐng),在張寧看來,今天重新建一個(gè)教學(xué)機(jī)構(gòu),然后積累十萬小時(shí)數(shù)據(jù),再開個(gè)新的AI公司,這條路徑走下來已經(jīng)沒有時(shí)間冗余。
精準(zhǔn)學(xué)在過去的6年創(chuàng)業(yè)時(shí)間中,與「好未來學(xué)而思」等教育大廠一直戰(zhàn)略合作,技術(shù)系統(tǒng)累計(jì)被全國(guó)數(shù)千教育培訓(xùn)學(xué)校引入和使用,積累了16萬小時(shí)的教學(xué)數(shù)據(jù)和諸多AI教育成果。
另外,傳統(tǒng)的教培機(jī)構(gòu)也難以轉(zhuǎn)型,他們最缺乏的是技術(shù)整合能力。 精準(zhǔn)學(xué)過去一直為高思等知名教培機(jī)構(gòu)提供AI個(gè)性化練習(xí)服務(wù),是教育行業(yè)更懂技術(shù)的角色,因此能快速推出教育大模型。
而對(duì)于互聯(lián)網(wǎng)教培機(jī)構(gòu)來說,很多已經(jīng)融資上百億,誰對(duì)AI大模型等技術(shù)更敏感,動(dòng)作更迅捷,誰就更有機(jī)會(huì)成功。
精準(zhǔn)學(xué)創(chuàng)始人楊仁斌,過去參與過阿里云“飛天”項(xiàng)目,進(jìn)入過阿里集團(tuán)戰(zhàn)略部。在阿里經(jīng)歷了“All in無線”的時(shí)代,幫助淘寶實(shí)現(xiàn)了移動(dòng)化轉(zhuǎn)型。在AI時(shí)代,精準(zhǔn)學(xué)更有決心也更有底氣面向大模型時(shí)代轉(zhuǎn)型。加快收斂和縮短訓(xùn)練大模型的時(shí)間,更早一步推出自有的垂直大模型。
教育界更懂AI、AI界更有垂直數(shù)據(jù)、教培市場(chǎng)里更懂產(chǎn)品,構(gòu)成了精準(zhǔn)學(xué)的“鐵三角”。而精準(zhǔn)學(xué)的理想,就是通過搭載端到端語音大模型的AI Native學(xué)習(xí)機(jī),讓AI輔導(dǎo)更加普惠化。
這會(huì)讓精準(zhǔn)學(xué)的AI輔學(xué)機(jī)有諸多優(yōu)勢(shì),首先是能夠把經(jīng)典例題講清楚,而不是一味追求講題數(shù)量,這是大模型帶來的生成式內(nèi)容優(yōu)勢(shì),不再是此前的固定的輸出模式,生成AI內(nèi)容能回答孩子提出的不同問題。
然后是,實(shí)時(shí)調(diào)整學(xué)習(xí)內(nèi)容和難度,引導(dǎo)學(xué)生進(jìn)入最佳的學(xué)習(xí)狀態(tài);
一直以來,教學(xué)形式還是學(xué)校45分鐘的課程,很多老師能夠聲情并茂地講課。而現(xiàn)在,AI通過模擬人類的情緒和語氣,營(yíng)造極強(qiáng)的真實(shí)感和臨場(chǎng)感。Bong系列AI學(xué)習(xí)機(jī)已經(jīng)實(shí)現(xiàn)20多種個(gè)性化教學(xué)風(fēng)格,模仿各類名師的講解方式,學(xué)生對(duì)著機(jī)器學(xué)習(xí)不再枯燥無趣。
對(duì)于當(dāng)下,AI學(xué)習(xí)機(jī)是否已經(jīng)到了iPhone 4時(shí)代,張寧認(rèn)為目前顛覆性技術(shù)剛剛呈現(xiàn),技術(shù)迭代和產(chǎn)品融合都需要時(shí)間,但AI學(xué)習(xí)機(jī)已經(jīng)距離 iPhone 4時(shí)代已經(jīng)不遠(yuǎn)了 。
在張寧看來,現(xiàn)在大概每五年,AI算力上兩個(gè)數(shù)量級(jí)沒什么問題,那就算它一個(gè)數(shù)量級(jí)也有十倍的差別,這樣成本也在指數(shù)級(jí)往下降。AI能力同時(shí)在成倍的能力上漲,AI模擬真人輔導(dǎo)教學(xué)的效果也會(huì)越來越好。
家長(zhǎng)從手把手輔導(dǎo)中解脫,放重心在學(xué)習(xí)效果監(jiān)督上。屆時(shí),AI就真正成為孩子的學(xué)習(xí)好伙伴。
AI鯨選社創(chuàng)建了行業(yè)高質(zhì)量的『AIGC社群』,500位高質(zhì)量行業(yè)人士已經(jīng)入群,聚集上市公司CEO、所有互聯(lián)網(wǎng)大廠、創(chuàng)業(yè)者以及投資者、媒體人等。我們組建了高端技術(shù)產(chǎn)品交流群、AI熱點(diǎn)交流群、創(chuàng)投趨勢(shì)交流群,歡迎AGI行業(yè)人士入群。添加vx:xhyshow,注明真實(shí)身份。
一張價(jià)值50元的人臉,AI攻防戰(zhàn)火熱朝天
等不來GPT-5,智能體是AGI捷徑嗎
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.