行業(yè)的技術(shù)發(fā)展還是在非常陡峭的區(qū)間,階躍不想在這個(gè)過(guò)程中放棄主流增長(zhǎng)或前進(jìn)的趨勢(shì)。
本文為IPO早知道原創(chuàng)
作者|Stone Jin
據(jù)IPO早知道消息,階躍星辰的創(chuàng)始人、CEO姜大昕博士日前分享了其對(duì)當(dāng)下大模型發(fā)展的理解以及對(duì)階躍星辰未來(lái)的展望。
整體而言,姜大昕博士認(rèn)為:
首先,階躍目前的狀態(tài)是堅(jiān)持基礎(chǔ)大模型的研發(fā),追求AGI是階躍的初心,階躍對(duì)此也不會(huì)改變。
其次,在當(dāng)前的競(jìng)爭(zhēng)格局中,階躍差異化的特點(diǎn)就是多模態(tài)的能力,不僅眼下很多模態(tài)在業(yè)界的性能是領(lǐng)先的,而且階躍也在積極地探索前沿的方向,并且也認(rèn)為這里還存在著非常巨大的機(jī)會(huì)。
第三,在應(yīng)用的層面,階躍也走了一條差異化的路線,攜手合作伙伴在智能終端 Agent這個(gè)方向上發(fā)力,最終形成一個(gè)從模型到Agent,從云側(cè)到端側(cè)的生態(tài)體系,因?yàn)殡A躍認(rèn)為軟硬結(jié)合是能更好地理解用戶的需求,完成用戶的任務(wù)。
“行業(yè)的技術(shù)發(fā)展還是在非常陡峭的區(qū)間,階躍不想在這個(gè)過(guò)程中放棄主流增長(zhǎng)或前進(jìn)的趨勢(shì),所以我們還是會(huì)堅(jiān)持做基礎(chǔ)模型的研發(fā)。而從應(yīng)用的角度來(lái)看,我們一直覺(jué)得應(yīng)用和模型是相輔相成的,也就是說(shuō)模型可以決定應(yīng)用的上限,應(yīng)用給模型提供具體的應(yīng)用場(chǎng)景和數(shù)據(jù)。”當(dāng)被問(wèn)及為何堅(jiān)持基礎(chǔ)大模型研發(fā)時(shí),姜大昕博士如是表示。
以下系經(jīng)「IPO早知道」整理的分享精選:
追求智能的上限仍是當(dāng)下最重要的一件事
姜大昕博士指出,自2月以來(lái),國(guó)外頭部幾家做基礎(chǔ)大模型的公司一直在你追我趕、輪番發(fā)布,非常密集地發(fā)布了一堆模型。通過(guò)這些發(fā)布,其實(shí)可以感受到一個(gè)趨勢(shì),就是“追求智能的上限”仍然是當(dāng)下最重要的一件事。
若拆分來(lái)講,姜大昕博士認(rèn)為當(dāng)下基礎(chǔ)大模型的發(fā)展主要呈現(xiàn)出兩個(gè)趨勢(shì):1、模仿學(xué)習(xí)到強(qiáng)化學(xué)習(xí);2、從多模態(tài)融合走向了多模態(tài)理解生成一體化。
而之于階躍星辰而言,在過(guò)去的兩年時(shí)間里,階躍星辰建立了一個(gè)Step系列的通用大模型的矩陣——首先,階躍星辰把基礎(chǔ)模型分成了語(yǔ)言模型和多模態(tài)模型。其中,多模態(tài)還可以繼續(xù)細(xì)分,按照模態(tài)細(xì)分有圖像、有視頻、有語(yǔ)音、有音樂(lè);按照功能來(lái)分則又可以分成生成模型和理解模型,比如說(shuō)圖像同樣一個(gè)模態(tài),我們有圖像理解和圖像生成,因此多模態(tài)是一個(gè)非常大的系統(tǒng)。
“在國(guó)內(nèi)的大模型公司里面,像我們這樣重視模態(tài)的全覆蓋、并且堅(jiān)持原生多模理念的公司并不多,但階躍從一開(kāi)始就始終認(rèn)為多模態(tài)對(duì)通用人工智能非常重要。有一句話我也在很多場(chǎng)合不停的重復(fù),我們認(rèn)為多模態(tài)是實(shí)現(xiàn) AGI 的必經(jīng)之路。”姜大昕博士表示。
談及為何保有這一信仰時(shí),姜大昕博士解釋稱,首先AGI對(duì)標(biāo)的是人類(lèi)智能,人的智能是多元化的,每個(gè)人除了有來(lái)自語(yǔ)言的符號(hào)智能,還包括視覺(jué)智能、空間智能和運(yùn)動(dòng)智能等等,這些智能是需要通過(guò)視覺(jué)和其他模態(tài)來(lái)進(jìn)行學(xué)習(xí)的。所以階躍認(rèn)為,在多模態(tài)領(lǐng)域任何一個(gè)方向出現(xiàn)短板,都會(huì)延緩實(shí)現(xiàn)AGI的進(jìn)程。
除了從AGI本身的標(biāo)準(zhǔn)和定義來(lái)說(shuō),如果從應(yīng)用的角度來(lái)看,不管是做垂直領(lǐng)域的應(yīng)用還是做C端的應(yīng)用,多模態(tài)都是必不可少的。“我們是需要AI能聽(tīng)、能看、能說(shuō),這樣它才能更好地理解用戶所處的環(huán)境,并且和用戶進(jìn)行更為自然的交流。目前的大模型公司有能力去全面自研預(yù)訓(xùn)練模型,并構(gòu)成這樣一個(gè)模型矩陣的,即使是大公司也不多,更不用說(shuō)是初創(chuàng)公司了,這是階躍星辰的一個(gè)特色,也是我們的一個(gè)優(yōu)勢(shì)。”
多模理解生成一體化是一大趨勢(shì)
姜大昕博士本次還分享了其觀察到的一大趨勢(shì)——多模理解生成一體化,更準(zhǔn)確來(lái)講則是視覺(jué)領(lǐng)域的理解生成一體化。(“理解生成一體化”的定義是理解和生成是用一個(gè)模型來(lái)完成)
一方面,生成的內(nèi)容需要理解來(lái)控制,為了保證生成的內(nèi)容有意義、有價(jià)值,實(shí)際上是需要對(duì)它的上下文做一個(gè)更好的理解,這就是所謂的生成需要理解來(lái)控制;另一方面,理解也需要生成來(lái)監(jiān)督。“在ChatGPT的時(shí)候,大家知道它唯一的任務(wù)就是predict next token,它predict next token這個(gè)過(guò)程就是在生成,在整個(gè)訓(xùn)練的過(guò)程中就是看你 predict next token,predict 的對(duì)還是不對(duì),來(lái)做監(jiān)督,它就可以一路的這樣,生成完成以后再回到框架做理解,這樣一步一步下去,就實(shí)現(xiàn)了自然語(yǔ)言的理解比以前的各種模型出現(xiàn)了一個(gè)斷代式的領(lǐng)先。所以如果我們把predict next token 這樣一個(gè)任務(wù)平移到視覺(jué)領(lǐng)域就會(huì)問(wèn),我們能不能用一個(gè)模型去做 predict next frame?這是視覺(jué)領(lǐng)域的一個(gè)靈魂拷問(wèn),到現(xiàn)在為止計(jì)算機(jī)視覺(jué)做了幾十年,不幸的是這個(gè)問(wèn)題仍然沒(méi)有被解決。”
針對(duì)理解生成一體化這一點(diǎn),階躍星辰前不久剛剛發(fā)布的模型Step 1X-Edit就是一個(gè)比較好的案例——當(dāng)對(duì)圖片進(jìn)行修改時(shí),對(duì)原先圖片的忠實(shí)度非常高,背后的原因就在于階躍星辰采用了一個(gè)理解生成一體化的模型。
這里不妨補(bǔ)充一點(diǎn),階躍星辰日前發(fā)布并開(kāi)源的圖像編輯大模型Step1X-Edit性能達(dá)到開(kāi)源 SOTA——該模型總參數(shù)量為19B (7B MLLM + 12B DiT),具備語(yǔ)義精準(zhǔn)解析、身份一致性保持、高精度區(qū)域級(jí)控制三項(xiàng)關(guān)鍵能力;支持11類(lèi)高頻圖像編輯任務(wù)類(lèi)型,如文字替換、風(fēng)格遷移、材質(zhì)變換、人物修圖等。一句話總結(jié)的話,Step1X-Edit,不只能“改圖”,更能“聽(tīng)得懂、改得準(zhǔn)、保得住”。
“當(dāng)然這個(gè)還是比較初級(jí)的階段,我們內(nèi)部還在開(kāi)發(fā)一個(gè)更高級(jí)的版本,未來(lái)幾個(gè)月也會(huì)把更先進(jìn)的技術(shù)發(fā)布出來(lái)。”姜大昕博士表示。
值得注意的是,姜大昕博士強(qiáng)調(diào),理解生成一體化的路線在階躍星辰成立之初就已設(shè)定好。
將智能終端Agent作為自己的重要方向之一
事實(shí)上,除了在基礎(chǔ)模型端發(fā)力外,階躍星辰一直秉承“超級(jí)模型加上超級(jí)應(yīng)用”雙輪驅(qū)動(dòng)的策略。
在姜大昕博士看來(lái),Agent爆發(fā)需要兩個(gè)必要的條件,一是多模態(tài)能力,另外一個(gè)是慢思考的能力,這兩個(gè)能力恰好在2024年的時(shí)候取得了突破性的進(jìn)展。
截至目前,階躍星辰基于自身的模型矩陣,和合作伙伴一起打造了垂類(lèi)的Agent和智能終端的Agent。其中,除了金融財(cái)經(jīng)、內(nèi)容創(chuàng)作、新消費(fèi)等過(guò)去一段時(shí)間階躍星辰已有一定積累的領(lǐng)域外,階躍星辰今年在智能終端Agent方面著重發(fā)力。
姜大昕博士指出,之所以選擇智能終端Agent作為自己的方向,是因?yàn)?/strong>階躍認(rèn)為Agent要能更好地幫助人類(lèi)去完成任務(wù),需要去理解用戶所處的環(huán)境和任務(wù)的上下文。“智能終端是人的感知和體驗(yàn)的延伸,所以在你發(fā)起任務(wù)的時(shí)候它已經(jīng)知道任務(wù)的上下文了;同時(shí),很多的智能終端或者是終端設(shè)備,就是在幫你完成任務(wù)。”
進(jìn)一步來(lái)講,階躍星辰當(dāng)前在智能終端上選取了幾個(gè)重要的終端,一個(gè)是手機(jī)、一個(gè)是車(chē),還有一個(gè)是機(jī)器人,并已和OPPO、吉利、智元機(jī)器人等各個(gè)方向的頭部企業(yè)展開(kāi)了深度的合作。
談及C端產(chǎn)品的商業(yè)化問(wèn)題時(shí),姜大昕博士表示,DeepSeek帶來(lái)的一個(gè)經(jīng)驗(yàn)就是,投流的邏輯不成立。
“要重新思考一下AI時(shí)代的產(chǎn)品的流量增長(zhǎng)是不是真的像傳統(tǒng)互聯(lián)網(wǎng)那樣靠投流上去的,DeepSeek出來(lái)以后給大家一個(gè)重新看待這個(gè)問(wèn)題的窗口。不光是 DeepSeek ,像《哪吒2》、《黑神話悟空》等其實(shí)都有一些共性,不靠鋪天蓋地地投流積累用戶。“姜大昕博士說(shuō)道,”我們的智能終端其實(shí)也是ToC的,雖然我們和頭部企業(yè)合作,但階躍和這些頭部企業(yè)合作的產(chǎn)品最終服務(wù)C端,作為助手類(lèi)也好、內(nèi)容類(lèi)也好還是有非常大的機(jī)會(huì)。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.