作者 | 王詩(shī)棋 何苗
采訪 | 王啟隆 Eric Wang
出品丨GOSIM 開(kāi)源創(chuàng)新匯
從語(yǔ)言學(xué)跨界到自然語(yǔ)言處理(NLP),Catherine Arnett 深刻體會(huì)到,多語(yǔ)言背景帶來(lái)的思維多樣性,正在為多語(yǔ)言模型的構(gòu)建開(kāi)辟全新路徑。
作為 EleutherAI 的 NLP 研究員,Catherine 起初在愛(ài)丁堡大學(xué)主修中文與語(yǔ)言學(xué)。一次偶然的導(dǎo)師更替,引導(dǎo)她從傳統(tǒng)語(yǔ)言學(xué)研究轉(zhuǎn)向語(yǔ)言模型的計(jì)算探索,由此踏上了跨越語(yǔ)言與技術(shù)邊界的研究之路。
她精通英語(yǔ)、西班牙語(yǔ)、法語(yǔ)和漢語(yǔ),對(duì)語(yǔ)言的結(jié)構(gòu)差異與共性有著敏銳的感知。在深入多語(yǔ)言自然語(yǔ)言處理的過(guò)程中,Catherine 提出了一個(gè)具有啟發(fā)性的重要概念——“字節(jié)溢價(jià)”(byte premium)。她發(fā)現(xiàn):即使是字節(jié)數(shù)相同的文本,不同語(yǔ)言中所承載的“有效信息密度”卻可能差異顯著。這一現(xiàn)象揭示了語(yǔ)言結(jié)構(gòu)對(duì)模型輸入效率的深層影響,并為多語(yǔ)言模型性能優(yōu)化提供了新的理論視角。
圍繞這一發(fā)現(xiàn),Catherine 及其團(tuán)隊(duì)于去年訓(xùn)練了名為“Goldfish”的小型語(yǔ)言模型系列,參數(shù)量約為 1 億,覆蓋多達(dá) 350 種語(yǔ)言進(jìn)行預(yù)訓(xùn)練。令人驚訝的是,這些輕量級(jí)模型在部分基準(zhǔn)測(cè)試中,表現(xiàn)甚至超越了如 Llama-8B 等參數(shù)規(guī)模高達(dá)數(shù)十億的主流多語(yǔ)言大模型。
另一方面,Catherine 一直秉持著知識(shí)開(kāi)放共享的信念。她深信,只有在開(kāi)放協(xié)作的環(huán)境下,結(jié)合對(duì)語(yǔ)言和文化多樣性的尊重,才能培育出真正公平而強(qiáng)大的語(yǔ)言模型。帶著這樣的熱忱和洞見(jiàn),在本期 Open AGI Forum 訪談中,Catherine 與我們分享了她在語(yǔ)言領(lǐng)域跨界求索的心路歷程,以及對(duì)多語(yǔ)言模型未來(lái)發(fā)展的獨(dú)到見(jiàn)解。
“多語(yǔ)言的詛咒”本質(zhì)上源于模型容量受限。當(dāng)單一架構(gòu)試圖覆蓋所有語(yǔ)言時(shí),反而可能影響效果。與其如此,不如為每種語(yǔ)言量身打造小而精的模型,將“詛咒”轉(zhuǎn)化為優(yōu)勢(shì)。
多語(yǔ)言模型評(píng)估缺乏有效基準(zhǔn)是當(dāng)前最大的障礙之一,必須開(kāi)發(fā)真正具備文化敏感度的高質(zhì)量評(píng)估體系。
高層次的語(yǔ)法結(jié)構(gòu)是否會(huì)影響語(yǔ)言模型的學(xué)習(xí)效果?實(shí)驗(yàn)結(jié)果顯示,模型性能的差距并不主要由這些特征造成,更可能取決于數(shù)據(jù)集的規(guī)模。
科學(xué)本應(yīng)是開(kāi)放的。如果無(wú)法獲取模型權(quán)重和訓(xùn)練數(shù)據(jù),所做的就不能稱之為真正的科學(xué)。
以下為訪談實(shí)錄:
跨越語(yǔ)言邊界:從語(yǔ)言學(xué)到 NLP 的探索之路
Eric Wang:非常感謝 Catherine 接受 GOSIM 的采訪。能否先請(qǐng)你做一個(gè)簡(jiǎn)要自我介紹?
Catherine Arnett:大家好,我是 Catherine Arnett,目前在 EleutherAI 擔(dān)任自然語(yǔ)言處理研究員。最近我剛從加州大學(xué)圣地亞哥分校獲得語(yǔ)言學(xué)博士學(xué)位,研究方向聚焦在多語(yǔ)言自然語(yǔ)言處理。
Eric Wang:你擁有非常獨(dú)特的學(xué)術(shù)背景——最初在愛(ài)丁堡大學(xué)攻讀的是中國(guó)研究與語(yǔ)言學(xué)雙學(xué)位,和現(xiàn)在從事的 NLP 工作看似相距甚遠(yuǎn)。能否談?wù)劗?dāng)初是什么吸引你走進(jìn)語(yǔ)言學(xué)的世界?又是什么促使你選擇學(xué)習(xí)漢語(yǔ)這樣一門(mén)語(yǔ)言?
Catherine Arnett:我從小就對(duì)語(yǔ)言很感興趣。小時(shí)候曾在一所西班牙語(yǔ)學(xué)校就讀,后來(lái)又學(xué)習(xí)了拉丁語(yǔ)等其他語(yǔ)言,這些經(jīng)歷讓我對(duì)語(yǔ)言本身產(chǎn)生了濃厚的興趣。上大學(xué)時(shí),我希望挑戰(zhàn)自己學(xué)習(xí)一種完全陌生的語(yǔ)言,最后選擇了漢語(yǔ)。我覺(jué)得漢語(yǔ)非常有趣,這一選擇也無(wú)意間為未來(lái)的發(fā)展指明了方向。
Eric Wang:也就是說(shuō),你當(dāng)時(shí)已經(jīng)掌握了西班牙語(yǔ)、法語(yǔ)和漢語(yǔ)。在學(xué)習(xí)漢語(yǔ)的過(guò)程中,有沒(méi)有遇到哪些特別的挑戰(zhàn)或讓你印象深刻的趣事?
Catherine Arnett:最吸引我的是漢語(yǔ)獨(dú)特的書(shū)寫(xiě)系統(tǒng)。我最初花了大量時(shí)間練習(xí)讀寫(xiě),一筆一畫(huà)地臨摹和記憶漢字。這種學(xué)習(xí)體驗(yàn)對(duì)我而言既新鮮又充滿挑戰(zhàn)。
Eric Wang:你精通多種語(yǔ)言的背景是否在潛移默化中影響了你對(duì)語(yǔ)言本質(zhì)的理解?
Catherine Arnett:當(dāng)然。學(xué)習(xí)多種語(yǔ)言讓我逐步建立起“多語(yǔ)言視角”。像漢語(yǔ)這樣與英語(yǔ)差異極大的語(yǔ)言,讓我不禁思考語(yǔ)言之間的結(jié)構(gòu)差異,以及這些差異如何影響語(yǔ)言學(xué)習(xí)、語(yǔ)言技術(shù)開(kāi)發(fā)和語(yǔ)言模型的構(gòu)建。
Eric Wang:你在個(gè)人主頁(yè)上提到自己曾在中國(guó)旅行,是否可以分享一下當(dāng)時(shí)的經(jīng)歷?這些旅行是短期的,還是較為長(zhǎng)期的生活體驗(yàn)?
Catherine Arnett:我曾在杭州生活過(guò)一個(gè)學(xué)年。在沒(méi)有課程安排的時(shí)間,就利用空余時(shí)間去全國(guó)各地旅行,體驗(yàn)不同城市的文化和風(fēng)貌。中國(guó)地大物博、歷史悠久,這段生活經(jīng)歷讓我對(duì)語(yǔ)言和文化有了更深層次的理解,也成為我人生中非常寶貴的一段回憶。
Eric Wang:后來(lái)你選擇赴加州大學(xué)圣地亞哥分校攻讀語(yǔ)言學(xué)博士,并轉(zhuǎn)向計(jì)算社會(huì)科學(xué)方向。從傳統(tǒng)語(yǔ)言研究轉(zhuǎn)向計(jì)算方法的轉(zhuǎn)變,是如何發(fā)生的?
Catherine Arnett:其實(shí)這個(gè)轉(zhuǎn)變并非一蹴而就。最初我研究的是心理語(yǔ)言學(xué),關(guān)注人類如何處理和產(chǎn)出語(yǔ)言。通過(guò)行為實(shí)驗(yàn)研究語(yǔ)言理解機(jī)制,我當(dāng)時(shí)具體研究的是漢語(yǔ)中的“重疊”現(xiàn)象。隨著研究深入,我開(kāi)始思考是否能將心理語(yǔ)言學(xué)的研究方法運(yùn)用到語(yǔ)言模型的研究中去,并從漢語(yǔ)擴(kuò)展到其他語(yǔ)言,這也逐漸引導(dǎo)我走入了計(jì)算語(yǔ)言學(xué)的世界。
Eric Wang:那么,真正促使你進(jìn)入 NLP 領(lǐng)域的契機(jī)是什么?
Catherine Arnett:當(dāng)時(shí)由于導(dǎo)師更替,我的研究方向也發(fā)生了一些調(diào)整。之后我去參觀了學(xué)校認(rèn)知科學(xué)系的幾個(gè)實(shí)驗(yàn)室,其中一個(gè)實(shí)驗(yàn)室每周會(huì)組織論文研討,討論的內(nèi)容多與語(yǔ)言模型相關(guān)。我努力跟上他們的閱讀節(jié)奏,漸漸地我對(duì)模型的內(nèi)部機(jī)制產(chǎn)生了濃厚興趣,很多問(wèn)題也隨之浮現(xiàn)。這些經(jīng)歷推動(dòng)我逐步投身于 NLP 研究。
Eric Wang:我最初接觸 NLP 時(shí)正值“AI 寒冬”,當(dāng)時(shí)業(yè)內(nèi)普遍認(rèn)為“NLP 已死,沒(méi)有未來(lái)”。在你的觀察中,NLP 是如何一步步發(fā)展至今天這個(gè)階段的?
Catherine Arnett:我真正開(kāi)始關(guān)注 NLP 是在 2021 年。當(dāng)時(shí) GPT-3 已經(jīng)發(fā)布,但 ChatGPT 尚未出現(xiàn),尚未引發(fā)如今的巨大影響力。盡管那時(shí)的模型在自然性和說(shuō)服力上還存在明顯差距,但它們已經(jīng)顯現(xiàn)出強(qiáng)大的潛力。這也讓我們開(kāi)始提出諸如“這些系統(tǒng)如何理解語(yǔ)言”“它們是如何學(xué)習(xí)語(yǔ)言”的基礎(chǔ)性問(wèn)題。
Eric Wang:你扎實(shí)的語(yǔ)言學(xué)理論背景是否幫你在自然語(yǔ)言處理領(lǐng)域解決過(guò)一些關(guān)鍵問(wèn)題?
Catherine Arnett:是的。今年早些時(shí)候我在國(guó)際計(jì)算語(yǔ)言學(xué)會(huì)議(COLING)上發(fā)表了一篇論文,研究語(yǔ)言類型學(xué)中的一些關(guān)鍵特征,例如高層語(yǔ)法結(jié)構(gòu)是否會(huì)影響語(yǔ)言模型的學(xué)習(xí)效果。之前已有研究提出這些特征可能對(duì)模型表現(xiàn)產(chǎn)生影響,這是我一直關(guān)注的方向。因此我設(shè)計(jì)了一系列系統(tǒng)實(shí)驗(yàn)。最終結(jié)果顯示,盡管語(yǔ)言特征間確實(shí)存在差異,但模型表現(xiàn)的差距主要還是受數(shù)據(jù)規(guī)模影響,而非語(yǔ)言本身的類型特征。
“字節(jié)溢價(jià)”:多語(yǔ)言模型訓(xùn)練中的隱性瓶頸與新視角
Eric Wang:你在研究中提出了“字節(jié)溢價(jià)”(Byte Premium)這一非常關(guān)鍵且具有新意的概念。能否用通俗的方式向我們的觀眾解釋一下?
Catherine Arnett:我們最初的研究目標(biāo),是想找到一種方法,讓不同語(yǔ)言的數(shù)據(jù)集規(guī)模可以在標(biāo)準(zhǔn)化的前提下進(jìn)行比較。這個(gè)概念的提出,源于我們?cè)谟^察中發(fā)現(xiàn):在 UTF-8 編碼下,不同語(yǔ)言的字符所占用的字節(jié)數(shù)存在明顯差異。舉例來(lái)說(shuō),拉丁字母的字符通常只占用 1 個(gè)字節(jié),而中文字符則需要 2 至 3 個(gè)字節(jié),像緬甸文、高棉文等語(yǔ)言的字符甚至可能需要 3 到 4 個(gè)字節(jié)。 這意味著,同樣大小(按字節(jié)計(jì))的文本,在不同語(yǔ)言中所包含的“有效語(yǔ)言信息”并不一致。我們稱這種差異為“字節(jié)溢價(jià)”(Byte Premium)。具體來(lái)說(shuō),比如用 1GB 的中文文本訓(xùn)練模型,由于每個(gè)字符占用更多字節(jié),模型實(shí)際接收到的有效信息可能只有原始量的一半甚至更少。這一現(xiàn)象在超大規(guī)模的多語(yǔ)言模型中尤為明顯,也在一定程度上解釋了我們觀察到的性能瓶頸。
Eric Wang:在你提出“字節(jié)溢價(jià)”之前,學(xué)術(shù)界通常是如何衡量多語(yǔ)言數(shù)據(jù)集規(guī)模的?
Catherine Arnett:過(guò)去,大多數(shù)研究者都是以 token 數(shù)量來(lái)衡量數(shù)據(jù)集規(guī)模的。在像 XGLM 這樣的多語(yǔ)言模型技術(shù)報(bào)告中,雖然偶爾也會(huì)使用字節(jié)數(shù)或 GB 作為單位,但主流做法仍是以 token 總數(shù)為基準(zhǔn)。畢竟 token 數(shù)不僅直接關(guān)系到訓(xùn)練過(guò)程中的步數(shù),也便于調(diào)控訓(xùn)練參數(shù)。
不過(guò)我們后來(lái)決定放棄這一做法,主要原因是我們當(dāng)時(shí)需要在訓(xùn)練分詞器之前就確定各語(yǔ)言的數(shù)據(jù)量,而在分詞器還未生成的情況下,token 數(shù)是無(wú)法準(zhǔn)確統(tǒng)計(jì)的。這個(gè)起初看似只是個(gè)技術(shù)細(xì)節(jié),沒(méi)想到最后竟成為一個(gè)完整的研究課題。
Eric Wang:在實(shí)際模型開(kāi)發(fā)中引入“字節(jié)溢價(jià)”概念時(shí),你認(rèn)為最大的挑戰(zhàn)是什么?
Catherine Arnett:與其說(shuō)是挑戰(zhàn),不如說(shuō)是我們?nèi)栽谂獯鸬囊恍﹩?wèn)題。比如,在訓(xùn)練時(shí)會(huì)根據(jù)不同語(yǔ)言的“字節(jié)溢價(jià)”調(diào)整數(shù)據(jù)的規(guī)模,但這又帶來(lái)了新的矛盾:隨著數(shù)據(jù)量的上調(diào),計(jì)算資源的消耗也會(huì)同步增長(zhǎng)。
如果我們希望在計(jì)算資源不變的前提下進(jìn)行跨語(yǔ)言的數(shù)據(jù)量調(diào)節(jié),那么如何在各語(yǔ)言間實(shí)現(xiàn)資源分配的公平性和實(shí)驗(yàn)設(shè)置的一致性?目前這在工程層面上仍較難實(shí)現(xiàn),也是我們下一階段要重點(diǎn)解決的方向之一。
圖|Open AGI Forum 現(xiàn)場(chǎng)對(duì)談實(shí)錄(左:主持人王啟隆,右:嘉賓 Catherine Arnett)
數(shù)據(jù)稀缺與基準(zhǔn)缺失,是多語(yǔ)言模型訓(xùn)練的真正瓶頸
Eric Wang:你在 GOSIM 大會(huì)上的演講主題,聚焦于尋找開(kāi)放多語(yǔ)言大語(yǔ)言模型評(píng)估的最佳實(shí)踐。目前評(píng)估多語(yǔ)言大語(yǔ)言模型時(shí),最迫切需要解決的問(wèn)題是什么?
Catherine Arnett:整體而言,基準(zhǔn)測(cè)試數(shù)據(jù)的缺乏確實(shí)是我眼下最大的挑戰(zhàn),所以我會(huì)更關(guān)注如何根據(jù)一些重要指標(biāo)謹(jǐn)慎地挑選合適的評(píng)估基準(zhǔn)。在評(píng)估的過(guò)程中,我經(jīng)常發(fā)現(xiàn)要么根本找不到可用的基準(zhǔn),要么現(xiàn)有的基準(zhǔn)不符合最佳實(shí)踐標(biāo)準(zhǔn)。因此,目前在 EleutherAI,我的重要工作之一就是建立多語(yǔ)言評(píng)估體系,以幫助解決這個(gè)問(wèn)題。
Eric Wang:那么關(guān)于基準(zhǔn)測(cè)試,我們?cè)撊绾未_保評(píng)估指標(biāo)真正反映出模型在現(xiàn)實(shí)世界中多語(yǔ)言情境下的實(shí)際能力,而不是讓模型只是鉆評(píng)測(cè)方法的空子,或針對(duì)特定的基準(zhǔn)進(jìn)行“作弊”呢?
Catherine Arnett:我認(rèn)為關(guān)鍵在于采用多樣化的基準(zhǔn)測(cè)試。我想強(qiáng)調(diào)的一點(diǎn),是避免使用機(jī)器翻譯生成的基準(zhǔn)測(cè)試,這非常重要,因?yàn)檫@會(huì)將機(jī)器翻譯中的噪音帶入評(píng)測(cè)過(guò)程。特別是對(duì)于那些低資源語(yǔ)言而言,機(jī)器翻譯的質(zhì)量通常很差,這種基準(zhǔn)測(cè)試容易產(chǎn)生誤導(dǎo)。另外,還要確保實(shí)驗(yàn)細(xì)節(jié)和結(jié)果報(bào)告盡可能精確,這樣在進(jìn)行模型對(duì)比(例如模型選型)時(shí),才能確保評(píng)測(cè)指標(biāo)真實(shí)反映出你所關(guān)注的性能,并且能正確理解評(píng)測(cè)結(jié)果。
Eric Wang:明白了。那么對(duì)于那些低資源語(yǔ)言,在創(chuàng)建高質(zhì)量且具有文化敏感性的評(píng)估基準(zhǔn)時(shí)存在哪些具體困難?社區(qū)又該如何協(xié)作來(lái)克服這些挑戰(zhàn)?
Catherine Arnett:這正是我們當(dāng)前致力于攻克的核心問(wèn)題。EleutherAI 擁有一個(gè)對(duì)所有人開(kāi)放的 Discord 社區(qū),目前已有約三萬(wàn)名成員。項(xiàng)目的關(guān)鍵在于推動(dòng)大規(guī)模、跨機(jī)構(gòu)的國(guó)際合作。試想,如果我們要構(gòu)建一個(gè)覆蓋 10 種語(yǔ)言的數(shù)據(jù)集或評(píng)估體系,至少需要 10 位語(yǔ)言專家分別負(fù)責(zé)對(duì)應(yīng)語(yǔ)言,理想情況下還需要更多人參與。我們必須組建一支涵蓋多語(yǔ)言、多文化背景的專家團(tuán)隊(duì),才能真正理解在不同文化語(yǔ)境下什么才是“相關(guān)”或“重要”的內(nèi)容。如果缺乏與這些專家的深入合作,我個(gè)人其實(shí)很難掌握各類文化中的細(xì)微差異。
Eric Wang:這里提到的專家指的是 MoE(混合專家模型)還是真正的人類專家?
Catherine Arnett:我指的是人類專家。人類專家可以幫助我們理解現(xiàn)有的評(píng)估體系,判斷哪些內(nèi)容適合直接翻譯,哪些需要進(jìn)行本地化調(diào)整。
Eric Wang:你研究的另一個(gè)重要課題探討了“多語(yǔ)言的詛咒”。這種“詛咒”具體體現(xiàn)在哪些方面呢?
Catherine Arnett:“多語(yǔ)言詛咒”指的是這樣一種現(xiàn)象:當(dāng)模型加入了大量其他語(yǔ)言的數(shù)據(jù)后,目標(biāo)語(yǔ)言的性能不但沒(méi)有提高,反而可能會(huì)變差。這通常是因?yàn)槟P偷娜萘恳呀?jīng)達(dá)到上限,無(wú)法同時(shí)有效地學(xué)習(xí)并表示所有語(yǔ)言的信息。我們?cè)?GOSIM 會(huì)議上也反復(fù)討論過(guò),比如像 Llama 這類大型多語(yǔ)言模型,其訓(xùn)練數(shù)據(jù)大約 95%都是英語(yǔ),那么剩下的容量還能分配給其他語(yǔ)言多少呢?這些語(yǔ)言在數(shù)據(jù)集中本來(lái)就占比較少,模型能分配給它們的資源自然也有限。因此,這些都是在訓(xùn)練多語(yǔ)言模型時(shí)需要認(rèn)真考慮的問(wèn)題。
Eric Wang:模型容量在這個(gè)問(wèn)題中起到什么作用?
Catherine Arnett:從根本上講,我們不可能用一個(gè)模型完美覆蓋所有語(yǔ)言。我甚至覺(jué)得,或許我們根本沒(méi)有足夠的數(shù)據(jù)支撐這樣的模型,而且即使不斷增大模型的規(guī)模,也未必能真正解決問(wèn)題。相反,我們應(yīng)該專注于針對(duì)特定語(yǔ)言或小語(yǔ)種群體,設(shè)計(jì)更專門(mén)化的小模型,而不是試圖讓單個(gè)大模型同時(shí)兼顧所有語(yǔ)言。說(shuō)到底,通過(guò)無(wú)限增大模型來(lái)解決所有語(yǔ)言問(wèn)題是不現(xiàn)實(shí)的。
Eric Wang:也就是說(shuō)各個(gè)國(guó)家可能都需要各自建立專門(mén)的語(yǔ)言模型和數(shù)據(jù)集,就像這次 GOSIM 提到的波蘭語(yǔ)數(shù)據(jù)集那樣?
Catherine Arnett:沒(méi)錯(cuò)。我們的確需要針對(duì)每種語(yǔ)言開(kāi)發(fā)專門(mén)的模型。不過(guò)這不一定意味著模型只能支持單一語(yǔ)言,但核心目標(biāo)一定是最大化特定語(yǔ)言的表現(xiàn)。因?yàn)椋m然像 Llama 這樣的大模型也能生成波蘭語(yǔ)等非英語(yǔ)文本,但效果其實(shí)并不理想。
Eric Wang:那有沒(méi)有可能將這種“詛咒”變成一種優(yōu)勢(shì)?比如,通過(guò)某些特定的訓(xùn)練策略,在不同語(yǔ)言之間實(shí)現(xiàn)積極的知識(shí)遷移?
Catherine Arnett:當(dāng)然可以。我們?nèi)ツ暝?EMNLP 大會(huì)上發(fā)表的一篇論文明確證實(shí)了這一點(diǎn):對(duì)于低資源語(yǔ)言而言,多語(yǔ)言訓(xùn)練通常能帶來(lái)明顯的性能提升,我們將這種現(xiàn)象稱之為“多語(yǔ)言的祝福”。具體來(lái)說(shuō),這些語(yǔ)言能夠有效地借助其他語(yǔ)言(尤其是與之接近的語(yǔ)言)的知識(shí)實(shí)現(xiàn)遷移學(xué)習(xí),從而改善模型的表現(xiàn)。而且,這種遷移并非必須依賴于英語(yǔ),事實(shí)上,從與目標(biāo)語(yǔ)言更相似的語(yǔ)言遷移,效果通常更為明顯。因此,我現(xiàn)在的一個(gè)研究重點(diǎn),就是探索如何創(chuàng)造最佳條件,最大程度地發(fā)揮這種遷移的優(yōu)勢(shì),以更好地解決許多語(yǔ)言面臨的數(shù)據(jù)不足問(wèn)題。
Eric Wang:如果我們希望擴(kuò)大模型覆蓋的語(yǔ)言種類,應(yīng)該如何避免或減輕“多語(yǔ)言詛咒”對(duì)特定語(yǔ)言,尤其是那些資源豐富或結(jié)構(gòu)獨(dú)特的語(yǔ)言帶來(lái)的負(fù)面影響?
Catherine Arnett:我認(rèn)為,解決這個(gè)問(wèn)題的關(guān)鍵是擺脫“用單一模型覆蓋所有語(yǔ)言”的思路。與其在像 Llama 這樣的大型模型基礎(chǔ)上做微調(diào),不如針對(duì)不同語(yǔ)言分別訓(xùn)練專門(mén)的模型,從頭開(kāi)始優(yōu)化小模型的架構(gòu)與參數(shù),可能更為有效。事實(shí)上,我們?nèi)ツ昃陀?xùn)練了一系列參數(shù)量約一億的小模型,這些“小而精”的模型在某些任務(wù)上的表現(xiàn)甚至超過(guò)了參數(shù)規(guī)模大 80 倍的 Llama-8B,這充分證明了“小模型定制化”的潛力。
Eric Wang:“金魚(yú)”模型(Goldfish)?
Catherine Arnett:對(duì),就是“金魚(yú)”模型。這種現(xiàn)象啟發(fā)我們重新思考:究竟在什么條件下才能真正讓模型達(dá)到最佳表現(xiàn)?也許我們應(yīng)該從規(guī)模更小的模型入手,從頭開(kāi)始預(yù)訓(xùn)練,并以更高效的方式設(shè)置分詞器,而不是一開(kāi)始就依賴現(xiàn)有的大型模型。
Eric Wang:在如今這個(gè)越來(lái)越被大型模型主導(dǎo)的時(shí)代,“金魚(yú)模型”這樣“小而美”的模型在研究和實(shí)際應(yīng)用中扮演了怎樣的角色呢?
Catherine Arnett:首先,小模型的出現(xiàn)極大降低了研究的門(mén)檻。最近我用“金魚(yú)模型”做實(shí)驗(yàn),僅用筆記本電腦不到兩小時(shí)就跑完了整個(gè)流程。這種體驗(yàn)對(duì)于缺乏大型超算資源的研究者而言意義重大,說(shuō)明即使在有限的計(jì)算條件下,我們依然可以做出非常有價(jià)值的研究。盡管小模型不是唯一的研究方向,但它很好地補(bǔ)充了大模型的研究,為我們提供了一種經(jīng)濟(jì)實(shí)用的實(shí)驗(yàn)環(huán)境,既能避免高額計(jì)算資源的浪費(fèi),也能為未來(lái)更大規(guī)模的探索積累經(jīng)驗(yàn)。
Eric Wang:在處理海量多語(yǔ)言數(shù)據(jù)時(shí),你認(rèn)為識(shí)別并消除偏見(jiàn)及有害信息的最大挑戰(zhàn)是什么?
Catherine Arnett:我認(rèn)為多語(yǔ)言數(shù)據(jù)目前最大的問(wèn)題主要體現(xiàn)在兩個(gè)方面:數(shù)據(jù)質(zhì)量和有害內(nèi)容。首先,語(yǔ)言識(shí)別的準(zhǔn)確性問(wèn)題至今依然沒(méi)有得到徹底解決,這也是我希望能有所貢獻(xiàn)的領(lǐng)域,目前 Common Crawl 項(xiàng)目就正在努力提升語(yǔ)言識(shí)別的準(zhǔn)確性。其次,有害內(nèi)容(toxicity)的識(shí)別也是個(gè)巨大的挑戰(zhàn)。我們?nèi)ツ暝鴩L試通過(guò)合成數(shù)據(jù)來(lái)訓(xùn)練專門(mén)的有害內(nèi)容分類模型,但當(dāng)時(shí)只針對(duì)歐洲語(yǔ)言進(jìn)行了實(shí)驗(yàn)。如果要將這種方法擴(kuò)展到更多低資源語(yǔ)言,效果如何尚不得而知。實(shí)際上,語(yǔ)言資源越是匱乏,我們能用的有效工具也就越少。坦率地說(shuō),我暫時(shí)也沒(méi)有非常完美的解決方案。最終,我們需要的是更完善、更可靠的工具。在英語(yǔ)主導(dǎo)的 NLP 研究領(lǐng)域,有些問(wèn)題看似已經(jīng)解決或不再重要,但在多語(yǔ)言環(huán)境下,這些問(wèn)題依然遠(yuǎn)未得到有效解決。
多語(yǔ)言模型研究依然處于上半場(chǎng)
Eric Wang:當(dāng)前學(xué)術(shù)界對(duì) AI 對(duì)齊、大型語(yǔ)言模型的社會(huì)影響(如就業(yè)和教育)、以及潛在監(jiān)管挑戰(zhàn)等話題都有許多討論。從你關(guān)注的多語(yǔ)言研究視角來(lái)看,有哪些議題是值得特別關(guān)注的?
Catherine Arnett:坦白講,我常常覺(jué)得多語(yǔ)言領(lǐng)域比主流研究晚了好幾年。以預(yù)訓(xùn)練為例,我們領(lǐng)域還有許多關(guān)鍵問(wèn)題并未得到妥善解決,而主流的 NLP 研究已經(jīng)越過(guò)了基礎(chǔ)預(yù)訓(xùn)練階段,進(jìn)入了更先進(jìn)的后訓(xùn)練和智能體階段。然而,對(duì)我所研究的很多語(yǔ)言來(lái)說(shuō),我們目前的模型性能還很初級(jí),甚至連基礎(chǔ)的預(yù)訓(xùn)練工作都尚未完善,更遑論考慮智能體或強(qiáng)化學(xué)習(xí)這些更前沿的問(wèn)題。因此,在某種意義上,我們與主流前沿還有一定的距離。不過(guò)我也一直關(guān)注這些最新的發(fā)展動(dòng)態(tài),目前我的主要精力集中于構(gòu)建高質(zhì)量的數(shù)據(jù)集、設(shè)計(jì)更有效的評(píng)估方法以及訓(xùn)練精巧的小模型。雖然研究進(jìn)度存在一定落差,但這樣的節(jié)奏讓我能更加穩(wěn)扎穩(wěn)打地推進(jìn)研究。雖然多語(yǔ)言 NLP 領(lǐng)域目前規(guī)模有限,但我們的社區(qū)卻充滿活力,成員之間的凝聚力也非常強(qiáng)。
Eric Wang:最近有篇熱門(mén)文章提出:“我們已進(jìn)入 AI 時(shí)代的下半場(chǎng)”,但對(duì)許多語(yǔ)言而言可能還遠(yuǎn)未達(dá)到這個(gè)階段,你怎么看?
Catherine Arnett:確實(shí)如此。對(duì)大部分語(yǔ)言而言,AI 的發(fā)展仍處于“上半場(chǎng)”。不少語(yǔ)言當(dāng)前擁有的數(shù)據(jù)量甚至比不上 1970 年代的英語(yǔ)資源水平。盡管我們?cè)谶@些語(yǔ)言上的研究還相對(duì)落后,但這也意味著還有廣闊的空間值得我們持續(xù)努力追趕,這個(gè)過(guò)程本身就充滿挑戰(zhàn)和機(jī)遇。
Eric Wang:在多語(yǔ)言環(huán)境中,AI 的倫理問(wèn)題和價(jià)值觀對(duì)齊會(huì)不會(huì)變得更加復(fù)雜?我們應(yīng)如何確保 AI 系統(tǒng)尊重不同文化的價(jià)值觀?
Catherine Arnett:最近,EleutherAI 的 Discord 社區(qū)里也展開(kāi)了熱烈的討論,我自己也正與社區(qū)成員合作研究這個(gè)問(wèn)題。在過(guò)去半年里,我們已經(jīng)看到越來(lái)越多專門(mén)用于評(píng)估文化適配性的基準(zhǔn)數(shù)據(jù)。我認(rèn)為,目前一些最前沿的模型已經(jīng)具備了討論文化敏感性的條件。但必須承認(rèn),在多語(yǔ)言環(huán)境下,模型性能本身較弱,數(shù)據(jù)資源也更匱乏,能使用的工具相當(dāng)有限。這是我們需要積極解決的問(wèn)題。實(shí)際上,這對(duì)不同語(yǔ)言社群的成員來(lái)說(shuō)也是一次寶貴的機(jī)遇,他們可以利用自己的文化經(jīng)驗(yàn)與獨(dú)特視角,參與構(gòu)建真正具有文化敏感性的基準(zhǔn)測(cè)試和數(shù)據(jù)集,幫助 AI 系統(tǒng)更好地理解和尊重不同文化的價(jià)值觀。
Eric Wang:目前全球存在如此眾多的語(yǔ)言,而每種語(yǔ)言都需要大量資源去支持。你覺(jué)得 AI 的能耗問(wèn)題給開(kāi)發(fā)公平和包容的多語(yǔ)言 AI 帶來(lái)了哪些挑戰(zhàn)?
Catherine Arnett:從我自身的研究經(jīng)驗(yàn)來(lái)看,由于處理的數(shù)據(jù)集規(guī)模本就有限,我們也無(wú)法訓(xùn)練規(guī)模龐大的模型,只能相應(yīng)地減少模型大小。然而這反倒促使我們長(zhǎng)期以來(lái)專注于開(kāi)發(fā)資源高效的小模型,也算是在無(wú)意中解決了部分計(jì)算資源和能耗方面的挑戰(zhàn)。我也參與過(guò)一些項(xiàng)目,探索如何讓模型更高效地運(yùn)行在邊緣設(shè)備上。坦率地講,我對(duì)此沒(méi)有特別深刻的見(jiàn)解,但確實(shí)感受到,資源的局限性迫使我們更積極地探索高效和節(jié)能的方案,這在一定程度上緩解了能耗帶來(lái)的問(wèn)題。
AI 心智起源的二向探討
Eric Wang:對(duì)你個(gè)人而言,開(kāi)放科學(xué)意味著什么?
Catherine Arnett:GOSIM 昨天有位演講者說(shuō)得很好:根本不存在所謂的“開(kāi)放科學(xué)”,因?yàn)榭茖W(xué)本來(lái)就應(yīng)該是開(kāi)放的。如果研究是封閉的,那就根本不算是真正的科學(xué)。我經(jīng)常跟同事討論:如果我們無(wú)法獲取模型的權(quán)重,無(wú)法了解訓(xùn)練數(shù)據(jù),我們?cè)趺茨軌虼_定自己觀察到的現(xiàn)象不是由于隱藏的系統(tǒng)提示、或訓(xùn)練數(shù)據(jù)污染所導(dǎo)致的呢?我認(rèn)為,只有當(dāng)我們能完全掌握整個(gè)技術(shù)棧,包括訓(xùn)練代碼、強(qiáng)化學(xué)習(xí)過(guò)程等各個(gè)環(huán)節(jié)時(shí),才真正能夠從實(shí)驗(yàn)中獲取有效知識(shí)。如果缺乏開(kāi)放,我們做的根本不算科學(xué)研究。
Eric Wang:你認(rèn)為在開(kāi)放數(shù)據(jù)和負(fù)責(zé)任 AI 之間,我們?cè)撊绾握业狡胶恻c(diǎn)?
Catherine Arnett:過(guò)去一年,無(wú)論是在我此前所在的初創(chuàng)公司 Play Us,還是現(xiàn)在的 EleutherAI,我一直在探索如何構(gòu)建既開(kāi)放又負(fù)責(zé)任的數(shù)據(jù)集,并讓這些數(shù)據(jù)集具備規(guī)模化應(yīng)用的可能。盡管我們選擇的數(shù)據(jù)集整體規(guī)模可能不算太大,但我相信這樣的數(shù)據(jù)集能夠成為穩(wěn)固的研究基礎(chǔ)。我們或許會(huì)犧牲一些數(shù)據(jù)規(guī)模上的優(yōu)勢(shì),但這樣做的好處是能更好地滿足倫理要求,并實(shí)現(xiàn)長(zhǎng)期可持續(xù)發(fā)展。此外,這種方式還能避免潛在的法律風(fēng)險(xiǎn),并有助于維護(hù)與不同語(yǔ)言社區(qū)之間良好的合作關(guān)系。我認(rèn)為,這種負(fù)責(zé)任且開(kāi)放的研究模式才是正確的發(fā)展方向,這也是我一直以來(lái)致力推動(dòng)的事情。
Eric Wang:隨著模型能力不斷提高,關(guān)于 AI 是否可能產(chǎn)生類似人類心智、意識(shí)或自我認(rèn)知的討論越來(lái)越多,但這些概念常常難以界定,你怎么看?
Catherine Arnett:坦率地說(shuō),我對(duì)一些關(guān)于 AGI(通用人工智能)和 ASI(超級(jí)人工智能)的宏大觀點(diǎn)或憂慮一直保持謹(jǐn)慎態(tài)度。在我看來(lái),一個(gè)真正的 AGI 或 ASI,至少應(yīng)該能夠流暢地掌握所有語(yǔ)言,這或許才是我們真正追求的目標(biāo)。但很明顯,我們距離這個(gè)目標(biāo)仍然很遙遠(yuǎn),因此我并不認(rèn)為短期內(nèi)會(huì)出現(xiàn)任何系統(tǒng)能夠完全達(dá)到這種水準(zhǔn)。
Eric Wang:在 AI 領(lǐng)域,有兩種不同的看法:一種認(rèn)為人的心智源于視覺(jué)感知,比如李飛飛開(kāi)發(fā)的 ImageNet,以及后來(lái)的 AlexNet 所代表的路徑,強(qiáng)調(diào)嬰兒出生后通過(guò)觀察世界逐漸形成理解;另一種則認(rèn)為心智主要源于語(yǔ)言和文本,認(rèn)為人類和動(dòng)物最大的區(qū)別就是語(yǔ)言。你認(rèn)為我們更應(yīng)該關(guān)注哪條路徑,視覺(jué)還是語(yǔ)言?
Catherine Arnett:作為一名語(yǔ)言學(xué)家,我自然更傾向于強(qiáng)調(diào)語(yǔ)言對(duì) AI 發(fā)展的作用。但如果想讓 AI 更“像人類”,我認(rèn)為最終的方向一定是多模態(tài)的。目前多模態(tài)研究的進(jìn)展很令人興奮,包括具身智能(embodied AI)也是一個(gè)非常值得期待的方向。當(dāng)然,這些領(lǐng)域也引發(fā)了不少新的問(wèn)題和擔(dān)憂。坦白地說(shuō),作為語(yǔ)言學(xué)家,我不確定自己能在多模態(tài)或具身智能上貢獻(xiàn)多少。然而,人類的智能顯然不僅僅依賴于語(yǔ)言,也不僅僅依賴于視覺(jué)或其他多模態(tài)體驗(yàn)——實(shí)際上,這些因素缺一不可。所以我覺(jué)得語(yǔ)言和視覺(jué)這兩個(gè)方面對(duì) AI 的發(fā)展來(lái)說(shuō)都是必不可少的。
Eric Wang:回到意識(shí)、思維和認(rèn)知的哲學(xué)問(wèn)題上。你認(rèn)為人類的意識(shí)或心智能力到底源于哪里?
Catherine Arnett:我個(gè)人也傾向于認(rèn)為,人類和動(dòng)物之間的關(guān)鍵差異就在于語(yǔ)言。當(dāng)然動(dòng)物也有非常復(fù)雜的交流系統(tǒng)——目前甚至有一些有趣的研究正嘗試破譯鯨魚(yú)和海豚的交流方式,它們的溝通系統(tǒng)其實(shí)非常復(fù)雜。但我想強(qiáng)調(diào)的是,人類甚至在出生前就已經(jīng)開(kāi)始接觸語(yǔ)言——胎兒在母體內(nèi)就能聽(tīng)到聲音,所以我們剛出生時(shí)對(duì)于語(yǔ)言的接觸并非是 0。因此,要嚴(yán)格區(qū)分視覺(jué)體驗(yàn)和語(yǔ)言在意識(shí)中的具體作用是非常困難的。但作為語(yǔ)言學(xué)家,我必須指出,語(yǔ)言具有獨(dú)特且至關(guān)重要的作用。語(yǔ)言讓我們能夠合作、交流和共享想法,更重要的是,它塑造了我們的思維方式,讓我們能夠構(gòu)建復(fù)雜的觀念。如果沒(méi)有語(yǔ)言,這一切都是無(wú)法實(shí)現(xiàn)的。
一位 NLP 研究者眼中的 GOSIM 與歐洲開(kāi)源生態(tài)
Eric Wang:這是你第一次來(lái)巴黎參加 GOSIM 大會(huì)嗎?能談?wù)勀銓?duì)這座城市以及本次大會(huì)氛圍的初步感受嗎?
Catherine Arnett:我之前已經(jīng)來(lái)過(guò)幾次巴黎,所以對(duì)這里并不陌生。不過(guò),這次參加 GOSIM 大會(huì)帶給我的體驗(yàn)仍然很新鮮。與我以往參加的學(xué)術(shù)類 NLP 會(huì)議相比,這次最大的不同是能夠接觸到來(lái)自更多不同領(lǐng)域的同行,大家關(guān)注的問(wèn)題也更加多元化,包括基礎(chǔ)設(shè)施、實(shí)際應(yīng)用場(chǎng)景等等。這種跨領(lǐng)域的交流給了我更廣闊的視角,也讓我了解到了其他領(lǐng)域同行的研究現(xiàn)狀以及他們所面臨的挑戰(zhàn)。
Eric Wang:從你的角度來(lái)看,歐洲的 AI 開(kāi)源社區(qū)有哪些特別的地方?與北美或其他地區(qū)相比,這里的開(kāi)發(fā)者生態(tài)有什么不同嗎?
Catherine Arnett:我們之前也在一些討論中提到過(guò)這個(gè)問(wèn)題。舉個(gè)例子,歐洲有 EuroHPC 這樣的項(xiàng)目,它集合了歐盟各國(guó)乃至整個(gè)歐洲的資源,建立大型的超級(jí)計(jì)算中心,并根據(jù)需求統(tǒng)一分配計(jì)算資源。我覺(jué)得,這種公共共享設(shè)施的存在更容易引導(dǎo)研究人員主動(dòng)走向開(kāi)源,而不像美國(guó)那樣更多依賴私有的計(jì)算集群。因此在基礎(chǔ)設(shè)施層面上,歐洲天然地更傾向于開(kāi)源模式。當(dāng)然,另一方面來(lái)看,我自己的合作者其實(shí)遍布全球,包括歐洲、北美、亞洲等地,從這個(gè)意義上來(lái)說(shuō),我所處的社區(qū)本身就是全球化的。從整體來(lái)看,歐洲社區(qū)與其他地區(qū)并沒(méi)有非常明顯的差異,尤其考慮到我很多合作者本身就在歐洲。
Eric Wang:關(guān)于 GOSIM 未來(lái)的發(fā)展,以及和全球開(kāi)源 AI 社區(qū)的合作,你有什么期望或建議?
Catherine Arnett:我相信隨著 GOSIM 不斷發(fā)展壯大,會(huì)有更多的人加入其中。每一次大會(huì)都會(huì)吸引到來(lái)自不同領(lǐng)域和背景的參與者,這種多元化的參與本身就能夠?yàn)樯鐓^(qū)帶來(lái)新的視角和創(chuàng)新活力。希望 GOSIM 能繼續(xù)保持這種開(kāi)放性,積極吸引更多不同組織、領(lǐng)域的人參與進(jìn)來(lái),給大家提供交流和分享經(jīng)驗(yàn)的平臺(tái)。
Eric Wang:好的,非常感謝 Catherine 的分享,謝謝你和 Open AGI Forum 交流你的經(jīng)驗(yàn)和見(jiàn)解。
限量早鳥(niǎo)票搶先購(gòu)!
9 月 13- 14 日,
GOSIM HANGZHOU 2025
1500 +全球一線開(kāi)源開(kāi)發(fā)者
100 +海內(nèi)外資深專家
100 +優(yōu)質(zhì)技術(shù)分享
5大技術(shù)論壇
9場(chǎng)主題Workshop
3場(chǎng)Hackathon創(chuàng)新競(jìng)賽
1場(chǎng)GOSIM Spotlight
特別聯(lián)動(dòng)Rust 十周年精彩活動(dòng)
RustGlobal + RustChinaConf
大咖云集,內(nèi)容豐富
歡迎親臨現(xiàn)場(chǎng)
與全球開(kāi)源資深大咖面對(duì)面交流!
早鳥(niǎo)觀眾票數(shù)量有限,先到先得!
立即打開(kāi)鏈接或掃碼搶購(gòu):
https://hangzhou2025.gosim.org/tickets/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.