面對全球以ChatGPT為代表的新一代人工智能的飛速發(fā)展,構(gòu)建高質(zhì)量的基礎(chǔ)大模型基座,快速將大模型能力轉(zhuǎn)換為新質(zhì)生產(chǎn)力,進(jìn)而帶動算力產(chǎn)業(yè)的快速發(fā)展,是引領(lǐng)下一步全球人工智能發(fā)展方向的重要抓手,也是我們追趕當(dāng)下最新GPT-4的機(jī)會所在,而這背后需要的是我們相關(guān)產(chǎn)業(yè),無論在技術(shù)創(chuàng)新,還是商業(yè)模式的選擇上,不能一味地跟隨,而是要結(jié)合國情及產(chǎn)業(yè)自身的特點(diǎn)獨(dú)辟蹊徑才能實(shí)現(xiàn)。
GPT-4:核心還是基礎(chǔ)大模型能力的強(qiáng)大
日前,引發(fā)全球科技界高度關(guān)注的OpenAI創(chuàng)始人、“ChatGPT之父”山姆?奧特曼(Sam Altman)被OpenAI董事會解雇的亂局,最終以山姆?奧特曼重回OpenAI繼續(xù)擔(dān)任首席執(zhí)行官而塵埃落定。
而就在此次亂局發(fā)生之前,山姆?奧特曼曾在本月初舉辦的首屆OpenAI開發(fā)者大會上宣布,每周有一億用戶使用ChatGPT。自今年3月發(fā)布ChatGPT的API功能以來,該公司已擁有200多萬開發(fā)者,其中包括92%以上的財(cái)富500強(qiáng)企業(yè)。
以微軟為例,Bing聊天是最早使用GPT-4的平臺之一。通過GPT-4,Bing聊天可以對用戶的查詢提供更正確和相關(guān)的回復(fù)。
此外,微軟還發(fā)布了GPT-4平臺支持的新AI功能,名為Copilot,它將適用于Word,、PowerPoint、Excel、Outlook這些微軟熱門的Microsoft 365商業(yè)軟件。微軟聲稱,Copilot的功能比簡單地“將OpenAI的ChatGPT嵌入到Microsoft 365中”更強(qiáng)大。Microsoft 365的主管、微軟現(xiàn)代工作和商業(yè)應(yīng)用副總Jared Spataro介紹,Copilot與用戶一起工作,嵌入數(shù)以百萬用戶日常使用的Word、Excel、PowerPoint、Outlook、Teams等App中,是“一種全新的工作方式”。
對此,浪潮信息高級副總裁劉軍認(rèn)為:“上述其實(shí)是在應(yīng)用層面業(yè)內(nèi)看到的GPT的能力,而這些應(yīng)用層面的落地最終是由其底層的基礎(chǔ)大模型能力所支撐和決定的,這就是為什么我們認(rèn)為國內(nèi)大模型發(fā)展的核心還是應(yīng)該聚焦在基礎(chǔ)大模型能力的提升上,因?yàn)槲ㄓ羞@樣,才能夠支撐在用戶端應(yīng)用水平的提升,就像我們對人才的教育,最終從學(xué)校里面培養(yǎng)出來的是一個高素質(zhì),綜合能力強(qiáng)的人才,你把他放到什么樣的專業(yè)和行業(yè),都會有更好的表現(xiàn)。但如果綜合能力是小學(xué)水平,你把他放到不同的專業(yè)和行業(yè)中,不是說不能干,可能也能干,但最大的可能就是照貓畫虎,指望其展現(xiàn)出很高的水平,這個概率是比較低的“。
事實(shí)的確如此。與此前的GPT-3、GPT-3.5模型相比,GPT-4具備了多模態(tài)功能,支持接收圖像和文本輸入并輸出文本。
例如在圖像文字、復(fù)雜推理任務(wù)領(lǐng)域展現(xiàn)出的優(yōu)秀能力方面,GPT-4可根據(jù)圖像信息識別圖像中包含的信息,并生成文字反饋;在論文理解方面,可以智能識別論文截圖中包含的文字以及圖表內(nèi)容并進(jìn)行匯總分析,實(shí)現(xiàn)論文的總結(jié)歸納功能;在復(fù)雜問題推理上,可準(zhǔn)確解答數(shù)學(xué)題,并根據(jù)題目要求輸出推理計(jì)算過程,相比于GPT-3和GPT-3.5進(jìn)步顯著。而這些無一不是基礎(chǔ)大模型能力強(qiáng)大的體現(xiàn)。
夯實(shí)基礎(chǔ)大模型底座,算力、數(shù)據(jù)、算法挑戰(zhàn)猶存
說到基礎(chǔ)大模型,業(yè)內(nèi)自然就會聯(lián)想到通用人工智能。
與狹義的人工智能相比,通用人工智能通過跨領(lǐng)域、跨學(xué)科、跨任務(wù)和跨模態(tài)的大模型,能夠滿足更廣泛的場景需求、實(shí)現(xiàn)更高程度的邏輯理解能力與使用工具能力,這些能力的背后,所蘊(yùn)藏的則是通用大模型智力水平的高低。
以大模型的“涌現(xiàn)”為例(大模型的涌現(xiàn)能力可以為基礎(chǔ)大模型提供基礎(chǔ),通過在大規(guī)模數(shù)據(jù)上學(xué)習(xí),模型可能會涌現(xiàn)出在多個任務(wù)上都有用的特性,使得它在通用性上表現(xiàn)更好),2021年8月,李飛飛和100多位學(xué)者聯(lián)名發(fā)表一份200多頁的研究報(bào)告《On the Opportunities andRisk of Foundation Models》,深度地綜述了當(dāng)前大規(guī)模預(yù)訓(xùn)練模型面臨的機(jī)遇和挑戰(zhàn)。
在該文中,AI專家將大模型統(tǒng)一命名為FoundationModels,可以翻譯為基礎(chǔ)模型或者是基石模型,論文肯定了Foundation Models對智能體基本認(rèn)知能力的推動作用,同時也指出大模型呈現(xiàn)出“涌現(xiàn)”特性,即在系統(tǒng)的各個部分相互作用中出現(xiàn)的一些新的、不可預(yù)測的特性或行為。例如在大模型的上下文中,涌現(xiàn)通常指的是模型在訓(xùn)練過程中產(chǎn)生了一些意想不到的、具有價(jià)值的特性或能力。但隨之而來的則是除了數(shù)據(jù)、算法之外,對于算力需求的增加。
以ChatGPT模型為例,公開數(shù)據(jù)顯示,其所使用的GPT-3大模型所需訓(xùn)練參數(shù)量為1750億,算力消耗為3640PF-days(即每秒運(yùn)算一千萬億次,運(yùn)行3640天),需要至少1萬片V100 GPU提供支撐。據(jù)統(tǒng)計(jì),當(dāng)模型參數(shù)擴(kuò)大十倍,算力投入將超過十倍,這之中,模型架構(gòu)、優(yōu)化效率、并行處理能力以及算力硬件能力等因素均會影響具體增加的倍數(shù)。
由此可見,基礎(chǔ)大模型的算力系統(tǒng)并非算力的簡單堆積,其需要解決諸如低時延海量數(shù)據(jù)交換;多臺機(jī)器均衡計(jì)算、避免冷熱不均、消弭算力堵點(diǎn);解決在幾個月漫長的計(jì)算過程中,當(dāng)單一硬件出現(xiàn)故障時,訓(xùn)練中斷、梯度爆炸、算法重新走一遍等一系列的挑戰(zhàn),是一項(xiàng)復(fù)雜的系統(tǒng)工程,需要從系統(tǒng)層面加以創(chuàng)新,從算力效率、線性擴(kuò)展、長效穩(wěn)定等多個方面進(jìn)行探索,進(jìn)而為高質(zhì)量的基礎(chǔ)大模型筑基立法,搶贏研發(fā)與應(yīng)用落地的時間窗口。
在算法層面,大模型訓(xùn)練不僅依賴高質(zhì)量數(shù)據(jù),同時也要解決算法收斂、斷點(diǎn)續(xù)訓(xùn)、參數(shù)優(yōu)化、模型微調(diào)等挑戰(zhàn),數(shù)據(jù)質(zhì)量、代碼調(diào)優(yōu)、執(zhí)行效率等關(guān)乎訓(xùn)練質(zhì)量的因素。特別是在大模型預(yù)訓(xùn)練過程中,使用大量且多樣化的文本數(shù)據(jù)可能導(dǎo)致模型在特定任務(wù)數(shù)據(jù)集上無法準(zhǔn)確捕捉分布特性等,進(jìn)而影響訓(xùn)練的效率和成本。
以Transformer架構(gòu)為例,目前學(xué)術(shù)界大部分的工作都是圍繞如何提升Transformer 的效率展開,硬件結(jié)構(gòu)也都是圍繞如何優(yōu)化Transformer的方式而設(shè)計(jì),雖然其為業(yè)內(nèi)帶來了創(chuàng)新突破,但仍然存在一些局限性。例如,對于長序列的處理和對序列中的順序信息的處理算法,會增加算力消耗和成本,而這為改進(jìn)注意力機(jī)制、剪枝和量化等這些當(dāng)前未曾突破的瓶頸與值得創(chuàng)新的發(fā)展方向提出了挑戰(zhàn)。
在數(shù)據(jù)層面,以預(yù)訓(xùn)練階段的數(shù)據(jù)集為例,高質(zhì)量的訓(xùn)練數(shù)據(jù)越大,大模型的推理能力越強(qiáng)。例如GPT-3,來源于維基百科、書籍及學(xué)術(shù)期刊等高質(zhì)量數(shù)據(jù)僅占其數(shù)據(jù)集的17.8%,但其在模型訓(xùn)練中的權(quán)重占到了40%,但不幸的是,大模型訓(xùn)練所需要的數(shù)據(jù)集的增速遠(yuǎn)大于高質(zhì)量數(shù)據(jù)生成的速度,導(dǎo)致高質(zhì)量數(shù)據(jù)逐漸面臨枯竭,而這無疑對于高質(zhì)量訓(xùn)練數(shù)據(jù)的提取提出了更高的創(chuàng)新要求。
對此,浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華稱,我們在做大模型時,從2018年到2023年把互聯(lián)網(wǎng)上所有的中文網(wǎng)頁,包括社群數(shù)據(jù)的網(wǎng)頁全都提取出來,數(shù)據(jù)源差不多有12PB左右,清洗之后的中文社群數(shù)據(jù)只有不到10GB,體量非常之小,卻花了巨大的努力,即便如此,這不到10GB的中文社群數(shù)據(jù)的質(zhì)量,經(jīng)我們分析后依然認(rèn)為是不夠高的。可見提取高質(zhì)量訓(xùn)練數(shù)據(jù),即數(shù)據(jù)既要多樣性,同時也要保持高質(zhì)量的挑戰(zhàn)之大。
追趕與落地,技術(shù)與商業(yè)模式應(yīng)獨(dú)辟蹊徑
針對上述挑戰(zhàn),國內(nèi)大模型可謂是百花齊放,以期望在追趕GPT-4的同時,加速大模型的應(yīng)用落地。據(jù)《2023—2024年中國人工智能計(jì)算力發(fā)展評估報(bào)告》顯示,截至2023年10月,中國累計(jì)發(fā)布兩百余個大模型,發(fā)布地主要集中在北京,其中以科研院所和互聯(lián)網(wǎng)企業(yè)為開發(fā)主力軍。
對此,劉軍認(rèn)為,在產(chǎn)業(yè)發(fā)展初期,中國大模型的“百花齊放”是利好的,很大程度它可以促進(jìn)產(chǎn)業(yè)生態(tài)的繁榮發(fā)展。依托通用大模型的能力,從垂直場景應(yīng)用有針對性地切入,構(gòu)建技能模型,進(jìn)而落地行業(yè)模型,從長遠(yuǎn)的發(fā)展路徑來看,它是我們走向通用人工智能的必經(jīng)之路。
盡管如此,面對國內(nèi)當(dāng)下泥沙俱下的“百模大戰(zhàn)”,業(yè)內(nèi)還是亟待從大模型的技術(shù)創(chuàng)新和商業(yè)模式上,針對我們前述存在的挑戰(zhàn),能夠獨(dú)辟蹊徑,走出與GPT-4殊途同歸之路,并在未來盡快趕超GPT-4,加速大模型的應(yīng)用落地,促進(jìn)更多性能強(qiáng)大的基礎(chǔ)大模型的出現(xiàn),以讓國內(nèi)的大模型產(chǎn)業(yè),無論是在現(xiàn)在和未來的發(fā)展洞察,還是技術(shù)與商業(yè)模式的實(shí)踐中都有參考的價(jià)值及意義。
可喜的是,國內(nèi)已有廠商開始進(jìn)行大膽的嘗試。
以浪潮信息最新發(fā)布的源2.0基礎(chǔ)大模型為例,其在包括與基礎(chǔ)大模型密切相關(guān)的算法、數(shù)據(jù)和算力的技術(shù)層面均進(jìn)行了有別于GPT-4的大膽創(chuàng)新和嘗試。
例如在算法創(chuàng)新上,源2.0提出并采用了一種新型的注意力算法結(jié)構(gòu),即局部注意力過濾增強(qiáng)機(jī)制(LFA:LocalizedFiltering-based Attention)。LFA通過先學(xué)習(xí)相鄰詞之間的關(guān)聯(lián)性,然后再計(jì)算全局關(guān)聯(lián)性的方法,能夠更好地學(xué)習(xí)到自然語言的局部和全局的語言特征,對于自然語言的關(guān)聯(lián)語義理解更準(zhǔn)確、更人性,提升了模型的自然語言表達(dá)能力,進(jìn)而提升了模型精度。
據(jù)浪潮信息對模型結(jié)構(gòu)進(jìn)行的有效性消融實(shí)驗(yàn)顯示,相比傳統(tǒng)注意力結(jié)構(gòu),LFA模型精度提高了3.53%。
“在最終的模型訓(xùn)練上,最大參數(shù)只有1026億的源2.0,在LFA算法的加持下,也能比用2457億參數(shù)的源1.0,訓(xùn)練同樣大小Token數(shù)的Train Loss降低28%。而訓(xùn)練的損失曲線越小,意味著大模型對于訓(xùn)練集的特征學(xué)習(xí)得越好”。吳韶華進(jìn)一步解釋了LFA算法因創(chuàng)新而給基礎(chǔ)大模型帶來的能力提升。
在數(shù)據(jù)創(chuàng)新方面,源2.0通過使用中英文書籍、百科、論文等高質(zhì)量中英文資料,降低了互聯(lián)網(wǎng)語料內(nèi)容占比,結(jié)合高效的數(shù)據(jù)清洗流程,為大模型訓(xùn)練提供了高質(zhì)量的專業(yè)數(shù)據(jù)集和邏輯推理數(shù)據(jù)集。此外,為了更高效地獲得相對匱乏的高質(zhì)量中文數(shù)學(xué)及代碼數(shù)據(jù)集,源2.0還采用了基于大模型的數(shù)據(jù)生產(chǎn)及過濾方法,在保證數(shù)據(jù)的多樣性的同時,也在每一個類別上提升數(shù)據(jù)質(zhì)量,獲取了一批高質(zhì)量的數(shù)學(xué)與代碼預(yù)訓(xùn)練數(shù)據(jù)。
在算力方面,源2.0采用了非均勻流水并行的方法,綜合運(yùn)用流水線并行+優(yōu)化器參數(shù)并行+數(shù)據(jù)并行的策略,讓模型在流水并行各階段的顯存占用量分布更均衡,避免出現(xiàn)顯存瓶頸導(dǎo)致的訓(xùn)練效率降低的問題,該方法顯著降低了大模型對芯片間P2P帶寬的需求,為硬件差異較大訓(xùn)練環(huán)境提供了一種高性能的訓(xùn)練方法。
“相當(dāng)于給你一條高速公路時,能跑到200公里的時速,但給你一條羊腸小道,也能跑起來,并把最終的結(jié)果也能跑到。”劉軍如此比喻在算力資源有限或配置不均的條件下,上述高性能訓(xùn)練方法所帶來的同等算力效率的提升。
而說到算力效率的提升,這里我們需要補(bǔ)充說明的是,如何提升大規(guī)模分布式訓(xùn)練的計(jì)算效率一直是大模型預(yù)訓(xùn)練的一個核心挑戰(zhàn)。特別是在實(shí)際的AI集群環(huán)境中,會存在GPU之間的互聯(lián)帶寬受限或者AI服務(wù)器之間的網(wǎng)絡(luò)互聯(lián)帶寬有限,進(jìn)而影響大模型預(yù)訓(xùn)練的計(jì)算效率。
為此,浪潮信息基于“源”大模型的研發(fā)經(jīng)驗(yàn),2022年以來,其AI團(tuán)隊(duì)協(xié)助多個客戶將大模型訓(xùn)練的GPU峰值效率從30%左右提升到50%,從而大幅加速了模型訓(xùn)練過程,助力千億參數(shù)規(guī)模的自然語言AI單體大模型在淮海智算中心計(jì)算平臺上的訓(xùn)練算力效率達(dá)53.5%,刷新了業(yè)內(nèi)AI大模型訓(xùn)練算力效率新高。
正是基于上述在基礎(chǔ)模型的技術(shù)創(chuàng)新和以往的積淀,源2.0在業(yè)界公開的,包含有代碼生成、數(shù)學(xué)問題求解、事實(shí)問答方面等多項(xiàng)能力的多項(xiàng)模型評測中展示出了較為先進(jìn)的能力表現(xiàn)。
同樣,在商業(yè)模式上,不同于GPT-4的閉源,源2.0采用了全面開源的商業(yè)模式。
說到閉源與開源,從計(jì)算機(jī)科學(xué)與人工智能的發(fā)展歷程來看,開源始終對軟件技術(shù)乃至IT技術(shù)發(fā)展有著巨大的推動作用。
以目前全球移動產(chǎn)業(yè)和市場中閉源的蘋果iOS與開源的谷歌安卓生態(tài)比肩為例,試想一下,面對蘋果封閉的iOS生態(tài),當(dāng)時后發(fā)的谷歌,如果效仿蘋果,采用同樣閉源的方式與其競爭結(jié)果會怎樣?至少當(dāng)時強(qiáng)大如微軟,因采用閉源的Windows Phone與iOS硬剛,但最終鎩羽而歸就已經(jīng)很說明問題。
同理,在大模型領(lǐng)域,面對GPT-4的閉源,開源開放應(yīng)是國內(nèi)促進(jìn)AI技術(shù)發(fā)展和商業(yè)落地的重要手段,因?yàn)榇竽P偷拈_源開放可以使不同的模型之間共享底層數(shù)據(jù)、算法和代碼,有利于打破大模型孤島,促進(jìn)模型之間協(xié)作和更新迭代,并推動AI開發(fā)變得更加靈活和高效。同時,開源開放還有利于推進(jìn)“技術(shù)+行業(yè)”的閉環(huán),以更豐富的高質(zhì)量行業(yè)數(shù)據(jù)反哺模型,打造更強(qiáng)的技術(shù)產(chǎn)品,加速商業(yè)化進(jìn)程。
此外,在11月29日的AICC 2023人工智能計(jì)算大會上,浪潮信息還公布了源大模型共訓(xùn)計(jì)劃:針對開發(fā)者自己的應(yīng)用或場景需求,通過自研數(shù)據(jù)平臺生成訓(xùn)練數(shù)據(jù)并對源大模型進(jìn)行增強(qiáng)訓(xùn)練,訓(xùn)練后的模型依然在社區(qū)開源。開發(fā)者只需要提出需求,說清楚具體的應(yīng)用場景、對大模型的能力需求以及1~2條示例,由源團(tuán)隊(duì)來進(jìn)行數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練并開源。
對此,劉軍將大模型的開源開放模式通俗地形容為:人人為我,我為人人。而具體到浪潮信息,早在源1.0發(fā)布的時候,就通過開源,將大量相關(guān)的課程、視頻會議以及相應(yīng)的案例、代碼等貢獻(xiàn)出來,供業(yè)內(nèi)參考、學(xué)習(xí)和使用。據(jù)不完全統(tǒng)計(jì),今天國內(nèi)的大模型中,有超過50家的大模型,實(shí)際上使用的浪潮信息開源的數(shù)據(jù)集。
至于大模型落地行業(yè)方面,此前浪潮信息推出的開放的元腦生態(tài),目前也已經(jīng)聚合了眾多國內(nèi)做大模型的左手伙伴和賦能到最終行業(yè)用戶的右手伙伴(例如SV集成商)。此外,今年8月,浪潮信息還發(fā)布了大模型智算軟件棧OGAI“元腦生智”(Open GenAI Infra),其秉承全棧全流程、算力充分釋放、實(shí)戰(zhàn)驗(yàn)證提煉的設(shè)計(jì)原則,為大模型研發(fā)與應(yīng)用創(chuàng)新全力打造高效生產(chǎn)力,加速生成式AI產(chǎn)業(yè)創(chuàng)新步伐。
看未來,鑒于目前業(yè)內(nèi)仍沒有完全開源可商用的千億大模型,業(yè)內(nèi)認(rèn)為,隨著源2.0的發(fā)布,其有望以繁榮的開源模型生態(tài)、優(yōu)越的開源大模型性能和優(yōu)秀的指令微調(diào)策略(微調(diào)算法、微調(diào)框架等),化解大模型落地的算力、算法、數(shù)據(jù)挑戰(zhàn),從而為全球開發(fā)者、研究機(jī)構(gòu)、科技企業(yè)提供堅(jiān)實(shí)的底座和成長的土壤,釋放生產(chǎn)力,激發(fā)無限創(chuàng)新力。
寫在最后:IDC預(yù)測,到2026年,全球AI計(jì)算市場規(guī)模將增長到347億美元,生成式AI計(jì)算占比從2023年的11.9%增長到31.7%。為此,從國家到地方,關(guān)注通用人工智能的系統(tǒng)建設(shè),探索通用人工智能新路徑,推動創(chuàng)新場景應(yīng)用,把大模型下沉對接到廣闊的垂直市場,以需求拉動供給端技術(shù)進(jìn)步,并加速大模型向生產(chǎn)力和實(shí)體商業(yè)價(jià)值的轉(zhuǎn)化已經(jīng)成為產(chǎn)業(yè)各界的共識。
接下來就是大模型相關(guān)產(chǎn)業(yè)界所面臨的Know How的挑戰(zhàn),而上述源2.0的發(fā)布,無疑為如何應(yīng)對這些挑戰(zhàn)提供了很好的示范和借鑒,更讓業(yè)內(nèi)看到了國內(nèi)企業(yè),以算力系統(tǒng)+算法基座創(chuàng)新,筑基“高智商”通用大模型基座算力之道,在未來追趕GPT-4,加速大模型行業(yè)落地的信心。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.