自大模型進入公眾視野,動輒幾千億、上萬億的參數量已經司空見慣。大模型的行業機會,是否只剩“卷參數”一條路可走?在青島自然語義公司,另一種可能正在被探索和實踐。
今年3月,自然語義自研的Euler大模型通過中央網信辦生成式人工智能服務備案,成為全省首個通過中央網信辦備案的基礎大模型。不同于其他基礎模型動輒千億級的參數量,Euler的參數量只有2.5B(25億),屬輕量化大模型范疇,自然語義則俗稱它為“小模型”,在算力消耗、使用成本等方面具有顯著優勢。
在自然語義看來,“小模型”在生成式人工智能的行業落地中更具意義。未來,大模型和“小模型”將各司其職,推動人工智能技術向前發展。
通過備案后,Euler將在今年開展面向個人用戶的服務。“用戶能夠更容易訓練出屬于自己的大模型,并且支持離線使用。”自然語義(青島)科技有限公司聯合創始人孫燕群說。
“小模型”也有大作為
“大模型正在變得無所不能,為何還需要‘小模型’?”近幾個月,隨著產品正式上線的腳步越來越近,自然語義接受的采訪逐漸多了起來,“小模型”的市場空間是被問得最多的一個問題。
“大模型追求無所不能,但只有‘小模型’才能無處不在。”孫燕群說,雖然千億級參數的大模型容納了大量的知識,看起來什么都懂,但這些知識都是通識,還有大量有價值的知識沉淀在專業企業或者專業個人的電腦中。
“比如律師打官司的角度和策略、中醫積累的病例,這些都是十分值錢的專業知識,不會公開到互聯網上讓大模型訓練。如果有一個在單臺筆記本電腦上就能運行起來的模型,就可以很好解決這一問題,讓AI大模型能夠無處不在地真正服務于每一個人。”孫燕群說。
自然語義關于行業的判斷在現實中已經得到了印證。2022年前后,自然語義開始啟動Euler模型研發。而幾乎與此同時,全球科技大廠也紛紛瞄準輕量化,開始布局“小模型”。谷歌、微軟、蘋果乃至OpenAI等都發布了參數量在幾十億量級的“小模型”。
相較動輒需要用幾萬塊英偉達芯片訓練的千億級參數量大模型,“小模型”訓練成本更低。但對并不差錢的科技大廠來說,“小模型”更具吸引力的地方在于商業落地價值。
模型參數量越大,使用一次的成本也越高。與此同時,很多企業在使用時出于數據安全等因素的考量,會更傾向于私有化部署,這進一步推高了使用成本。有行業人士曾透露,2023年時一個千億參數大模型一年私有化授權費用是幾千萬元,而私有化部署之后,還要購買服務器,大概需要幾百萬元。
“小模型”也便于用戶進行再訓練。“幾千億參數的大模型,企業或個人的數據投喂進去就好像一顆小石子扔到了汪洋大海中,根本掀不起浪花。‘小模型’就容易多了,會立竿見影,變得非常有個性。”孫燕群表示。
在孫燕群看來,未來會有越來越多企業切入“小模型”賽道,包括互聯網大廠,而自然語義在該領域已經擁有了先發優勢。“目前通過備案的小于6B的大模型只有我們一家。從全球來看,谷歌Gemma的參數也在2B左右,但它的中文水平遠遠不及我們的模型。”他說。
從開源算法到通用大模型
能夠在輕量化大模型賽道上率先起跑,自然語義的技術優勢發端于一個自然語言算法開源項目——HanLP。
HanLP是團隊早期開發的一款面向生產環境的自然語言處理工具包,能夠讓計算機擁有文本理解和文本分析能力,支持語言超過100種,是AI開發的重要工具。在普通人熟悉的智能客服、輿情監測、機器翻譯等場景都能夠進行應用。
“在全球最大的開源社區GitHub上,HanLP已經取得了超過35100個加星,有10600個開源項目依賴HanLP開發,是用戶數量最多的自然語言處理技術,超過微軟和百度在社區發布的同類項目,用戶既有華為、百度、京東、小米、字節跳動、史克葛蘭素等頭部企業,也有MIT、中國科學院、北京大學、復旦大學、暨南大學等高校及科研機構。”在孫燕群看來,HanLP無疑是全球自然語言處理領域首選的基礎算法和事實上的技術標準。
在HanLP算法的基礎上,自然語義研發了輕量化大模型Euler。雖然參數量少,但仍要保證相對較好的性能,為了做到這一點,自然語義開創性引入了符合漢語語言習慣的分詞算法,使得大模型在token(最小知識單元)階段就有了處理上下文邏輯的能力。
孫燕群做了一個通俗的解釋:“比如說‘驀然回首那人卻在燈火闌珊處’,這句話很少會拆開使用,我們就會將它做成一個token而不是拆開,這樣就能節省大量神經網絡空間。”
與此同時,Euler還引入了公司首席科學家、世界著名數學家夏志宏教授的最新理論成果——柯西積分算法,在模型的計算原理上進行了創新,不僅使模型能夠在參數有限的情況下容納更多知識量,還能讓模型在無監督學習階段就學習到語言的邏輯性,大大增強了“小模型”的效果。
“經過4個月訓練,動用了15萬億漢字的數據量,我們終于在一個不到3B的模型上,實現了一個類似千億級模型的效果。”孫燕群說。
個人專屬模型近在眼前
拿到中央網信辦的大模型備案之后,孫燕群十分興奮。“終于可以提供互聯網在線服務,上線‘數字生命計劃’了!”他說。
在通過備案之前,自然語義的大模型已經開展了面向企業的服務,收入在千萬元級。而孫燕群口中的“數字生命計劃”,則是自然語義面向個人用戶即將提供的服務。
正如孫燕群在采訪中反復提及的對生成式人工智能大模型的理解,行業除了要不斷探尋技術的極限之外,還要讓每個人都能真切享受到AI帶來的便利,這才是人工智能的意義所在。
據介紹,“數字生命計劃”上線后,個人用戶可以上傳自己的數據訓練個人專屬模型。“‘小模型’可以真正做到千人千面,一個人甚至可以訓練多個不同的模型,幫助解決不同的問題。”孫燕群說,初期會率先上線網頁版,后續會開發App。
此外,Euler也能夠支持信創環節,支持多平臺的本地運行,能夠確保數據和隱私安全。
今年,自然語義會加大市場推廣力度,通過線上線下等多種渠道,讓產品和服務被更多的個人用戶知曉和使用。
當前,通用大模型似乎已經成了有資金、有資源的互聯網大廠才能入場的“專屬”賽道。自然語義正嘗試用聰明的“小模型”打破這一局面,闖出行業發展的新范式。“我們的目標是讓人工智能不再依賴少數大公司,而是讓每一個人、每一家中小企業都能有自己說了算的大模型。”孫燕群說。
來源:青島日報
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.