當全球還在為DeepSeek的橫空出世驚嘆時,中國AI領域又悄然上演了一場更具顛覆性的技術革命。
據財聯社報道,剛剛,李飛飛團隊宣布,以不到50美元的云計算費用,成功訓練了一個名為s1的人工智能推理模型。成本之低,令人咋舌!而且s1的表現卻毫不遜色于OpenAI的o1和DeepSeek的R1等尖端推理模型。
但這還不是最炸裂的地方!
據前瞻經濟學人產業觀察組了解,s1模型的訓練并非從零開始,其基座模型為阿里通義千問(Qwen)模型。也就是說,s1模型的神奇“低成本”,是建立在已具備強大能力的Qwen開源基礎模型之上。
這意味著,中國又一個AI新王橫空出世。
一.AI新王橫空出世
2023年4月,阿里云正式推出通義千問(Qwen),選擇了“全開源”策略,成為全球開發者關注的焦點。之后,阿里云進一步發布了Qwen2.5系列,包括多個尺寸的大語言模型、多模態模型、數學模型和代碼模型。
今年大年初一凌晨,阿里云突放大招,悄悄升級發布通義千問旗艦版模型Qwen2.5-Max。
據其介紹,Qwen2.5-Max模型是阿里云通義團隊對MoE模型的最新探索成果,預訓練數據超過20萬億tokens,展現出極強勁的綜合性能,在多項公開主流模型評測基準上錄得高分,全面超越了目前全球領先的開源MoE模型以及最大的開源稠密模型。
與Qwen2.5-Max進行對比的模型,就包括了最近火爆海內外的DeepSeek旗下的V3模型。而在所有11項基準測試中,Qwen2.5-Max全部超越了對比模型。
下面這張圖是測試結果,大家可以感受一下!
而李飛飛團隊以不到50美元的云計算費用訓練出的s1模型,正是以Qwen模型為基座,通過“蒸餾”技術而實現(該技術旨在通過訓練模型來學習另一個人工智能模型的答案,從而提取其“推理”能力)。
對此,阿里云方面確認了這一消息。
阿里云回應稱:“他們以阿里通義千問 Qwen2.5-32B-Instruct 開源模型為底座,在 16 塊 H100 GPU 上監督微調 26 分鐘,訓練出新模型 s1-32B,取得了與 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型數學及編碼能力相當的效果,甚至在競賽數學問題上的表現比 o1-preview 高出 27%。”
其實,無論是火得一塌糊涂的DeepSeek,還是突然備受關注的Qwen,背后傳遞了兩大信號:
一個是,中國團隊正通過創新重新定義大模型的成本范式,徹底戳破了美國在AI領域遙遙領先的泡沫。
在DeepSeek誕生之前,成本過高是大模型應用沒能快速鋪開的一個主要困境。
大模型是比云還要燒錢的吞金獸。對于廠商來說,部署一個大模型需要面臨高昂的硬件采購成本、模型訓練成本以及日常運營成本。
其一,硬件采購成本。在國內,云計算技術人士公認的一個說法是,1萬枚英偉達A100芯片是做好AI大模型的算力門檻。一塊A100芯片的價格是1.5萬美元(10.3萬人民幣),單硬件采購成本就超過10億元。
其二,模型訓練成本。ChatGPT一次完整的模型訓練成本超過1200萬美元(約合8000萬元)。如果進行10次完整的模型訓練,成本便高達8億元。
其三,日常運營成本。數據中心內的模型訓練需要消耗網絡帶寬、電力資源。此外,模型訓練還需要算法工程師負責調教。上述成本也以億元為單位計算。
也就是說,進入AI算力和AI大模型的賽道,前期硬件采購、集群建設成本就高達數十億元。后期模型訓練、日常運營以及產品研發成本同樣高達數十億元。根據行業內共識,生成式AI的投資規模高達百億元。
而DeepSeek大模型以極低成本(600萬美元)和少量芯片(2000塊),實現了與OpenAI等巨頭相媲美的性能,重構了人工智能行業的底層邏輯。
另一個是,大模型殺進“決賽圈”,底層操作系統或出現。
2024年,經過百模大戰,基礎大模型已“去九存一”。只有約10%的具有市場活力、用戶活躍度高的大模型脫穎而出,進入到了決賽圈。
2025年,大模型的淘汰賽將繼續,最終僅留下三四個產品,作為AI基礎設施,但產品算力更強,迭代速度更快。李飛飛團隊以Qwen模型為基座打造出s1模型,進一步凸顯出這種趨勢。
這不僅僅為大模型更豐富的應用打下了基礎,同時有望推動成本進一步下探,進而引發可能比DeepSeek還恐怖的行業沖擊。
02
誰有望成為“大模型第一城”
隨著大模型競賽加速,誰將有望晉升大模型第一城,成為新的城市之爭。
前瞻產業研究院發布的報告顯示,一線城市往往處于科技革命與產業升級的中心地帶。從全國范圍來看,我國人工智能產業形成了以京滬深杭為核心的聚集發展態勢。
北京:基礎研究雄厚+頂尖科研資源
截至2024年7月30日,北京有85款大模型數量在網信辦備案,在全國占比超40%;代表大模型有百度的文心一言、百川智能的百川大模型等。
北京作為全國的科技文化中心,擁有眾多頂尖高校和科研機構,如清華大學、北京大學、中國科學院等。這些機構在人工智能基礎研究方面底蘊深厚,能為大模型的研發提供堅實的理論支持和人才儲備。頂尖科研資源匯聚,使得北京在大模型的算法創新、理論突破等方面具有先天優勢,有利于從源頭推動大模型技術的發展。
上海:金融富礦+高度國際化
截至2024年7月30日,上海有43款大模型數量在網信辦備案;代表企業有上海人工智能實驗室和商湯科技等。
上海是國際金融中心,資本活躍且充裕,能夠為大模型產業提供充足的資金支持,無論是初創企業的孵化,還是成熟企業的技術升級和規模擴張,都能得到資本的有力推動。高度國際化的環境,使上海更容易吸引國際先進技術、人才和企業,便于與全球大模型產業接軌,參與國際競爭與合作,引進國外先進經驗和技術,提升自身在大模型領域的國際影響力。
深圳:創新應用領先+硬件產業鏈完備
據悉,深圳人工智能企業超過 2200 家,誕生了華為盤古系列大模型、騰訊混元大模型等。
深圳以創新應用領先著稱,在人工智能應用場景的探索和落地方面具有豐富經驗和強大的執行力。其完備的硬件產業鏈,為大模型與硬件設備的融合提供了得天獨厚的條件,例如智能機器人、智能安防設備、智能家居等領域,能夠實現大模型技術與硬件的深度結合,創造出以應用驅動為特色的大模型產業生態。
杭州:應用生態豐富+數字經濟發達
杭州最近在大模型領域一時風光無兩,上文所提及的DeepSeek和阿里云Qwen雙雙來自杭州。
杭州數字經濟發達,擁有豐富的應用生態,特別是在電商、金融科技、云計算等領域占據領先地位。這為大模型提供了海量的數據資源和豐富的應用場景,有利于大模型進行針對性的訓練和優化,開發出更符合市場需求的應用產品。尤其是,以余杭區為核心,數字經濟產業發達,圍繞阿里巴巴等企業形成了一定的產業生態,在電商、金融科技等領域有優勢,能為大模型提供特色應用場景
盡管北上深杭在大模型領域都存在不同的領先優勢,但也具有一定的短板,例如北京商業化落地場景不足、上海本土科技巨頭缺失、深圳基礎研究薄弱、杭州高端人才儲備較一線城市不足。
未來已來!作為人工智能的重要發展方向,大模型正在逐漸成為未來科技發展的重要方向之一,各大城市必須給予高度重視。
作為更懂產業的科技型決策智庫,前瞻產業研究院深耕行業研究26年,并幫助300+城市完成并落地2000+規劃項目,在人工智能領域積累了深厚的經驗。為了能夠幫助地方政府既科學又前瞻更落地推動人工智能產業高質量發展,前瞻產業研究院特此成立了“前瞻人工智能產業規劃所”,并獨創性提出“前瞻人工智能產業高質量發展作戰體系”,以嚴謹、科學、專業的態度來制定人工智能產業規劃,最終以“一屏兩案四清單”實施交付。
前瞻人工智能產業高質量發展作戰體系
前瞻人工智能產業高質量發展作戰體系包括“產業作戰地圖+產業情報中心+價值艙”三大板塊。這一體系旨在通過科學的規劃和持續優化,幫助區域實現人工智能產業的快速突破。
整體交付:“一屏兩案四清單”
前瞻產業研究院通過“人工智能產業高質量發展作戰體系”為產業規劃底座,最終以為地方政府提供了一套科學、系統的人工智能產業規劃解決方案。
展望未來,人工智能產業將是驅動中國經濟的強引擎,也是各地政府競相爭搶的重要資源。前瞻產業研究院愿與地方政府攜手合作,為強國建設和區域發展貢獻智庫力量。
前瞻經濟學人APP 產業觀察組
更多行業研究分析詳見:
【1】《2025-2030年全球及中國多模態大模型行業發展前景與投資戰略規劃分析報告》,前瞻產業研究院
【2】《2025-2030年全球及中國大模型產業發展前景與投資戰略規劃分析報告》,前瞻產業研究院
同時前瞻產業研究院還提供產業新賽道研究、投資可行性研究、產業規劃、園區規劃、產業招商、產業圖譜、產業大數據、智慧招商系統、行業地位證明、IPO咨詢/募投可研、專精特新小巨人申報、十五五規劃等解決方案。如需轉載引用本篇文章內容,請注明資料來源(前瞻產業研究院)。
更多深度行業分析盡在【前瞻經濟學人APP】,還可以與500+經濟學家/資深行業研究員交流互動。更多企業數據、企業資訊、企業發展情況盡在【企查貓APP】,性價比最高功能最全的企業查詢平臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.