99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

WAIC 2025 | 已達物理極限的大模型 下一步路在何方?

0
分享至



“大模型下一步怎么走, 讓我們走進WAIC2025找答案。

2025世界人工智能大會(WAIC)開幕在即,數據猿作為大會權威認證的受邀媒體,將以專業視角全程直擊,帶來最具深度與洞察力的大會解讀,洞見AI未來。

在大會進入倒計時之際,WAIC振聾發聵地提出了“AI三問”:數學之問、科學之問和模型之問。主辦方以此“三問”破題,旨在超越技術應用的喧囂,直擊人工智能發展的核心。希望以此來凝聚更多的智慧,探尋AI這一影響人類文明技術的演進方向。

面對這一宏大命題,我們將聚焦“模型之問”,嘗試給出我們的思考與回應。

第一問:大模型如何走向了世界中心?

大模型是怎么一步一步站在了AI舞臺的中央?



(大模型發展簡史)

大模型最早的技術雛形,我們可以追溯到詞向量。2013年Google推出的Word2vec首次證明無監督詞向量可有效捕獲語義關系,通過Word2vec單詞可以被轉化成向量形式,詞向量可以有效地捕捉單詞間的語義關系。

自此,大模型命運的齒輪開始轉動。

2018年成為大模型發展的第一個分水嶺。Google的BERT模型與OpenAI的GPT-1相繼問世,它們分別采用雙向Transformer編碼器架構和自回歸預訓練方式,不僅在小樣本學習上取得突破,更確立了“預訓練+微調”的技術范式,為后續大模型的繁榮奠定了堅實基礎。

2020年,OpenAI發布GPT-3,以1750億參數的驚人規模震撼業界,“規模即能力”的猜想得到了驗證。這一時期,涌現能力成為了關鍵詞。整個行業開始意識到,當模型規模達到某個臨界點(大約百億參數)后,就會出現文本生成、邏輯推理等突現能力,以及在處理特定任務能力上的非線性增長。

自此,大模型進入參數軍備競賽的發展階段。

據統計,2020-2022年間,頂級大模型的參數量年均增長率達到驚人的650%。

2022年OpenAI,引入人類反饋強化學習(RLHF)技術,通過三階段訓練流程使模型輸出更符合用戶需求。這標志著大模型從純粹的能力追求轉向實用化發展階段。

自此以后,大模型技術演進呈現多元化趨勢:智能體框架通過工具調用實現多步驟自主任務執行;模型輕量化技術則讓大模型得以在消費級終端運行;通過模型蒸餾,DeepSeek創造了以小博大的奇跡。

人工智能歷經60多年的沉浮,大模型最終能異軍突起,既是其技術路線的成功,也離不開時代的推波助瀾。深度學習的厚積薄發、GPU算力的性能飛躍與互聯網的數據洪流,這些力量互相碰撞和激蕩,把大模型推向了風口浪尖。

第二問:參數爆炸已達物理極限 大模型下一步路在何方?

大模型一路向前的同時,模型參數在一路狂飆。

我們以GPT系列模型為參照物,看看模型參數令人咋舌的膨脹速度:

·2018年發布的GPT-1,參數為1.17億級;

·2019年發布的GPT-2,參數為10億級;

·2020年發布的GPT-3,參數暴漲至1750億;

·2023年發布的GPT-4模型參數預估5000億-一萬億之間。

短短五年間,模型參數幾乎翻了一萬倍。然而ChatGPT-4似乎成為了一道分水嶺,后續發布的新一代頂尖模型如Claude 3.5 Sonnet和Llama 3等,其參數規模反而有所下降。業界開始意識到,模型的效率和智能并非僅由參數量決定。

尤其是Deepseek的橫空出世,狠狠的擊碎了“模型越大,AI越智能”的迷思,對更大參數規模的盲目追求正在退潮。

百度CEO李彥宏認為,千億參數是通用大模型的門檻,“過了千億之后,不是萬億量級參數一定比千億效果要好。”

當前主流大模型產品幾乎都是構建在Transformer架構之上,這是一個劃時代的創新。然而,它也存在一些結構性缺陷,最核心的就是O(n2) 的自注意力復雜度的問題。可以說,這個機制催生了一系列改變世界的大模型產品,但是也為后續的發展埋下了隱患。

為什么這樣說,這得從O(n2) 的自注意力復雜度的原理說起。

我們設想一個場景,在一間教室,一群剛開學的小朋友,如果其中一個小朋友A想要認識另外一個小朋友B,這個A必須和教室里的每個人單獨握手并交談一次,才能找到小朋友B。那么問題來了,當這間教室有100個小朋友的時候,如果所有的小朋友都互相認識,總共需要握手多少次?答案是4950次——這就是Transformer處理長文本時算力爆炸的根源。



很多人意識到,想要進一步提升模型處理的效能,需要根本性創新而非漸進式改進。

☆架構革命:從Transformer到混合智能系統

很多人嘗試對Transformer架構進行優化升級,比如MoE架構(混合專家模型),架構的核心思想是將龐大模型拆分為多個“專家”子網絡,并通過智能路由機制動態激活少量相關專家處理每個輸入。它將大模型無差別暴力解題的方式,優化為專人專崗,分組分類的形式,極大的優化了效率。

MoE架構受到很多頂尖大模型公司的青睞,其中最典型的就是DeepSeek。此外,Google的Gemini 2.0也采用了這種架構。

很多企業也開始嘗試在Transformer架構之外,尋找新的方案。2024年,一種名為Mamba的新型架構作為挑戰者問世。它在保持與Transformer相當的建模能力的同時,對于序列長度具有近線性的可擴展性。Mamba架構通過狀態空間模型將計算復雜度從O(n2)降至O(n),使長文本處理效率提升10倍。

然而Mamba架構也存在一定的技術局限性,比如上下文學習能力和上下文的信息復制能力等。

那有沒有可能將兩者進行優勢互補呢?

Transformer-Mamba混合架構是一種將Transformer模型的全局注意力機制與Mamba模型(基于狀態空間模型SSM)的高效長序列處理能力相結合的新型神經網絡架構。它能夠有效克服兩者的局限性,同時保留各自優勢。

2025年,騰訊推出了國內首個相關產品。騰訊混元 T1采用了Hybrid-Mamba-Transformer融合架構。這一架構在不犧牲準確性的基礎上,有效降低了計算復雜度,吐字速度最快可達80token/s。

計算機視覺領域,英偉達團隊研發的MambaVision,利用Mamba與Transformer的融合設計,使MambaVision在Top - 1精度和圖像吞吐量上超越同類模型。

☆訓練范式升級:從預訓練到后訓練

除了架構的創新以外,業界也嘗試從模型的訓練方法著手,尋找大模型發展的新方向。

我們知道,預訓練是大模型最具標志性的技術特色之一。預訓練的優勢在于,它能夠在海量無標注的數據中學習通用特征,為下游泛化的任務奠定基礎。但同時也帶來了數據污染、知識幻覺等問題。

人類對模型行為的調控、對齊能力成為大模型提升的關鍵,“后訓練”的模式由此登上了舞臺。

后訓練指在模型預訓練完成后的優化階段,通過量化、蒸餾、剪枝等技術直接優化已訓練模型。其主要功能在于能夠有效修正在預訓練階段的知識錯誤和事實偏差,使模型的輸出更符合人類價值觀,避免其“信口開河”。同時,通過后訓練還能強化模型的多步驟推理能力,更好的助力大模型在具體應用場景的落地。

預訓練目前主要有兩種發展路徑:一是通過在大量的“推理軌跡”上進行后訓練,直接教會模型如何思考;二是利用“搜索”技術,在推理時指導模型的思考過程,讓模型生成多個候選答案或推理路徑,再由獎勵模型來挑選出最佳結果。



包括Claude 4、GPT-4o 、Gemini2.5,以及馬斯克的xAI最新發布的Grok 4,都加大了后訓練的投入。

Gartner預測到2027年,70%的企業AI系統將采用"預訓練-微調-后訓練優化"三級流水線。全新的架構和訓練范式的變革,這些探索將為下一代基礎大模型的構建提供方向。

第三問:高質量數據枯竭 大模型如何解渴?

大模型數據饑渴的問題已經迫在眉睫。

狂奔的大模型幾乎吞噬了所有的公開數據,傳統依賴數據驅動模型能力增長的路徑已難以為繼。

千禧年互聯網剛誕生時的時候,人們樂觀的認為,互聯網會讓世界變成地球村。所有的信息匯聚到一大片海洋中,供來自世界各地的輪船自由停泊。然而現實并沒有像預想的一樣,這片想象中的大海被分割成無數個大大小小的水坑。更重要的是,那些真正有質量的“礦藏”稀少且難以獲取。

據資料顯示,Deepmind每年單是在數據標注上的花費就高達10億美元。對于高質量的數據,OpenAI愿意為單條推理軌跡支付2000至3000美元。

大模型企業在數據上的“花費”有開始超過計算投入的趨勢。

雖然圍繞數據端,我們做了很多工作,比如數據治理、可信數據空間、打造高質量數據集等等,但是始終無法從根源上解決大模型的“數據焦慮”。

為此,業界提出了一個名叫SICOG的框架。SICOG的核心在于其“后訓練增強—推理優化—再預訓練強化”三位一體的協同機制。

首先,在后訓練增強階段,通過少量高質量的標注數據,提升模型的系統性認知與基礎推理能力;隨后,在大規模無標簽數據上進行自主推理,并通過自我一致性投票機制生成偽標簽,為再預訓練構建基礎;最后,將生成的偽標簽數據反饋到模型中,實現模型能力的持續進化。

這個技術路線最終走向如何,還有待觀察,它至少讓我們看到了數據問題的解題之道,正在從被動走向主動。

第四問:人類的焦慮 大模型是敵人還是伙伴?

經濟學家熊彼特提出過一個著名的觀點——破壞性創新。當前,大模型“破壞性創新”的威力,正在各行各業快速擴散。大模型帶來的這場變革迅猛而劇烈,必然伴隨著一些產業的毀滅與重塑。

360董事長周鴻祎公開宣布要干掉整個市場部,挑戰一個人+AI辦一場發布會。招商銀行"小招"智能助手已替代45%的客服崗位。美國影視行業有多家公司反應,目前有20%特效鏡頭由AI生成,使得每集電視劇的制作成本大幅降低。加上具身智能、人形機器人開始走向工廠,AI正在無差別實現對藍領工作和白領工作的雙重替代。

企業層面,AI正在蠶食產業鏈條中的某些環節。比如,很多企業過去需要外包的工作,如視頻制作、業務咨詢、軟件開發等,在AI的協助下,不斷回歸到企業內部。這也就意味著提供這些服務的公司將面臨客戶流失的風險。

任何不愿經歷文化和組織變革陣痛的公司,都將面臨被淘汰的風險。

☆極簡團隊時代到來

AI給人類帶來了焦慮,焦慮背后我們觀察到AI也在幫助人類創造奇跡。

一些善用AI的極簡團隊正在創造驚人的財富效應。Midjourney用兩年時間、約40名員工的團隊,創造了約2億美元的營收;而更年輕的Cursor僅用一年時間、約20名員工,就實現了約1億美元的營收。事實上,帶來產業震撼的Deepseek,其團隊規模也只有一兩百人。

這些奇跡的背后共同指向一個事實:AI極大提升了個人和團隊能力的杠桿,尤其是隨著智能體的發展,AI正從一個只能執行瞬時指令的工具,演變為能夠處理復雜、長期任務的可靠助手,創造著前所未有的變革之力。

這種變革之力直接體現在團隊結構上,那些小而美、小而精的團隊只要找到合適的賽道,就能快速啟動,利用AI的能力杠桿,創造奇跡。



(團隊50人以下,營收500萬美元以上的“極簡公司”)

如果說蒸汽機、電動機、內燃機等技術革命,是對人類肌肉力量的延伸。那么大模型的發展無疑是對人類思維能力的一次突破。盡管看起來是人類在規劃和設計AI,但AI不同于汽車、冰箱或者任何產品。這是人類第一次與一個在智力上比肩自己的“物種”打交道。在與人和環境的不斷互動中,大模型已經從數據的“處理工具”,進化成人類可靠的合作伙伴。

雖然大模型的發展仍面臨很多困難,但是縱觀過去的歷史,在技術難題前面,總會涌現創新的能量。大模型是一個沒有使用說明,沒有指導手冊的全新領域,我們注定要在巨大的不確定中突圍。在這些不確定中,唯一能確定的是,2025年我們將接近AI的真相更近一步。WAIC2025或許會給大家帶來更多答案。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
薩巴倫卡更新社媒,與男友一起觀看Coldplay演唱會

薩巴倫卡更新社媒,與男友一起觀看Coldplay演唱會

懂球帝
2025-07-27 22:45:09
中式大亂斗!泰柬紛紛拉出精銳,仔細一看全是Made in China

中式大亂斗!泰柬紛紛拉出精銳,仔細一看全是Made in China

文雅筆墨
2025-07-26 12:30:14
“12歲女孩拿治病錢買半麻袋卡片”事件:網友一邊倒,家長問題大

“12歲女孩拿治病錢買半麻袋卡片”事件:網友一邊倒,家長問題大

嫹筆牂牂
2025-07-25 18:31:41
中國百強鎮,江蘇上榜41個!有你家鄉嗎?

中國百強鎮,江蘇上榜41個!有你家鄉嗎?

揚子晚報
2025-07-27 14:52:47
李冰潔獲游泳世錦賽女子400米自由泳銀牌并破亞洲紀錄

李冰潔獲游泳世錦賽女子400米自由泳銀牌并破亞洲紀錄

中國青年報
2025-07-27 22:24:09
落葉歸根!NBA重聚猜想:詹姆斯重返騎士/熱火 杜蘭特與雷霆和解

落葉歸根!NBA重聚猜想:詹姆斯重返騎士/熱火 杜蘭特與雷霆和解

直播吧
2025-07-27 19:57:08
泰柬進入最危急時刻,佩通坦緊急發聲,中國3大部門火速展開行動

泰柬進入最危急時刻,佩通坦緊急發聲,中國3大部門火速展開行動

星辰故事屋
2025-07-27 11:32:35
壟斷罰單砸穿業績:聯環藥業上半年由盈轉虧,擬發5億元創新債能否破局轉型|創新藥觀察

壟斷罰單砸穿業績:聯環藥業上半年由盈轉虧,擬發5億元創新債能否破局轉型|創新藥觀察

華夏時報
2025-07-27 12:18:03
北海兩艇相撞后續!死狀慘烈畫面曝光,知情人曝更多細節,有情況

北海兩艇相撞后續!死狀慘烈畫面曝光,知情人曝更多細節,有情況

視聽故事局
2025-07-27 12:18:50
普京抵達列寧格勒參加海軍節時,烏克蘭無人機大規模襲擊了那里!

普京抵達列寧格勒參加海軍節時,烏克蘭無人機大規模襲擊了那里!

火星宏觀
2025-07-27 21:20:14
好藍好大的泳池!

好藍好大的泳池!

貴圈真亂
2025-07-27 09:27:57
0.06分優勢絕殺!中國小將謝佩鈴/朱勇鑫逆轉奪得混雙10米臺冠軍

0.06分優勢絕殺!中國小將謝佩鈴/朱勇鑫逆轉奪得混雙10米臺冠軍

上游新聞
2025-07-27 17:28:04
中國公開賽國羽4金4銀收官!王祉怡衛冕,石宇奇封王重返世界第1

中國公開賽國羽4金4銀收官!王祉怡衛冕,石宇奇封王重返世界第1

釘釘陌上花開
2025-07-27 17:51:31
紅軍城易主?俄軍公布下一目標,西方改口換人,基輔定下最后時間

紅軍城易主?俄軍公布下一目標,西方改口換人,基輔定下最后時間

掌青說歷史
2025-07-26 17:33:39
23歲男子疑因未擦拭罐裝飲料瓶口感染鼠尿病 短短4天不幸身亡

23歲男子疑因未擦拭罐裝飲料瓶口感染鼠尿病 短短4天不幸身亡

閃電新聞
2025-07-27 16:03:47
大同被沖走的12人分屬多村,已失聯15小時,村民:當地正組織多支隊伍連夜搜救

大同被沖走的12人分屬多村,已失聯15小時,村民:當地正組織多支隊伍連夜搜救

極目新聞
2025-07-27 21:19:52
阿森納新援是世界頂級?約克雷斯的進攻數據放英超能橫掃一切

阿森納新援是世界頂級?約克雷斯的進攻數據放英超能橫掃一切

夜白侃球
2025-07-27 21:56:18
救贖之戰!山東泰山近1個月首勝,3大“罪人”建功,追平中超前五

救贖之戰!山東泰山近1個月首勝,3大“罪人”建功,追平中超前五

國足風云
2025-07-27 22:07:01
風向變了?2025年“4大降價潮”或將席卷中國,老百姓應早做準備

風向變了?2025年“4大降價潮”或將席卷中國,老百姓應早做準備

石辰搞笑日常
2025-07-27 20:53:58
《掃毒風暴》太驚喜了!原來他們是真情侶,戲里戲外都令人羨慕

《掃毒風暴》太驚喜了!原來他們是真情侶,戲里戲外都令人羨慕

墨印齋
2025-07-22 08:06:17
2025-07-27 23:20:49
數據猿DataYuan incentive-icons
數據猿DataYuan
數據智能產業創新服務媒體
2174文章數 591關注度
往期回顧 全部

科技要聞

77歲諾獎得主,用15條句話把AI圈鎮住了!

頭條要聞

14歲輟學女生簽MCN 因"無法忍受"強行解約被起訴索賠

頭條要聞

14歲輟學女生簽MCN 因"無法忍受"強行解約被起訴索賠

體育要聞

約克雷斯身邊的男人,才是阿森納的最佳引援

娛樂要聞

X玖少年團9成員現狀揭秘:2人成頂流

財經要聞

陳文輝:為什么耐心資本這么重要?

汽車要聞

搭載華為乾崑智駕 一汽奧迪Q6L e-tron預售35.3萬起

態度原創

本地
手機
教育
旅游
房產

本地新聞

換個城市過夏天|風拂鹽湖,躲進格爾木的盛夏清涼

手機要聞

三星傳出“雙機”消息:三折疊屏、S26 Ultra,均在路上!

教育要聞

“有撿漏的命也白搭”,女孩自稱江西撿漏王,發言卻暴露了低認知

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

分數線集體飆漲!海中867分!2025海南中招格局大變!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 射洪县| 桦南县| 西安市| 东台市| 沙雅县| 栖霞市| 秀山| 嵊州市| 资中县| 三台县| 通州区| 济宁市| 庐江县| 阿拉善左旗| 台湾省| 新河县| 陵川县| 巴彦县| 泰宁县| 乐东| 会宁县| 丰原市| 吉木乃县| 林芝县| 巴青县| 石泉县| 迁西县| 读书| 定西市| 苍溪县| 定南县| 衢州市| 新闻| 泸定县| 阜南县| 体育| 扶沟县| 福建省| 民丰县| 金乡县| 稷山县|