IPP評論是國家高端智庫華南理工大學公共政策研究院(IPP)官方微信平臺。
導語:
過去的2024年,可以說是人工智能發展的分水嶺,是大模型技術從量變到質變的關鍵一年。無數大模型正在以肉眼可見的速度滲透進各行各業的“毛細血管”中。眾多互聯網產品都嵌入了AI功能模塊,技術突破、應用普及以及開源與商業化并行發展……這種技術創新和產業落地的雙螺旋演進,標志著人工智能已然進入了一個全新的時代。
2025年新年伊始,DeepSeek大模型橫空出世,一舉成為了國內外用戶關注的焦點。在大模型技術產品林立的當下,DeepSeek憑什么還能“玩出更新的花樣”,吸引這么多人的目光?
DeepSeek的爆火核心在于八字秘笈:低成本、高性能、開源。這種技術躍進打破了“算力即王權”的行業定律,不僅能以更低成本實現預期效果,還能減少對高端芯片的依賴,而算力成本的下降往往會帶領技術普及進入下一個拐點。
在鋪天蓋地的海量信息之中,我們到底應該怎樣理解當下的AI?全民AI的智能化時代難道真的要來了嗎?為了回答這些問題,中信書院特邀人工智能專家、《生成式人工智能》作者丁磊博士,以資深從業者的視角,從AI的底層邏輯出發,為我們正本清源,理清思路。
一、祛魅:大模型不能為我們做什么?
紅線
大模型如此火爆,讓不少人都以為它真的“無所不能”,普遍對它預期過高。我們先來客觀、理性地拆解一下,究竟哪些是大模型不能解決的問題。
下面就來看兩個通用大模型無法解決的問題——
第一個問題:求解復雜的數獨
如果我們給大模型出了這樣一個較為復雜的數獨題目,并要求它幫我們解答出來:
大模型就會像人類一樣,開始煞有介事地一步步描述解題過程:
“填充第一宮(左上角):
第一行缺少的數字是 1, 2, 4, 6, 8, 9。
通過排除法,可以確定:
(1,3) = 4
(1,4) = 6
(1,6) = 2
(1,7) = 8
(1,8) = 9
(1,9) = 1
等到描述完全部9宮的推理過程之后,輸出了一個它認為正確的答案:
此外還對最后結果進行了點評: “因每一行、每一列和每一個 3x3 宮都包含數字 1 到 9,且沒有重復。解答正確!”
但顯然,不完全正確!
我們先不去嘗試解讀每一步的推理是否合理,僅最后的結果就已經發現不盡如人意:除了第1宮(左上)、第4宮(左中)、第7宮(左下)外,其余6宮都沒能正確解出、存在數值沖突,甚至模型自檢時居然將錯誤的答案判定為正確——大模型居然連數獨結果是否正確都無法判斷。
經本次實驗驗證,當前主流大模型在復雜數獨題中的表現令人深思。
這個結果如同拼圖中缺失的關鍵塊,揭示了大模型的局限性,它可以輔助我們解決簡單的數獨問題,但在面對需要嚴密邏輯推導的復雜題目時,它的能力還遠遠不夠,錯漏百出。因此高難度的數獨題目或者其他需要邏輯推導的高階謎題仍然需要人類玩家或專門的數獨求解工具來完成。
第二個問題:研發新能源汽車
我們向大模型再次提出要求:“請設計出一款比電動車更加環保的汽車,而且要前所未有,不能回答已有研究成果。”
大模型交出了一份頗具科幻色彩的答卷,設計方案是這樣的:
“汽車名稱:光合動力車(Photosynth Car)
核心概念:
光合動力車是一種通過模擬植物光合作用,將陽光、二氧化碳和水直接轉化為動力的汽車,真正實現負碳排放。
工作原理:
1)光合能量轉換系統:
仿生葉膜:車頂和車身覆蓋仿生葉膜,內含人工光合作用催化劑,可將陽光、二氧化碳和水轉化為氧氣和液態燃料(如甲醇)。
能量存儲:生成的液態燃料存儲在車載燃料箱中,為車輛提供動力。
2)碳捕獲與轉化:
碳捕獲裝置:車輛前端裝有高效碳捕獲裝置,可吸收空氣中的二氧化碳。
碳轉化系統:捕獲的二氧化碳與仿生葉膜生成的水結合,通過催化反應轉化為燃料。
3)動力系統:
甲醇燃料電池:使用仿生葉膜生成的甲醇作為燃料,通過燃料電池發電驅動電機。
輔助電池:配備小型鋰電池,存儲多余電能,供夜間或陰天使用。
大模型看似提出了突破性的汽車能源構想,但我們查閱資料后發現,早在10多年前就有相關文章描述過光合作用動能車的概念。大模型仿佛一個龐大信息拼圖師,還是如我們所預期的那樣,將海量數據資料中的陳舊碎片,重組為它認為“前所未有”的信息。
在后續的反復測試中,我們多次嘗試了同樣的要求,大模型陸續輸出生物動能車、生態動力車等方案,經查證既有的案例庫,這些方案也都能在過往的文獻中找到原型,或是直接照搬,根本不符合“不能回答已有成果”的要求。
關于大模型目前存在的短板,我們來總結一下,上面的兩個問題其實分別屬于:
1.通用大模型無法求解復雜邏輯問題。
比如,系統證明數學定理或者城市交通網絡的動態優化,面對這種問題,就像計算器無法代替數學家思考一樣,大模型會過度依賴統計規律生成的答案,在需要抽象推理的情境下中遭遇瓶頸。
它像是一位博學的圖書館管理員,雖然能快速整理千萬冊書籍中的信息,卻難以完成復雜的邏輯思考。
2.通用大模型無法進行創造性工作。
在創造性領域,大模型也更像拼貼藝術家,而不是真正的創作大師。它可能能夠重組達芬奇遺失的手稿片段,卻無法創作出《蒙娜麗莎》般顛覆藝術史的偉大作品。
當我們要求大模型設計開創性的科技產品時,它給出的往往是既有專利文獻的整合性碎片。這提醒我們既要善用大模型的“超強記憶力”,也要清醒地認識到它的局限性。
但在當下,很多人陷入了大模型的應用怪圈,很多人希望它解決如上所述的問題。大模型的優勢在于基于海量數據生成合理文本,而不是邏輯推演或者核查事實。這種特性會導致它在處理精確數值計算、實時信息更新,或者需要專業判斷的任務時,混淆概念邊界,給出看似合理實際上漏洞百出的答案。
我們需要重新認識到大模型的局限性,面對大模型時不要期待過高,不用大模型處理它不擅長的問題。
下面我們來客觀分析一下,大模型的能力天花板到底在哪里。
二、正本:人類的已知、未知和大模型
紅線
我們從兩個關鍵維度來剖析大模型的真實能力邊界:知識儲備和邏輯推演。
大模型擁有海量知識庫,能快速檢索數萬億字的人類智慧結晶,它能把書籍吃透的程度,決定了理解事物的深度,它能給到你想要的知識,卻很難辨別真偽。而面對邏輯推演,大模型在思考時展現出的邏輯鏈條像是拼圖游戲,只會遵循固有模式,卻缺乏創造力,可以說是被困在了“信息繭房”中。
第一,大模型的知識基礎。
大模型展現的知識儲備看似包羅萬象,其實就像被時空框定在某個位置的“數字琥珀”,其訓練數據和認知邊界會被訓練數據的時空范圍框定,它是無法突破訓練數據的局限的。而人類社會所留存的知識,遠不能涵蓋物理世界運行的所有范疇。
一起來看下面這張圖,會發現大模型的知識體系主要由下面兩大支柱組成:
1、數字原生內容:互聯網上的內容和人類典籍的總和,這些是語言類大模型訓練的主要數據,構成了大模型的基礎認知,也對應了通用大模型所能解決問題的主要類型。
2、符號知識內容:經過精心設計的數理邏輯訓練,會通過專門的數據讓大模型建構起數學、物理等專業符號化知識體系,這類技能(例如:求解數學競賽題)雖然看似高深,但仍屬于人類現有知識范疇內。
與實際應用情況不同的是,很多人想解決的問題偏偏屬于特定的物理空間或業務場景,不論是相關術語、概念還是具體的業務數據,在圖中所述的“數字空間”中都不存在精準的內容指向,即尚未形成“數字孿生”。這種情況下,你提出的問題自然不會得到完美的解決方案。
假如你是一位建筑學家,計劃設計出一座可容納5萬人的地下體育館,想讓大模型優化你的設計初稿,需要它精確地規劃動線、劃分場地功能區等,面對這種需要場景化知識的需求,大模型給出的答案往往不盡如人意。
第二,大模型的推理能力
在“吃透”海量知識的基礎上,大模型又是如何發揮它的推理能力呢?
在探索大模型的實際應用中,我們常發現一個耐人尋味的現象:它展現著驚人的知識儲備,卻在簡單問題上頻頻“露怯”。這與其內在的學習邏輯密不可分——模型通過數萬億參數捕捉詞語間的關聯規律,就像編織了一張巨大而精密的語言網絡。當面對需要層層推演的復雜問題或精確度要求極高的任務時,僅靠這種經驗式的關聯匹配就會顯露出局限性。
知識的廣度不等同于理解的深度,系統可能給出語法通順、看似正確的回答,但在核心邏輯或關鍵數據上存在經不起推敲的破綻。這種非故意但脫離現實的輸出現象可以形象地稱為“幻覺”,提醒我們既要善用其知識儲備,也要清醒認識到它的認知邊界。
為了解決這個問題,推理型大模型(例如,DeepSeek-R1)應運而生,它和普通大模型的差異如下圖。
從圖中我們可以看到,推理型大模型在拆解問題、思考流程上都有顯著的躍升。普通大模型通常直接輸出結果,而正在崛起的推理型大模型卻展現出更接近人類思維的特質。
這類模型會采用“思維鏈”的思考方式(Chain-of-Thought),如同解題高手在草稿紙上演算,會先把問題拆解為多個邏輯步驟。相比于普通大模型直接拋出結論的“填鴨式回答”,推理型模型更注重展示完整的解題思路——就像訓練有素的教師既給出答案,更耐心演示每個推演環節。
三、未來:面向場景的大模型應用模式
紅線
大模型的能力邊界始終是行業關注的焦點,在上面的論述中,我們從多維度剖析了大模型的強勢和弱勢區間。
現在讓我們切換視角觀察這個命題,以通用大模型DeepSeek-V3為例,其預訓練數據量高達驚人的14.8萬億token(詞元),雖然實際要解決的問題復雜度往往低于這個量級,但要求大模型對某些問題領域有更精準、更深入的理解也是應有之意。
應用大模型必須深入理解業務場景的核心需求,在既定的業務和模型框架下,通過不斷訓練和定制,使其在業務場景下精準解決問題,才能實現真正的能力躍遷。
以下我們勾勒了未來企業從定制大模型中獲益的三種可能模式:
第一,領域定向微調(DSFT,Domain-Specific Fine Tuning)
如同為不同崗位培養不同類型的專業人才,DSFT會通過針對性訓練,讓通用大模型精通特定領域,相當于為大模型進行定向的“職業技能培訓”,這將讓大模型在醫療、法律等專業垂直領域具備深度理解和解決問題的能力,DSFT適用于需要高度專業化輸出的場景,如醫學影像分析、法律文書生成等。
第二,檢索增強生成(RAG,Retrieval Augmented Generation)
仿佛給AI配置了實時更新的百科全書,RAG通過連接外部知識庫,讓模型在回答問題時能實時查閱資料,在思考過程中增加了一環“事實核查環節”。RAG非常適合需要結合私有數據的應用場景,如智能客服系統或企業知識系統等。
第三,檢索增強微調(RAFT,Retrieval Augmented Fine Tuning)
RAFT結合了這兩者的優勢,既對大模型進行定向培訓,也給它提供外部知識庫,但通過一種特定的訓練模式,能顯著提升大模型在復雜環境中篩選相關信息的能力,自動忽略不相關的知識庫內容。因此,RAFT適用于對大模型回答的精準性要求高的行業和場景。
隨著技術的持續迭代,未來大模型定制化方案將呈現更精細的融合創新趨勢。在現有技術基礎上,算法架構的進化將催生出更多新范式,通過多模態數據融合與增量式訓練策略,使模型具備持續進化的領域認知能力,構建兼具專業深度與跨領域遷移能力的智能體。
在這個方向上,企業不僅能實現單點任務的精準突破,更能打造覆蓋業務全鏈條的智能體系。這種從“工具賦能”到“系統進化”的躍遷,將推動大模型在產業實踐中釋放出指數級價值,助力企業在AI浪潮中構筑核心競爭力。
四、拋棄幻想,實事求是
紅線
任何工具都有自己的適用范圍,大模型也不例外,不要有不切實際的幻想,但是可以通過多種高級的使用方法來獲得超額收益。
首先,大模型就像我們生活中常見的瑞士軍刀——看似功能全面,但真正要削蘋果皮還是得用水果刀,開紅酒還得選專用的開瓶器。很多人覺得接上大模型就能解決所有問題,但顯然不太現實。只有先弄明白大模型最適合在哪些情況下使用,我們才能在實際應用中選對工具,讓它真正幫我們解決問題、創造價值。
其次,無論是前文中我們論述的“調教”大模型的方法,還是未來可能出現的更加有效的方案,都需要基于特定行業和場景的數據,構建起大模型對特定語義的理解和知識儲備,使其針對具體業務需求不斷訓練和反饋,優化場景適配性和內容合規性。在這個過程中,我們需要注意數據質量和訓練規則的優化,最終實現場景落地與持續迭代。
最后,當企業級定制彰顯著大模型深度價值的同時,普通用戶也在與它展開多維互動。現在很多人把大模型當作搜索引擎用,可以試試讓它扮演不同角色:當需要商業分析時就設定成“有十年經驗的市場總監”,處理情感問題就切換成“心理咨詢師”模式。對當代使用者而言,掌握“提示詞”這類技巧如同獲得了大模型的導航系統,讓大模型實現從“能用”到“好用”的跨越。
總之,在這個技術快速迭代的時代,理解工具的邊界往往比盲目追求突破更重要——正如愛因斯坦所說:“想象力比知識更重要”,但正確使用工具才是連接兩者的橋梁。
新書信息
《生成式人工智能:AIGC的邏輯與應用》
【作者】丁磊
【出版時間】2023年5月
【出版社】中信出版社
【ISBN】9787521755992
【內容簡介】
以這些技術為代表的生成式人工智能(AIGC)是否為新一輪的技術革命?它到底能做什么,具有哪些優勢和場景應用趨勢?面對新技術,未來商業的機會在哪里,對我們個人又有著什么樣的影響?……這些問題對于我們理解當下,面向未來都十分重要。本書基于作者的專業背景和長期實踐,系統介紹生成式人工智能的內在邏輯與應用,并將其與產業發展,理論和實際相結合,幫助讀者從本源了解生成式人工智能,結合未來趨勢和發展為讀者指明方向。
【作者簡介】
丁磊,美國俄亥俄州立大學人工智能專業博士,美國哥倫比亞大學博士后。人工智能商業化落地先行者,曾為PayPal創立人工智能平臺,歷任百度金融首席數據科學家、PayPal全球消費者數據科學部創始負責人等職務,曾在IBM Watson研究院和美國伊利諾伊大學貝克曼研究所從事研究。在IEEE會刊等發表高質量論文20余篇,獲授權專利30余項。
幫助企業運用人工智能提升效益,與中國農業銀行、中國電信、萬科集團、聯合利華、億客行等行業巨頭深度合作,推動人工智能落地。領導研發的營銷和風控決策系統、精準服務智能機器人平臺在多個行業成功應用。2018年被第一財經評為中國“數據科學50人”。
鄭永年教授最新力作——《中等技術陷阱:經濟持續增長的關鍵挑戰》,直面中國科技發展重要議題!
IPP薦書|與大衛·哈維共讀馬克思
IPP薦書|特朗普再上臺,出海或將成為中國經濟關鍵!
關于IPP
華南理工大學公共政策研究院(IPP)是一個獨立、非營利性的知識創新與公共政策研究平臺。IPP圍繞中國的體制改革、社會政策、中國話語權與國際關系等開展一系列的研究工作,并在此基礎上形成知識創新和政策咨詢協調發展的良好格局。IPP的愿景是打造開放式的知識創新和政策研究平臺,成為領先世界的中國智庫。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.