如果認真讀完本文(90%以上普通讀者都可以理解清楚),您不僅是對人工智能,而且對整個信息技術的認知就達到這個領域全球一切博士生導師,甚至院士的層次。
DeepSeek沖擊波意味著,全球信息技術即將實現的基本架構革命,這場革命有兩大特征:
硬件體系:從【算力依賴型】轉向【存儲依賴型】
整體架構:從【硬件依賴型】轉向【編程依賴型】
一、DeepSeek沖擊波
一個月前,整個美國軍事圈在密集地討論中國六代機。
半個月前,整個媒體圈在討論小紅書上中美大對賬。
現在,整個全球科技圈又在密集地討論DeepSeek。
順便提一下,DeepSeek V3的發布日期也是在2024年12月26日,教員的誕辰紀念日。
在DeepSeek V3發布后短短的一個月左右,又連續兩個大動作。2025年1月20日發布了DeepSeek R1,這是真正引爆全球的版本,其達到與OpenAI o1版本性能基本相同的程度,但訓練成本僅為不到560萬美元,只是o1的3%-5%。
請注意,并不是說DeepSeek R1的技術性能遠超過了OpenAI o1,而是在性能基本相同或略好的情況下,其訓練成本、訓練時間卻呈現數量級的下降,這兩者帶來的結果都是顛覆性的。原因在于:
訓練成本極低的主要因素是對算力需求數量級的下降,這樣一來,英偉達人工智能算力卡市場需求就會受到極大的沖擊。
訓練時間從過去6個月下降到只有6天,這會使人工智能軟件的迭代速度發生質的變化。
6個月的訓練時間,簡直就是農業領域種子大田實驗的周期長度了,一粒水稻種子從發芽、插秧、抽穗、收割的時間也不過如此。早熟型的水稻全部生長周期甚至也就3個月。
任何軟件都是需要不斷迭代演進的,如果你的軟件需要6個月才能完整地運行一次,而我的只要6天,那么你的軟件做一次升級后要進行一下測試就得至少等6個月時間,而我的只要6天,那么即使我的軟件一開始比你的差很多,要不了幾個回合我已經迭代10次了,你一次都還沒迭代完,那你還怎么玩?就算你有天大的編程本事也沒法和我競爭了。
而且DeepSeek還完全開源,這么一搞,全世界所有公司的大模型軟件都不得不追隨這個技術路線,尤其是技術理念,否則就是農業文明與工業文明相競爭了。
DeepSeek在美國的蘋果應用商店上下載量瞬間排名第一。
2025年1月27日,Deepseek引發了美國納斯達克震動,尤其受沖擊最大的英偉達股價下跌17%。
1月28日除夕,在美股重挫之后,DeepSeek又發布開源多模態模型Janus-Pro,其中70億參數版本的Janus-Pro-7B模型在使用文本提示的圖像生成排行榜中優于OpenAI的 DALL-E 3和Stability AI的Stable Diffusion。
英偉達兩天內蒸發7000多億美元,跌去了約五分之一的市值,27日一天跌去了約5900億美元,創下美國歷史上單日下跌幅度的歷史記錄。也帶動納斯達克指數當日跳空暴跌3.07%。
當然,這種短期的波動不一定完全具有長期意義,1月28日英偉達反彈了8.93%,29日再次下跌4.10%。但是,一個中國剛成立一年多、僅140人的小公司發布的產品,居然對整個美國納斯達克科技股板塊產生如此巨大的影響力,這是歷史上的第一次。
因為整個美國科技界產生的恐慌,來自美國的一些特定的IP地址針對DeepSeek服務器發起了空前的惡意攻擊。這種惡意攻擊一直持續到現在還在繼續并且不斷升級。
特朗普也在個人賬號上發出哀嘆:
請注意特朗普個人賬號發這個信息的合集分別是#美國優先#中國正殺死美國#AI#MAGA!!!
DeepSeek創始人梁文鋒在總理召集的座談會上發言
中國出現如此震撼性的科技進展,也令整個中國社會沸騰。很多網友留言希望我談一下這個問題,很多媒體也向我約稿談相關問題。對于如此專業的技術領域,一般媒體人,甚至一些專業人士都可能很難抓住要害。
人們可能非常疑惑的一個問題是:為什么在美國看起來如此領先的AI領域,DeepSeek居然能做出讓人炫目的巨大改進?
或者換個說法:為什么在看似美國領先的AI領域,居然會存在如此巨大的改進空間?如果沒有這種改進空間存在,即使你有天大的本事也無濟于事。
其實,這種巨大的改進潛力不僅不是什么奇怪的事情,而且是整個信息技術領域存在的極為普遍的情況,只不過是DeepSeek把這層窗戶紙在全社會層面捅穿了而已。
要清楚理解DeepSeek為什么能做到這一點,如果是專業的網友,可以直接去看以下這篇DeepSeek R1的論文,甚至直接去看開源的源代碼。
但對于絕大多數普通網友來說,如果完全陷到這些AI專業技術細節中去的話,肯定會頭大,即使想盡辦法進行科普,可能也還是很難理解。
即使專業網友去直接看DeepSeek的論文,或者分析清楚DeepSeek的所有算法,也未必能完全理解為什么他可能做出這么大的改進。
所以,本文將盡可能采用90%以上的網友都能聽得懂的語言或科普知識,來讓人們理解為什么美國式的信息技術會存在如此巨大的提升空間,并且是幻方量化的創始人梁文峰的團隊成功做到了。
事實上,我窮其一生系統研究這種潛在改進空間,一直努力去進行改進,并且獲得過不少成果。
所以,本文不僅是要讓普通網友聽明白,而且希望成為一篇信息技術領域的“討美檄文”,借此機會號召所有專業的網友、政府機構相關人員和投資人看明白之后,從效率最優化角度發起一場系統的中國式信息技術革命,徹底顛覆美國式的信息架構和體系。
我會在本文中枚舉出大量可以做出巨大改進的重多技術細節,但整個信息技術領域事實上可以改進的地方太多了,本文最后會給出初步的總體建議。
二、認識世界的兩種路徑
為了理解本文,我們不是像一般人那樣一上來就先鉆到技術細節中去,而是脫離出來,先站在盡可能最高層面的、科學認識世界的兩種基本路徑的簡要比較上。一個是經驗法,另一個是理論法。
經驗法就是歷史知識依賴型的方法,可以理解為查字典法。
當遇到一個新問題時,經驗法可能不是去深入系統地理解問題本身,而是瞬間就能給出答案,它是直接對比問題與存儲的歷史知識,找出差別最小的一個,只要對存在差別的地方進行一下簡單的處理,就能給出結果。
這種方法的算力依賴度相對最小,本質上主要就是一種以經驗知識查詢和調用為主的算法。
理論法發展到極致就是科學理論。
牛頓力學用極簡的四個定律的數學公式,就能描述世間所有的運動規律。麥克斯韋方程也只是幾個極簡的數學公式,就能描述所有電磁學的規律。理論的方法存儲的知識量可以達到極小化,這是它的經濟性體現。
但是,當用理論法去解決實際問題時,要用這些數學公式進行大量的計算才能給出結果。所以,這種方法是算力依賴型的。
以上兩種方法各有優劣,并不能絕對說哪一個就更好。
經驗法算力依賴度最小,速度極快,但不一定完備、準確和深入,它也有可能搞不清因果關系。在計算機編程時通用性不是最好,要針對特定問題進行定制。
理論法知識存儲量最小,完備,因果關系清晰,精確,編程相對簡單且通用性較強,但實際解決問題時需要精確獲得所有邊界條件,必須要大量的計算。
現實的解決方案中難以絕對分清理論法還是經驗法,很多都是兩種方法的混合。例如很多經驗公式看起來是一個理論,也的確可能存在一定的因果關系成分,但事實上是界于理論和經驗之間的、不完備、也就是不完全清楚因果關系的數字統計結果。
現在的人工智能,很大程度上也是界于理論和經驗之間的一種形態。
舉一些具體的例子來說明以上兩種方法在信息技術中的體現,大家會更清晰一些。
我在北郵上研究生期間的導師蔡學勛,他主要的一個貢獻是最早實現了將原來只能用巨型機處理的氣象衛星數據,轉換成在個人電腦上進行處理。
這個團隊研究的成果之一,是最先從衛星云圖中發現了著名的1987年大興安嶺火災,就是那個當年春晚小品節目中戲稱為被費翔“冬天里的一把火”點燃的森林大火。
要將衛星云圖數據在算力很低的個人電腦上進行處理,遇到的最大挑戰就是如何降低相關數據處理的算力需求。其中最大的運算量之一,就是將原始衛星云圖數據投影到平面圖上時,要進行數據的投影轉換。
它的原理并不復雜,初中幾何知識就能明白,這里不去討論,只是要說明這種投影轉換每一個像素點處理都要進行三角函數的計算。
三角函數的公式書寫起來非常簡單,要在計算機中進行計算的話就很麻煩。因為現代的電子計算機CPU事實上只能進行二進制的加法運算。
一切數學計算事實上都是把它們通過一定的算法,轉換成一系列加法運算的累加。一般的方法是先將任何數學函數展開成只含有加減乘除的冪級數展開式,然后再把其中的乘、除、減法轉換成加法運算。
上面就是一個初中生都可以理解的正弦函數的冪級數展開式案例。從純理論上說,上面這個展開式的運算量無限大。但在不同的精度要求中,可以選擇一個有限的最大n取值就可以了,以此進行可以保證一定精度的有限運算量。最大的n取值不同,當然運算量就不一樣。
但這樣一轉換,表面看起來一個很簡單的數學函數,在計算機中需要進行的最基本二進制加法運算量,就可能會擴張到成千上萬次二進制加法運算。好在計算機過去按摩爾定律可以不斷地翻倍增長,所以用計算機來算就不是問題。這就是算力依賴型的解決思路。
因為每一個像素點都要進行這樣的處理,如果直接采用這種理論的算力依賴型的方法,在上個世紀80年代根本不可能在個人電腦上實現哪怕最簡單的衛星圖像數據的平面投影處理。
所以解決的方法就是:先計算出一個實際應用中會用到的相對完整的三角函數表,并且存儲起來。下面是一個常用的三角函數表。
當用到哪個角度的三角函數計算時,直接到這個表里面查就可以了,這就把前面那種算力依賴型的方法運算量成千上萬倍地降低了。
如果要計算的角度不能直接查到,是在表中的兩個角度之間,那就用相鄰的兩個表中的角度三角函數值進行簡單的插值處理就可以得出結果了。這種方法就是歷史知識依賴型的經驗法。
原來我們聽說過中國兩彈一星的科學家們是用算盤算出了原子彈的模型,很多人感覺不可思議。事實上,他們肯定不會用和計算機完全一樣的算法來進行計算,肯定是會尋求算力依賴度最小的方法。
主要也是基于各種已經算出來的函數表,諸如對數表、根號表、三角函數表等,在計算過程中盡可能依賴查表和插值處理,以此來盡最大可能地減少計算量,再用算盤來算,否則不可能完成這個工作。
當年祖沖之用算盤算一個圓周率都花了幾十年的時間,如果真的用算盤直接進行各種函數的計算,肯定是不可能在有限時間內算出原子彈相關模型的。
初中生實用的根號表
為什么我們要先談這些最基本的科學認識方法論?
因為只要理解了這些,就會很容易理解DeepSeek為什么如此高效的最基本的算法:以“先期預訓練為基礎”的純強化學習(Pure Reinforcement Learning)算法。
單純從強化學習算法本身來說,雖然可以從任何基礎開始,但前面有一個預訓練的基礎非常重要。簡單點說就是,已經訓練過的內容就不要再重復訓練了,就像已經計算過的三角函數就不要在每一個像素處理時重復計算,這就是節省大量算力的奧秘之一。
強化學習算法主要以原來的訓練結果為基礎,只是不斷調整新的處理結果與目標問題(強化學習算法本身的專業術語叫“環境”)之間的偏差(專業術語叫“獎勵”)。
我之所以盡量不用專業術語,而用一般人能理解的自然語言,不僅是理解起來會更為容易,還有更重要的一點是:很多專業術語事實上可能存在不一定完全合適的問題,很容易讓人產生誤解,后面會談到。
所以,簡單地說最新的DeepSeek版本訓練成本只有560萬美元是不完全準確的,DeepSeek過去投入的17億不能說在最新的版本中沒有任何體現。但在此基礎上,完全新的訓練真的可以做到新增的成本就非常低了。所以,說它最新的訓練成本只有560萬美元當然有道理。
其他大模型難道是每次新版本都是一次又一次重復去訓練嗎?
客觀 地說,利用已有訓練結果的經驗法,在其他大模型中也有體現,但總體上說他們的確是存在大量一遍又一遍進行重復訓練的問題。這當然對算力的消耗就數量級地增大了。
所以,信息技術雖然變化很快,但如果理解了最一般的科學認識方法,就會發現幾乎沒什么新技術。一切所謂的創新技術都是原來已經有的技術原理在新的技術條件下的再現,別被那些所謂的“尖端技術”包裝唬住了。
中國是如此,美國同樣是如此。
三、提升信息處理效率的最一般方法
1.去掉冗余
無論是理論的還是經驗的方法,要提升信息處理效率,其最基本的原則其實是一樣的,就是盡可能減少“重復” —— 或者用信息技術的語言叫減少“冗余”。
如果是在存儲中,已經存了一份信息,完全相同的信息不用再重復地存儲,這就是存儲信息的壓縮。一切文本、圖像、視頻的壓縮技術和存儲器的壓縮技術,都是通過各種途徑減少重復的信息,這就可以節省存儲空間。
如果是已經計算過一遍的模型,就不要再重復地進行計算了,這就是算法上運算量的壓縮。
2.適當降低精度
精度要求越高,一般來說對算力的需求就更大。尤其是一些關系不大的細節,簡單地去掉,就可以節省大量的算力以及存儲量。
例如,圖像處理中,因為人對顏色的細節敏感度遠遠低于亮度,所以一般是在相鄰的四個像素的色度信息中,只保留一個就可以了。這樣本來是每個像素一個亮度兩個色度共三個信息,四個像素3*4=12個信息,直接可以去掉6個(三個像素中的兩個色度信息),這樣就可以直接將圖像信息量減少一半。
這種圖像格式就叫4:2:0,原始圖像格式是4:4:4。在圖像的有損壓縮中,也是將部分不重要的細節信息(信息量會更大)直接丟掉,從而極大減少存儲所需要的信息量。
在人工智能中,也存在這種適當降低精度的方法,叫“量化”。
我個人認為這個術語起的名字很不好,尤其一般人可能不太好理解。如果你是普通人,看不懂一些專業術語,不要自卑,不是你理解力不行,而是這個術語名字起得太差了,這種情況其實非常普遍。
量化這個詞用得場合太多,大多都不太合適。例如DeepSeek這家公司最初所從事的行業就叫“量化交易”。這個“量化交易”中的量化一詞起得名字也不是太好。最好的詞是普通人第一眼看到的理解就是準確的,并且與術語本身字面的意義最好一致。
所謂“量化”,是把原來不是“數量的”變化成“數量的”。例如模數轉換(A/D)電路中把原來的模擬量轉化成數字量,這個過程就叫“量化”。這也是“量化”這個專業術語最原始的正宗含義,其他領域的“量化”叫法都是借用的。我學電路專業出身,這種術語唬別人可以,想唬住我行不通。
人工智能中所謂的“量化”,是簡單地降低數據的精度,例如把4個字節的浮點數據減少成2個字節的浮點數據,存儲量就簡單地降低了一半。
原來的數據就是數量化的,只是精度減少了,這怎么能稱為“量化”呢?它是“粗略化”“低精度化”。但如果這么按真實含義來起名字,就顯得自己這個技術很Low。所以就起個“量化”這種聽起來高大上又讓人云里霧里的名字。
量化交易中的“量化”這個詞也不太合適,因為原來的投資交易已經依據大量數學模型和數據為基礎。量化交易的關鍵,是把選股和買賣決策判斷,通過設定相應的交易策略后,交給計算機程序自動實現了。所以,稱“計算機自動化交易”可能更容易理解一些。
當然,也可能最初搞這個交易的人就是不希望普通人搞明白,才起這種聽起來高大上又含糊不清的術語。既然最初的人起了名字,后面的人只好延續這個術語,好顯得自己是專業的。所以,不要以為你能講專業術語就能唬住人。
與量化交易相對應的還有“高頻交易”。
中國證監會2024年5月11日發布的《證券市場程序化交易管理規定(試行)》第二十一條的規定,高頻交易是指具備以下特征的程序化交易:
(一)短時間內申報、撤單的筆數、頻率較高;
(二)日內申報、撤單的筆數較高;
(三)證券交易所認定的其他特征。
其實,這些定義都沒抓住要害,也是“高頻”這個用詞不完全恰當造成的。
這種交易的關鍵要害,是利用比一般交易所更低延時的通訊技術手段,因為其延時更低,這樣就可以在一個極短的時間內,相當于提前可以獲知股價的變動,從而提前下單買進和賣出,這就鐵定可以賺錢了,雖然一次賺得不一定很多。
因此,這種交易的本質是“短時提前交易”,而不一定絕對的頻度很高。當然,因為其短時,股票的差價就不一定會大到那里去,為了獲得更多收益,它一般的確會進行更多次的交易。多次可能“高頻”也可能不一定是“高頻”,而只是在相當長的一個時間內“多次”,頻度倒不一定很高。
但無論如何,如果你不具備低時延的光纖通訊系統作支撐,比他人提前獲取股票價格和買賣雙方的下單信息,單純的程序化高頻只會死得很慘。
回到本節主題的降低精度減少硬件需求法,需要注意的是,簡單的降低精度也有可能導致最終效果不一定滿足要求,這里面也是有技巧的。
3.適當簡化、降低問題復雜度
要計算的參數越多,計算量就越大。如果對模型進行適當地簡化,減少參數和復雜度,計算量一般就會相應地下降。
100億參數模型進行數據訓練,與1000億參數相比,簡單地來評估,在其他方面都一樣的情況下,計算量就會下降一到兩個數量級。復雜度或參數減少了,可能其性能表現等也會有所降低。如果能夠很好地選擇參數和調整好各項系數,有可能做到性能表現上差異極小。
這種方法在人工智能中叫“蒸餾”(Distillation)。我同樣認為這個術語很不好甚至非常糟糕。因為它顯然是引用化學中的蒸餾法這個術語。但化學中的蒸餾法是什么呢?
比如我們喝的蒸餾水,是通過把含有極少量雜質的水加熱成蒸汽,然后在另一個冷凝器重新變成水。從中可知蒸餾法的特點:目的是去除水中極少量的雜質,因此,蒸餾以后的水與之前的可能體積和重量變化都極小。一公斤含雜質的水,蒸餾以后可能還是非常接近一公斤的純凈的水。
但人工智能蒸餾法的內涵,與化學蒸餾法顯然有比較大的差異。事實上它與“提純”更為接近:
提純后體積重量一般會極大地變小。
提純后的物質可能還是有極少量雜質。
被提純過程丟棄的部分也可能含有少量未提純出來的有效物質。
或者,也可以叫“裁減”等更準確并更容易理解的術語表達。
但是,如果采用這些更通俗并更準確和容易理解的術語的話,就顯不出尖端技術了。叫“蒸餾”這種有點莫名其妙的術語,就會顯得比較牛掰。
在技術甚至很多科學領域,其實都存在類似情況。我過去曾專門寫文章討論過分子生物學領域起的學術名字非常糟糕的大量案例,一旦搞清楚這些,讀者理解他們就不會那么困難了。
所以,本文為什么一開始就強調要站在更高的層面來看問題,因為只有這樣“看扁”那些專業術語,你才能很容易地真正理解它們的準確含義。
OpenAI現在指責DeepSeek是對其對應版本軟件的蒸餾。事實是否如此我們不去評論,但就算存在相應的過程又能怎樣?這本身就是人工智能中通用的合理方法。
況且,DeepSeek也未必只針對OpenAI為藍本去進行優化,還可以有更多自我優化的過程,也未必只是從OpenAI模型的參數中簡化出來。
你可以去指責DeepSeek抄襲,但我可以告訴你,這個世界上幾乎就沒有幾個技術是絕對原創的。
可以說美國幾乎所有的技術,全是在新的基礎條件下,對完全相同技術原理的不同實現和綜合,只不過給了個不同的技術概念名稱,就讓人誤以為是全新的頂尖科技了。
整個現代的計算技術,就是對中國算盤的抄襲和新技術條件下的細節改變;
所有信息存儲技術,全都是對中國造紙術在新技術條件下的發展;
所有現代的數字編碼技術,全是對周易八卦的抄襲和新技術條件下的發展。
有人指責鴻蒙系統中有Android的代碼,那你以為Android是谷歌原創的嗎?不是。
并且,創立Android的安迪·魯賓在之前有在蘋果和微軟公司的工作經歷。Android是在Linux、蘋果、微軟公司的大量技術資源基礎上發展起來的。
谷歌不僅不是Android的原創者,而且它是把安迪·魯賓與其他人在2003年10月創立的Android公司,在2005年通過收購并入谷歌的。
微軟最初的DOS系統,就是抄襲基爾·代爾的CP/M操作系統,而且還不是微軟自己抄襲,是直接買的另一家抄襲的小公司產品,連其中基爾·代爾最初的語法錯誤“1 file(s) copied”都原封不動地抄襲過來,一直到微軟的DOS操作系統被視窗系統替代完了,這個語法錯誤都沒完全改過來。
只要法律上不違反專利,“抄襲”換個名字就叫“學習”。
所以,那些指責DeepSeek抄襲的人早點閉嘴吧,這唯一證明的只是你們壓根就不是這個圈子里的人——除了中國的算盤、造紙和周易是真正0到1的原創技術以外,此后的信息技術發展從始至終,就全都是“抄襲”。
四、DeepSeek的特色技術
1. 三個重要的特色技術
要理解DeepSeek為什么效率這么高,僅僅說它采用了蒸餾技術差太遠。需要認識到它的確有很多自己的特色技術。從這些特色性的技術中可以看到,他們的出發點都是盡最大努力去減少人工智能中的各項成本。例如:
不依賴于對用于訓練的數據進行人工打標簽;
混合專家架構(Mixture of Experts:MoE);
多頭潛在注意力(Multi-Head Latent Attention,MLA)
2. 打標簽是怎么回事
要理解DeepSeek不依賴于人工打標簽,首先得理解打標簽是怎么回事。
人工智能為什么能理解人類的文本和圖像等數據?
如果不理解數據標簽技術,可能會感覺很神奇,但理解后可能就沒有什么神秘感了。
如果把互聯網上的數據直接灌給人工智能,后者要準確理解數據極為困難。所以,原始的數據不能直接輸給軟件,而是先由人去判斷并打上標簽。
簡單來說,比如“美國”和“美圖”這兩個詞,前一個要理解成一個國家“美國”,后一個要理解成“美麗的圖片”簡稱。這類理解是首先由人工智能的工程師制定好一些規則,然后交由專門打標簽的標簽工去干的活。
所以,別以為大模型的人工智能真的那么神奇,真的有智能,其實還是人類智能的計算機化。
但是,這么干有一個問題,就是人工打標簽成本很高,效率較低,工作量很大。美國Scale AI公司專業給其他大模型公司提供人工打標簽服務,其創始人跑出來公開指責DeepSeek。原因很簡單,你DeepSeek要是這么搞,會讓Scale AI壓力山大,沒活干了。
那DeepSeek為什么可以不依賴于人工打標簽呢?
最初的模型仍然需要人工打標簽,但是我們前面說了,提升效率的方法就是去掉冗余——已經打過標簽的應該就不用重復再打了呀!
另外,強化學習法,不是事先對數據進行人工理解并打標簽,而是可以在模型運行之后做出人工判斷來調整之前訓練的數據,也起到與人工打標簽類似的作用。如果是在人工標簽訓練過的基礎數據之上進行強化學習,就基本不需要再人工打標簽了。
理解了我們前面鋪墊的基礎方法論知識,奧秘就可以一語道破了。
3. 混合專家架構MoE
我在本文中盡量不深入技術細節,尤其不深入DeepSeek具體是怎么實現的,因為絕大多數人不需要去了解那些細節。
對專業人員來說,如果你理解了最基本的原理,你也可以用不同的技術路線去實現,甚至獲得更好的技術實現。
對DeepSeek來說,他們本身就在天天修改代碼進行各種改進,所以其他人太過于深入地追實現的細節,永遠也追不上。
我個人從了解通用人工智能技術一開始,就很推崇混合專家模型這個技術路線。
那還是十多年前,OpenAI都還沒有成立時,我就作為投資人在硅谷接觸到一些當時頂尖的通用人工智能創業公司。我當時就對“通用人工智能”這個概念非常有疑問,或者說非常不贊同。
各種專業的人工智能技術早就有了,為什么不通過整合不同專家系統來實現通用的人工智能呢?
當時那些創業技術團隊給我的回復是:這種思路業界不是沒人提,但要提前進行數據的專業分類會非常麻煩,而且不同人的理解會不一樣。
“通用人工智能”這個概念本身不太對路,誤導了社會大眾。事實上這個技術最初的Transformer模型,最大貢獻是實現了一種比較通用的生成式人工智能算法。
重點在“生成式”,而不是“通用”。
目前人工智能熱點向混合專家架構轉化,可以說符合我最初的判斷。當年的神經網絡技術也有很大通用性啊?為什么不說神經網絡和深度學習算法也是通用人工智能呢?
當然,中間走一個大而全的通用人工智能過程也有意義,就是先摸索出一些新的模式出來。而且,不同的專家模型也會在這個過程中自然形成,這樣就不用提前去做專業數據分類的工作。這種提前進行的分類可能也不一定合適。
人類也分成各個領域的專家,要解通用的問題也是不同專家合在一起來實現。人工智能當然也會走向這個模式。
混合專家架構的好處是什么呢?
這 需要結合前面所說的強化學習。
因為已經訓練出來的數據,需要與環境在新的互動中不斷地進化。
設 想一下,就以“量化”這個詞為例,它在不同的專業領域含義不一樣。如果不加任何區別,它就會在不同專業領域跳來跳去,差別較大。如果出現一個新領域采用這個詞,產生的差異就更大了。這就會給已經訓練好的人工智能數據產生較大的干擾。
但是,如果分成各個不同的專業領域,那么它們相互之間就不會產生干擾了。新的環境變化越小,對模型產生的干擾就越小,也越容易趨于穩定、計算量也越小。
通用人工智能的技術路線,所有的數據與其他數據都可能有相關性(被稱為“稠密模型”),這個計算量就太龐大了。
但通過混合專家系統的專業分類(被稱為“稀疏模型”),大多數的相關性計算可以只與自己專家模型內的數據進行,這就極大地降低了總體的計算量。
很多會議為什么要分組討論?其實也是同樣的原理,沒多大關系的就不要在一起浪費時間。
多個專業模型合在一起,表現得像是一個什么都懂的通用人工智能,就需要在一開始先分清楚,新輸入屬于哪個專家模型,從而好交給它來處理。這就需要一個“門控”的判斷機制。
但凡學過編程者是不是馬上會想起Switch(英文含義是轉換、開關等)這個幾乎所有編程語言都常用的語句?它就是一個門控機制。最簡化的只有兩個選擇的門控編程語句是if。
所以,真正的技術原理其實都差不多,只是不同條件下不同的實現而已。Switch這個語句就是會提供一個判斷的條件,當判斷出不同結果時,就交給不同條件下的子程序去處理。
Switch就像是一個大公司的前臺,來客說明來意,前臺就會判斷他要找哪個部門,然后就會引導他去這個部門具體處理。
混合專家架構MoE,可以看成是一個高度放大版的Switch編程語句。
4.多頭潛在注意力MLA
我同樣再強調一下,別被表面深奧的技術概念搞暈頭了。
簡單來說,當很多人去用人工智能軟件如DeepSeek或豆包等進行查詢時,輸入的查詢要變成計算機語言,它叫鍵(Key)和相應的值(Value)。
記住我們前面說的基本原理,你馬上就可以想到,那么多查詢肯定有大量重復。如果所有查詢全部獨立儲存在內存中,會占用大量寶貴的內存。
如果把那些重復查詢整合在一起,實現壓縮,那內存占用是不是就非常小了?MLA其實就這么簡單。實際查詢時,解壓縮出來的效果就和直接查詢一樣。
這個就如同我們在網上看直播時,視頻經過壓縮后才在網上傳輸,傳到用戶處再解壓縮后重現出來。
如果有人直接將原始視頻在網上傳,當然占用資源就大多了—— 美國的人工智能就在這么干。所以不是DeepSeek效率太高,而是美國的技術路線實在是太 Low了。
五、為什么美國的信息技術存在巨大改進空間?
美國引領了整個信息技術的進程,這使得美國建立的信息架構成了全世界的標準。其他國家的技術人員往往是不問為什么標準會這么建立,直接拿過來就用。即使發現一些看似很不合理的地方,也會認為這里面肯定有什么我們不知道的原因才如此,人家美國肯定都想清楚了。
事實上完全不是這樣。
其實也可以說,DeepSeek采用的技術沒有任何真正原創,美國全都有。信息技術實在是太多了,實現相同目標的技術路徑和方案可以有非常非常多的選擇。選擇不同的方案和技術路線不同,可能會體現出不同的文化。
1. 各種資源的成本平衡問題
第一個問題是:軟件的實現涉及到很多方面資源成本的平衡:
計算能力成本
存儲能力成本
網絡帶寬成本
編程的人工成本
其他
實際的產品實現中,需要根據不同資源的成本差異,設計不同的實現方案。
(1) 計算能力獲得很容易,存儲成本很高,那么在算法上就會傾向于算力依賴型,這樣更為經濟。
(2) 存儲成本很低,計算成本很高,就可以傾向于采用算力極小化,歷史經驗知識依賴型算法。
(3) 如果編程的人工成本和管理成本很高,計算和存儲能力的獲得都很容易且成本較低,就會傾向于用最簡單的編程算法去實現,而不用太關注產品計算和存儲的成本消耗和效率。這就是一種硬件依賴型的算法。
(4) 硬件成本相對極高,就得通過更為復雜的編程去盡可能節省計算和存儲的硬件資源。
(5) 網絡帶寬成本很高,就會追求需要傳輸的信息更高壓縮率。
沒有以上各方面成本的綜合考慮,就不能簡單地說哪種算法或策略更好。
美國在引領信息技術發展的過程中,逐步地形成了他們自己特定的文化。
因為芯片的摩爾定律,計算和存儲能力可以很容易獲得并迅速增長,而美國的人工比較貴。所以,美國就形成不太關注計算和存儲效率的最優化,而主要關注編程的方便性、簡潔性、可讀性等。雖然不那么絕對,但總體上是這樣。
20世紀90年代初,我在北郵上研究生期間有過很深的體會。
我要做一個叫作潮涌填充的算法軟件,用于諸如衛星云圖中任意不規則圖形(比如湖面)的定性和面積計算。
所謂潮涌填充算法,就是先由軟件操作人員從一個很明顯是湖面上的一點開始,計算機從這個像素點開始,判斷與其相鄰的像素是否有相同的顏色。如果相同,就打上標簽,如果不相同就放棄這個方向的繼續判斷。這樣到最后會把所有相鄰的(相互連通的)湖面像素全都找出來。
這種潮涌填充最原始的算法非常簡單,就是對一個像素點的上、下、左、右四個像素進行判斷,如果相同,就以這個新的像素為基礎進行相同的處理過程。這種自己調用自己的方法被稱為“遞歸”方法。
這種最簡單像素判斷的“遞歸”算法有一個問題,它不去記住已經判斷過的像素,每次遞歸調用都是上下左右四個像素都進行判斷,這樣每個湖面的像素點很可能會被重復判斷四次。也就是說,這種算法純屬算力依賴型。
我當時就建立了一種“有向潮涌填充算法”,可以使湖面的每個像素點只要被判斷一次就可以了。其原理也就是歷史經驗知識依賴型的方法,把已經判斷過的像素記住(實際實現中是采用記信相同顏色的線段兩個端點),這樣就可以使所有湖面的像素基本上只作一次判斷,使計算效率達到了最理想的程度。
實現這個軟件后,我與美國當時最先進的同類軟件進行了對比測試,的確效率成倍提高,與理論分析一致,達到了當時世界上最高的計算效率。
這件事 給我非常大的觸動——啊,我怎么這么容易就搞出一個世界第一呢?而且改進的幅度居然這么大?
在此過程中,我對軟件系統的效率問題專門作過大量的研究。例如,將最常用到的變量(如計數器變量等)設置成CPU中的寄存器變量,因為后者的訪問速度最快,所以即使其他部分不作變動,軟件所需要的計算時間也會顯著縮短。
研究生畢業后,我作為王碼電腦惠州有限公司的總工程師,進行過大量電腦硬件和軟件開發工作。在此期間我又刻意研究過軟件系統的效率。
例如,我曾將一個數據庫系統的整個軟件和數據通過一個“虛擬硬盤”軟件全部裝進內存里,就這么一個簡單的措施,居然讓運算效率提升了一個數量級。
這些研究經歷使我明白一個道理:美國因為是CPU芯片等計算能力生產的核心,它的產品研發理念是不缺計算能力,但軟件編程工程師很貴。所以美國形成了編程盡可能簡單和好管理,不用太關注計算效率的信息技術文化。
2.商業因素
形成這種文化還有另一方面的商業原因。
CPU是INTEL等公司生產的,他們嚴格按照摩爾定律不斷地成倍升級芯片性能。如果拋棄計算依賴型的算法,過多地提升計算效率,對新CPU就不會有那么強烈的需求。
在整個信息技術的硬件中,CPU公司無疑具有整個信息技術架構最基本的標準控制能力。所以,在所有硬件中,CPU公司相比于存儲產品公司,擁有更大的話語權,外設類公司話語權就更弱了。
所謂的WINTEL聯盟,微軟和INTEL兩家公司形成的一種默契:INTEL會說服微軟不用過于關注軟件的計算效率,這個問題交給INTEL來解決就可以了。微軟也樂得將更多精力關注于編程的簡單性和用戶界面的更加友好。因此,這種文化長期演變下來,就會在計算效率上形成巨大的改進空間。
這種計算效率非常低下的改進空間,在人工智能時代也延續到英偉達與OpenAI等形成的軟硬件體系上。
事實上,所有那些技術改進,提升計算效率的方法美國人都知道,甚至大多數都是他們最先提出來的。但因為這種文化,甚至因為商業的人為因素,他們不會去充分利用這些技術,在一定條件下還會人為地故意降低硬件的使用效率,甚至會使這種降效達到匪夷所思的荒唐地步,僅此而已。
這就是為什么DeepSeek可以將人工智能計算效率提升這么大的技術可能性所在。
六、中國式的“編程依賴型、硬件資源極小化”文化
1.中國歷史形成的硬件資源極小化文化
中國共產黨從最初創立之始,就是在極度缺乏各種硬件資源的條件下發展起來的。所以,中國早就形成了“編程依賴型的、硬件資源極小化”的文化。
這種文化體現在非常多的領域,例如抗美援朝戰場上,志愿軍能將武器裝備的資源利用效率,通過各種途徑發揮到極致,利用的是“人的主觀能動性”,但美國卻是一種簡單投入更多硬件資源的所謂“范弗里特彈藥量”文化。
硬件資源極小化,對應的就是硬件資源利用率極大化。
在信息技術領域,中國并沒有從一開始就形成硬件資源極小化文化。因為美國最初掌握了幾乎所有硬件,給其他人留下的主要是應用層編程——如何去調用最底層硬件資源的算法,通過各種“函數庫”、高級編程語言等給封裝起來。
應用層編程人員只知道程序在干什么,一般并不知道它具體在CPU、寄存器、內存、緩存、硬盤、總線中如何存儲、傳輸和計算。這種情況下很難提升硬件效率。
但是,隨著中國產業鏈不斷地深入到底層的硬件,中國的工程師們也逐步了解了最底層的技術細節——要想充分地發揮硬件的能力,就需要在編程時采用更為底層的編程方法,比如匯編語言。采用匯編語言的硬件效率,一般來說很容易超過高級語言的硬件效率。尤其中國公司做了更多軟硬件集成的系統工作,對充分發揮硬件能力的技術積累有很多的條件和機會。
DeepSeek主要采用的編程語言是PTX(Parallel Thread Execution)語言,接近于比較底層的匯編語言,它可以更好地在大算力需求的程序上直接調度硬件資源,從而實現更高的硬件效率。
一般常用的人工智能使用的是高級語言Python,主要被用于模型的建構、訓練和部署等硬件執行效率不是那么高的部分。
因此,DeepSeek就是采用的抗美援朝戰場上志愿軍的打法,用遠低于對手的硬件需求,超高的硬件使用效率,從而能將對手殺得丟盔卸甲。
2.后摩爾定律時代的大趨勢
現在社會對人工智能的觀念理解,很多都是錯誤的,例如認為發展人工智能一定要很大的電力消耗。如果真是這樣的話,人工智能是發展不下去的。
在過去摩爾定律正常有效的時代,用相同的電力消耗可以持續獲得成倍增加的算力。現在隨著摩爾定律越來越失效,要獲得成倍增加的算力,就得接近于成倍增加電力消耗。如果還是延續過去摩爾定律有效時代的算力依賴型編程文化,即使中國這樣電力發展非常好的國家也承受不了。
因此,算力提升的困難并不僅僅是中國會遇到,美國也會遇到。只是中國因為美國對高端芯片的制裁,提前認清了算力不足將在未來成為長期的客觀事實,也造成了中國工程師和企業提前轉向算力極小化的策略。
因此,這一次DeepSeek的沖擊并不僅僅是一次特定產品技術的沖擊,而是一次兩種信息技術發展文化和理念的大對撞。
七、中國的戰略選擇
2024年8月份,DeepSeek的部分投資人和一些人工智能相關領域的專業人士,邀請我和華為負責戰略的一位朋友一起進行非正式的餐敘,討論人工智能大模型的相關問題。
雖說是非正式的討論,但作為投資人當然還是想尋求大模型、尤其DeepSeek的大模型是否可以找到某種商業模式賺錢。
剛開始我不太敢說話,因為我對人工智能的觀點向來比較保守。華為的朋友一直很坦率地持否定態度,認為很難有什么成功的商業模式。我在華為的朋友說了很多以后,才敢說出自己基本認同他的個人想法。這個餐敘談得大家都很郁悶和心情沉重,到后來我又不敢再說話了。
DeepSeek的投資人甚至有些直白地表達出:汪老師,別再這么說了,如果再這么講下去,那就等同于完全否定掉這個項目了。席間我也試圖積極地提出各種商業模式的可能性,例如模仿Scale AI的打標簽外包等,也提到既然沒有商業效益,不如完全開源獲得社會效益。
今天DeepSeek的社會效益,確實達到了那天我們曾設想和討論過的所有局面。
這也是幻方量化這家公司可以干成這件事的原因所在,因為他不完全指望這個掙錢。
我不能說那次非正式討論對今天的DeepSeek開源起到什么作用,但很欣慰在DeepSeek今天被公眾知道之前,就有機會深入研究過這家公司。
從中國目前特定階段的情況來看,我們已經突破了隨機存儲(合肥長鑫等)與閃存(長江存儲等)硬件技術。
從芯片技術本身來說,存儲的集成度天然地就高于計算,因為在隨機存儲器芯片中,存一個比特信息只需要一個晶體管;在閃存中,一個晶體管甚至可以存2個(MLC閃存芯片)、3個(TLC閃存芯片)、4個(QLC閃存芯片)比特的信息。
在CPU中,一個比特的信息單元至少需要四個晶體管實現。在人工智能算力的芯片領域,中國目前還稍微落后。所以:
在整個硬件的成本平衡中,中國應當采用算力極小化,存儲依賴型的策略。
以往的計算體系,尤其在PC時代形成的計算體系架構,是以“內存稀缺”為前提建立的。例如最初的“虛擬內存”技術,就是為解決內存稀缺問題。這種情況在內存成本已經大幅度降底,并且可以實現海量內存以后依然延續。
我曾在1998年就提出過“海量內存計算機”的概念,并且相關文章作為專題分三期發表在當時的《計算機世界報》上。十年之后SAP公司才提出“內存計算”的概念,但“內存計算”這個概念不準確,因為所有計算都需要內存,只有海量內存才是本質所在。因此,建立“計算稀缺,海量內存”為前提的信息技術架構,是未來必然的方向。
在整體成本的平衡中,中國應當采用編程依賴型,硬件資源極小化的策略。
我在業界最先提出的SDN(軟件定義網絡),在數碼視訊工作時提出的EMR架構,都是硬件資源需求最小化的解決思路。
當時在荷蘭阿姆斯特丹參加IBC展會時,中國廣電系統的領導看了EMR之后興奮的說:太好了,這個和國外相比差距還剩多少啊。我回答說:國外公司和我們相比嘛,那差距還是有的。不好意思,這個體系架構的創始人就在你眼前。他們聽后:啊?啊!好呀,好呀!這個體系架構引領了當時全球廣電系統的硬件平臺,包括美國的CISCO、德國的Blankom等眾多公司以及中國公司都沿用了這個平臺架構,成為了全球的事實標準。
過去這些技術策略只是在部分領域采用,而在未來需要成為一種具有普遍性的文化和發展戰略和全面超越美國的基本戰略策略,這也是中國的優勢所在。如果只是補上EUV光刻機與英偉達同級別的人工智能算力芯片,那最多只是與對手打平。
只有采用完全不同的賽道,不同的信息技術文化,才能全面實現超越。
以此戰略策略為指南,動員全國的工程技術人員、相關企業、政府人員和投資者,就能造成陷敵于滅頂之災的汪洋大海,能造成彌補算力芯片、EUV光刻機等等暫時不足的補救條件,能造成克服一切困難并引領未來人類信息技術架構和標準的前提。
(完)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.