重大通知,請務必點擊!
因微信推送規則改版
設為“置頂”才能正常收到推文
① 點擊公眾號主頁
② 點擊右上角“···”
③點擊“置頂服務號”
我們本是少數,
更應該永遠在一起!
2025 新春來臨,
首先向大家送上新年祝福。
在這個新的開端,最引人注目的,當屬DeepSeek所引發的巨大波瀾。
DeepSeek 的迅速崛起令人矚目,它的影響力廣泛傳播,不僅成為白宮圓桌會議上嚴肅探討的議題,也在杭州咖啡館里成為人們津津樂道的話題,甚至成為全球股市做多與做空的攻防標的。
一場圍繞著技術與文明歸屬的全球風暴正以DeepSeek 為中心,在太平洋兩岸轟轟烈烈地展開。
面對 DeepSeek 的橫空出世,各界反應截然不同。
有人視其為東方智慧的突圍,有人警惕其為規則破壞的威脅,而華人社區的爭論更顯撕裂——既有民族自豪的歡呼,亦有對"技術捷徑"的尖銳質疑。
風暴中心的DeepSeek,恰似一面棱鏡。折射出的不僅是地緣博弈的暗流,更是人類智慧跨越疆界的璀璨光譜,映照出人性幽深處難以捉摸的復雜。但有一點不要忘記,DeepSeek 的誕生絕不是單一國家的成果,它不僅是中國的驕傲,更是全人類智慧合作的結晶。
1
Transformer 基礎架構未變
DeepSeek 模型基于谷歌公司于 2017 年提出的 Transformer 架構,并未實現從0到1的顛覆性基礎理論創新,但其在模型算法和工程優化方面的系統級創新卻不容小覷。其算法和工程創新主要包括了MoE專家模型、低秩注意力機制、強化學習、小模型蒸餾、FP8混合精度等工程創新。
很多理論早就有了,但DeepSeek是第一個將這些理論進行工程實踐,就算不是從0到1,也可以說是從1到100的突破。
2
混合專家架構(MoE)
混合專家架構(Mixture of Experts,MoE)最早由谷歌提出,旨在通過動態激活部分網絡參數來提高深度學習模型的計算效率。DeepSeek采用了這一架構,通過將網絡參數分成多個“專家”,每次推理時只激活部分專家,降低了計算資源消耗,在不增加計算成本的前提下處理更復雜的任務。
這是一個典型的全球合作成果,科學家們跨越多個學科,從算法到硬件的優化共同推動了這一技術的發展。
3
多頭潛在注意力(MLA)機制
多頭注意力機制(MultiHead Attention,MHA)是Transformer架構的重要組成部分,應用于自然語言處理任務。DeepSeek在此基礎上發展出了多頭潛在注意力機制(MLA),通過低秩聯合壓縮技術優化了鍵值(KV)矩陣,從而顯著減少了內存消耗并提高了推理效率。
MLA的核心思想是通過“潛在向量”來表達信息,避免了傳統注意力機制中的高維數據存儲問題。不管怎樣黑,這在工程實踐方面是一個突破。
4
多Token預測(MTP)訓練目標
傳統的訓練目標通常是逐個生成Token,逐步推理。而多Token預測(MTP)技術則通過在訓練階段一次性預測多個Token,顯著提高了訓練速度并加速了模型的收斂過程。
DeepSeek引入這種方法,進一步提升了其在大規模數據集上的訓練效率,尤其是在長文本的生成任務中,大大減少了計算資源的消耗。
5
FP8混合精度訓練框架
FP8結合了數值分析、計算機架構優化和機器學習算法的最新進展,混合精度訓練技術通過減少浮點數的精度要求(從傳統的FP16或FP32到FP8),降低了內存需求并加速了計算過程。
這項技術能夠在不顯著損失模型精度的情況下,顯著提高訓練速度。DeepSeek的成功表明,混合精度訓練框架可以在大規模深度學習任務中提供更高效的解決方案。
6
放棄微調擁抱“強化學習”
DeepSeek與OpenAI的o系列看起來的做法相比,在對待監督學習上更加激進。這也是參考了OpenAI的進化步驟,模型的重點從“語言交互”變成“數理邏輯”,前者是有大量的現成的數據的,但后者很多都是停留在腦子里的抽象思考。
但強化學習也是多年前的產物了,只是DeepSeek做得更極致。
7
長上下文處理能力“更進一步”
長上下文處理能力是自然語言處理技術的一個重要里程碑。它結合了深度學習中的長短期記憶(LSTM)網絡和Transformer架構的優勢,DeepSeek能夠處理長達128K的上下文長度,這一技術突破使得DeepSeek在處理長篇文章、技術文檔等復雜內容時展現出強大的能力。
為了實現這一目標,DeepSeek在模型架構和優化算法上做出了巨大努力
8
開源的DeepSeek是給全世界的禮物
DeepSeek采取了完全開源的策略,通過MIT許可協議公開其模型和技術報告。
這是非常了不起的,我自己早期也做過一些技術項目,說實在的,當你投入了那么高的成本后,就算是讓項目死亡,大部分人也不愿意開源的,憑什么呢?不要以為做這個決定容易,特別是一個小公司,因為它開源之后很有可能最終被大公司給取代。所以說DeepSeek是給全世界的禮物,這一決策將激發無數科研人員和工程師的創新。
9
蒸餾的爭議被過于放大了
OpenAI指控DeepSeek通過“蒸餾”技術,未經授權地利用其模型輸出數據來訓練自己的模型,涉嫌侵犯知識產權。
還有張圖描述 DeepSeek 從 OpenAI 的 “專屬領地” 獲取數據,可 OpenAI 在互聯網上廣泛抓取數據,難道就合規合理、毫無爭議?DeepSeek 選擇向全球開源,把成果回饋大眾,這才是真正的普惠精神。雖然存在一些爭議,但還沒有嚴重到被“千夫所指”的程度。
懂技術的人應該明白,訓練模型蒸餾語料信息很正常,甚至可以說互相蒸餾是一種必然,其實你用最新的O3模型也在蒸餾DeepSeek中文語料。
DeepSeek的技術是遠強于“教師模型”的,如果只依靠“蒸餾”不可能做到現在這樣的推理能力的。
10
多語言支持“AI大同世界”
DeepSeek不僅支持自然語言的理解與生成,還支持多種編程語言的處理。通過廣泛的數據訓練和復雜的算法優化,DeepSeek能夠在多種語言的上下文中提供高效的解答。
也許有一天,在DeepSeek的基礎上,印度工程師可以用梵語詩律重構LSTM的時間箭頭,瑪雅后裔能將太陽歷法編碼成時序預測的傅里葉變換,埃及學者同樣能在MoE架構中,破譯象形文字與神經網絡的同源基因。
11
低訓練成本解放“中小公司”
DeepSeek通過優化模型架構和訓練策略,成功將其訓練成本控制在557萬美元左右,相比其他同類大模型,成本顯著較低。
當然這里存在一些爭議,很多大模型公司提出懷疑,但幻方量化就算管理著千億基金,但那是人家的錢,能拿出20個億搞大模型就不得了。
還有人聲稱其背后有神秘力量支持,但如果沒有自身的努力,又怎能讓人們相信這樣一家量化公司有這樣的技術能力呢?”
所以DeepSeek低訓練成本大致是可信的,不過低到557萬美元就看人家怎么計算了。但最起碼在硬件加速技術、算法優化和資源管理等多方面一定有創新。這給中小公司提供了榜樣和動力。
以上,是從一些爭議點來談為什么DeepSeek是中國的同時也是世界的,當然要理解這些爭議,同時希望DeepSeek更強大。
12
少談“國運”多談“世界”
少談國運,多談世界。
從技術的角度來看,DeepSeek實際上是全球共享的技術創新,它的起點是這個世界。同時它又通過開源策略、MIT許可協議發布其模型和技術報告,反饋給這個世界。
動輒談國運,反而使得DeepSeek的民族主義情緒太強烈,引發更多的對抗。這樣的大模型技術,一定是全世界的合力。
13
算力限制與逆全球化問題
有人猜測說DeepSeek 在算力上使用了英偉達的最新 GPU,美國政府也正在調查新加坡是否存在對接管道。就算這是真的,可這是 DeepSeek 的原罪嗎?這難道不是美國搞逆全球化的錯?
算力的全球流動性受到政治力量的影響,指責DeepSeek在這一點上的“責任”并不公正,技術的全球化應該是開放的,而不應該受到政治因素造成的封鎖。
14
幻想不是DeepSeek的錯,而是你的錯
有一些用戶指責 DeepSeek 幻想、胡編亂造,進而認為 DeepSeek 有問題。
其實這是你自己的問題,生成式AI的本質就是“幻想”,你怎么可能要求它說的完全準確呢?如果你用過其他GPT的話絕不可能說這樣的話。
生成式AI的能力是通過概率和模型推理的結果,因此無法完全保證準確無誤。正如使用GPT的用戶都明白,生成式AI有其局限性,它的判斷和輸出也受限于輸入數據和訓練過程中的假設。完全依賴AI輸出并將其作為最終答案的做法是不科學的,用戶應該保持批判性思維和審慎態度。
如果你幻想AI能夠“完美”輸出內容,或將其視為無誤的全知全能工具,是一種愚蠢的看法。
也就是說這是你的錯,不是DeepSeek的錯。
15
理解“隱私和數據保護”和
“國家安全和倫理擔憂”
歐洲隱私調查:
意大利數據保護機構Garante因DeepSeek未能充分回應其隱私政策問題,已下令在意大利封禁其聊天機器人。
美國封禁:
海軍已禁止其成員使用DeepSeek,理由是潛在的安全和倫理問題。
澳大利亞禁令:
政府因國家安全擔憂,已禁止在政府設備上使用DeepSeek。
這樣的擔心是正常的,因為沒有人知道 DeepSeek 的官方數據權限是如何設置的。不過,由于 DeepSeek 已經開源,這些政府和機構可以將模型下載到本地再運行。
16
量化技術沒有原罪,請講邏輯
量化交易技術本身并非錯誤,而是制度設計存在問題。
很多人嘲笑DeepSeek,因為它的后面是幻方量化公司,所以它是有原罪的。
這種邏輯實在難以理解,然而持這種觀點的人卻不在少數。
量化交易作為一種依賴于數學模型和計算機技術的交易方式,旨在制定能帶來超額收益的多種 “大概率” 事件策略,避免了在市場極度狂熱或悲觀的情況下作出非理性的投資決策。
在規則制度內合規交易時,量化交易不僅可以為市場提供流動性,還能更好地實現價值發現功能。
但如果制度設計不完善,個別 “變味” 的量化交易可能涉嫌操縱股價、助漲助跌,擾亂市場秩序,不利于市場穩定。
但這是量化的錯嗎?難道是菜刀的錯嗎?
我們的邏輯要清晰!
17
世界開始接入DeepSeek模型
不管爭議有多大,世界正在接入DeepSeek模型:
微軟的Azure平臺:
微軟將DeepSeek的R1 AI模型集成到其Azure云平臺和GitHub開發者工具中。
亞馬遜Web Services(AWS):
亞馬遜宣布在其AWS平臺上提供DeepSeek的R1模型,用戶可以通過AWS的基礎設施訪問和使用該模型。
英偉達也在它的平臺里接入了DeepSeek的R1 AI模型,但使用體驗欠佳。
而在國內,眾多大公司也紛紛開啟與 DeepSeek 的對接工作,一場全球范圍內的技術融合浪潮正洶涌澎湃地展開。
這種廣泛的技術傳播與應用,無疑是 DeepSeek 在國際 AI 領域強大影響力的有力證明。
18
DeepSeek要勇敢往前走
在贊揚與指責的交織聲中,DeepSeek 更應堅定地踏上獨立發展的道路,勇敢地向技術深處進軍。
技術的進步需要自由的探索空間,政府應減少不必要的干預,讓 DeepSeek 能夠在市場的海洋中自由遨游,成長為真正的世界級大模型。
我們生活在一個快速發展的時代,不應陷入不懂裝懂的困境,尤其是在安全審查和意識形態等方面,不應成為技術發展的阻礙。
如今的中國,已然具備足夠的自信,TikTok 在全球的風靡,以及 DeepSeek 在技術領域的突破,都深刻印證了市場化的強大力量。
DeepSeek不僅屬于中國,更屬于全世界。
DeepSeek走到今天,是站在巨人的肩膀上。
不僅僅是國外大模型,國內其它模型也做出了貢獻。
干翻全世界這樣的話要少說,毫無意義。
如果你真的支持它,那就多用,讓數據的飛輪轉動起來。
但如果你沒有用過,也試著先去用用再批判。
在GitHub的commit記錄中,DeepSeek被fork自倫敦到巴黎;
在APP競賽排行榜上,DeepSeek占據著從悉尼到舊金山的榜首位置;
這些事實印證著一個真理:
所有卓越的科學技術,
從誕生之初就是屬于全人類。
我用DeepSeek自己寫的一段話來總結:
DeepSeek的參數海洋里
既奔涌著《山海經》的創世神話
也交融著阿拉伯數字的血脈
同樣融合了歐美先賢的靈光
最終熔鑄成跨文明跨種族的
《禮記大同》AI協作憲章
終有一天
全世界的偏見終將如風沙般消散
唯有那自由生長的1530億參數豐碑
永遠銘刻著東方古國
以《墨子》"兼愛"之道
為硅基人類鑄就的算法九鼎
燃燒吧,DeepSeek點亮的開源之火
重燃《絲綢之路》的文明互鑒
照亮全球大模型新的進化之路!
多么優秀的中文文本能力,怎能不喜歡呢?
為什么要在此時做出非此即彼的選擇?
DeepSeek不僅屬于中國,更屬于全世界。
01
02
03
04
05
06
07
08
09
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.