網易首頁 > 網易號 > 正文申請入駐

聰明人用DeepSeek的正確姿勢

2025-02-18 11:08:15　來源: 很帥的投資客

北京舉報

分享至

大家好，我是很帥的狐貍

最近玩了一波DeepSeek?R1等推理模型，竟然發現它們有潛力顛覆我們的溝通、工作、甚至投資的方式——

今天我打算跟大家嘮嘮，如何高效駕馭R1這類模型，同時讓它們啟發我們在工作、溝通和投資上的新思維。

貼士1：寫郵件而不是寫微信

前陣子，一個創業的朋友跟我吐槽：員工老是一通微信轟炸，信息沒頭沒尾，重點模糊。

她跟我一樣，曾在外企/專業服務機構混過，郵件溝通那種條理和儀式感讓人舒服。

而現實中，大部分打工人還是習慣用微信/飛書/釘釘——

據2017年企鵝智庫對2萬人的調研，80%+的人用微信辦公，而用郵件的卻只有22.6%。

這也造就了我們短平快、高頻的溝通習慣。

這種溝通的單次信息密度很低，很像我們之前跟GPT-4o/豆包/Kimi們的對話——

你給了點背景知識，讓AI出個方案或圖表，它立馬就有輸出。

如果有哪里不滿意，就讓它一遍遍改，改到咱滿意為止。

而DeepSeek-R1等推理模型要是也這么「對話式交互」的話，效率就大打折扣了——

每次提問都要深度思考，哪怕問個「2022年中國GDP是多少」，也得等上16秒。

所以針對R1等推理模型，更適合的做法是更清晰的「郵件式交互」。

我們需要在長郵件中，把你要完成的任務描述得盡可能清楚。

截圖/swyx via Latent.Space

翻譯&制圖/ChatGPT，很帥的投資客

前幾天我看了技術播客Latent.Space的一期節目《o1不是一個聊天模型（o1 isn’t a chat model）》（OpenAI的o1是第一個會深度思考的推理模型）。

播客節目里頭介紹了一種o1的提問模板——

目標：你的目標是什么？
格式：你期待的是什么交付格式？
注意要點：解決過程中有哪些坑是必須避開的？
背景信息：所有你認為可能會影響答案的背景都得給上！

截圖/Latent.Space

順帶一提，根據OpenAI官方的提示詞指導，如果給提問加上XML標簽會提高表現。

比如可以這么提問——

<目標> 給我推薦5個可以穩健增值財富的資產類別，并幫我分配好投資比例。 <格式> 請以通俗易懂的語言、以表格的形式給到我方案。 <注意要點> 我希望可以不影響目前的生活水平。 <背景信息> 目前我是一個生活在中國的單親媽媽，我手頭上有100萬人民幣，每個月收入1萬人民幣、支出9千人民幣，是個什么都不懂的理財小白，我的風險偏好很低。投資周期我希望可以在10年內，因為10年后我想把這筆錢留給女兒。

「郵件式交互」的溝通方式也適用于同事間的溝通（即使仍是在微信/釘釘/飛書上）——

畢竟AI任勞任怨可以24小時隨時回復，但對其他同事也一來一回地「對話式交互」的話，那對方的工作會被頻頻打斷。

貼士2：不要光思考

o1和R1等推理模型有一個先天缺陷——腦補能力過強。

推理模型很擅長的是「自包含問題」，比如數學、代碼之類的理工科題目——題面里所有已知條件都有了，它只要負責思考就可以了。

但如果我們的問題還需要很多額外的背景知識，最好一次性都丟給它。

伯克利的Alejandro Cuadron等人在論文《過度思考的危險》（The Danger of Overthinking）里，把這個缺陷稱為「推理-行動兩難」——

他們讓各個模型去嘗試解決真實世界的代碼問題（SWE-Bench測試集）。

要解決這些真實存在的代碼問題，需要去搜集背景信息（比如看整個程序的所有相關代碼，比如去閱讀各個庫的說明文檔等等）。

而現實世界的問題，不是「已知XXX，求XXX」，很多信息需要自己去找。

而測試下來，推理模型會自己腦補各種背景信息，所以往往無法順利解決真實世界的問題（因為腦補的信息跟真實需求對不上）。

所以就跟人類閉門造車一樣，AI想得越多，表現越差。

截圖/The Danger of Overthinking

備注/橫軸為「過度思考分」，縱軸為「解決問題的比例」

換句話說，當你跟推理模型溝通時，如果不想它不受控地腦補，就把該給的所有背景信息都給到。

一個有意思的做法，是先用手機錄音，碎碎念所有的背景信息，然后再把語音轉文字，跟指令一起發給AI。

這有點像我們對待公司的新人——

可能會花一整個下午的時間，跟TA碎碎念公司做的業務、過各種數字……

而反過來，當我們融入一個新環境、接受一份新工作、迎接一個新客戶時，在開始工作前，一定要盡可能地先搜集自己需要知道的各種背景信息。

貼士3：重結果而不是重過程

以前我在麥肯錫的時候，有些領導會吐槽我「陽奉陰違」——

他們會比較micro-manage，會給我一套「標準流程」，讓我照做。

而我總是秉承「只要結果一樣work，怎么做不是很重要」的心態，用自己的方法把工作給做了。

類似的，我之前在某Fintech公司時，同事來自各行各業——有的之前在互聯網大廠，有的之前在金融機構，有的之前在快消公司……

每個人的工作方式都非常不一樣。

如果限制他們，要求只能咨詢公司的工作方法，那影響產出效率是一方面，另一方面也不能發揮每個人的專長。

類似的，當我們讓DeepSeek-R1等推理模型工作時，最好也把提問聚焦在「我要的結果是什么」上。

至于「如何實現我要的結果」，咱不用過度干預。

使用以前的GPT模型時，我們會習慣說「現在你是一個資深的基金經理」之類的提示詞，這個提示詞現在放在R1或o1上，效果反而不一定有以前好。

貼士4：需重視數據和事實的驗證

這一點主要是為了應對R1比較嚴重的「幻覺問題」。

所謂「幻覺」，也就是AI「一本正經地胡說八道」。

比如虎嗅就提到，讓DeepSeek制定成都游玩攻略時，它推薦了在杜甫草堂旁邊的「川納萬?！箍Х瑞^，不過實際上這家咖啡館距離杜甫草堂8.8公里。

R1的幻覺有多嚴重呢？

根據休斯幻覺評估模型（HHEM）的評測，R1的幻覺率高達14.3%。

這個幻覺評估測試，主要是讓模型對文本進行總結摘要。

有時候我讓R1總結一些PDF報告，它也會說出一些報告里頭沒有的細節。

這跟R1的訓練過程有關——

R1在訓練理工科題目時，因為大多有標準答案，所以幻覺不嚴重。

但R1在訓練文科題目時（寫作/事實問答/自我認知/翻譯），用的是V3模型的監督微調數據，也會讓V3模型來生成一些數據。

目前看來，V3模型會鼓勵創造性多一點。

但過度創造就是「編造」了，所以如果用R1來做報告的話，查證事實方面要下點功夫。

類比投資，我們平時在各個社群會接收到大量未經驗證的「小作文」。

只是盯著小作文進行投資，很容易就成了那個幫人抬轎子的工具人。

所以收集數據和信息時，千萬要重視數據和事實的查證。

不然你的結論可能與事實相距甚遠。

再多說幾句投資——

就像美銀說的，DeepSeek是中概股的「阿里IPO時刻」——2014年阿里上市帶動了中國「新經濟」板塊的崛起，吸引了全球長期資本的流入。

前幾天看到華創證券還特意寫了份報告，統計了ETF中的DeepSeek含量。

一級行業里頭，像是計算機ETF南方（159586）追蹤的指數就覆蓋了最多DeepSeek概念股（47/90）。

寬基方面，像是科創50ETF南方（588150）追蹤的指數也覆蓋了19.8%，接下來是159780追蹤的科創創業50（占比11.1%）和530580追蹤的上證180（占比8.1%）。

有意思的是，微信接入DeepSeek后，甚至連騰訊也被當成DeepSeek概念股了。

今天刷雪球，也看到有人在困惑：同是接入DeepSeek，為啥騰訊漲了百度卻跌了？

答案也很簡單——

其實百模大戰里，到尾聲的時候，大模型能力已經沒那么重要了（同質化很嚴重）。

就像Google之前對自己和OpenAI的評價——「我們沒有護城河，OpenAI也沒有。」

哪個大模型更好用，用戶就會切換過去，而且并沒有什么切換成本。

就算是Agent也是一樣的——如果現在有比Perplexity和Cursor更好用的產品，那我也會瞬間切換過去。

在這個階段，反而是場景和數據更重要。

像馬化騰說的，工業革命早一個月把電燈泡拿出來，在長的時間跨度上來看是不那么重要，關鍵要把底層算法、算力和數據扎扎實實做好，而且更關鍵的是場景落地。

場景的機會，目前的坑都被大廠給占了，別人暫時也搶不走。

就像我說的，當你的「AI+」場景帶來的價值增量，并沒有高于遷移成本時，用戶寧愿坐等現有APP廠商，看看過幾個月它們能不能迭代出AI能力。

而微信擁有大量的公眾號文章數據，在信息檢索效率方面比錯失了移動端機會的百度還是甩了幾條街的。

類似的還有小紅書和B站。

而且信息搜索本身是百度的基本盤，本來大家還指望著它靠文心一言等AI產品逆風翻盤，現在相當于這個故事也講不通了。

P.S.更及時全面的資訊，可以看看我們的另一個公號——

「Greed is good.」

「很帥的投資客」的所有內容皆僅以傳遞知識與金融教育為目的，不構成任何投資建議。一切請以最新文章為準。

AI用法大全：《》
AI數據分析：《》

? 圖文/@狐貍君raphael，曾供職于麥肯錫金融機構組，也在 Google 和 VC 打過雜。華爾街見聞、36氪、新浪財經、南方周末、Linkedin等媒體專欄作者，著有暢銷書《風口上的豬》《無現金時代》。

參考資料/

《Google “We Have No Moat, And Neither Does OpenAI” – SemiAnalysis》《逐浪AIGC丨騰訊大模型緣何慢半步？“混元”主打應用 - 21財經》《#DeepSeek出... - @投中網的微博 - 微博》《基于GitHub的大模型能力評估數據集：SWE-BENCH - 知乎》《ETF中的DeepSeek含量|ETF_新浪財經_新浪網》《DeepSeek R1 之后，重新理解推理模型》《o1 不能用來 code 和 chat，那可以做什么》《AI應用的前提，是解決DeepSeek的幻覺問題》《HHEM Leaderboard - a Hugging Face Space by vectara》《Reasoning with o1 - DeepLearning.AI》《o1 isn’t a chat model (and that’s the point)》《The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks》《DeepSeek-R1超高幻覺率解析：為何大模型總“胡說八道”？- 華爾街見聞》《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》《2017 WECHAT USER AND BUSINESS ECOSYSTEM REPORT》《比起微信，西方人為何更喜歡用郵件溝通工作？|界面新聞》

覺得對你有用的話，幫我點個在看吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.