大家好,我是很帥的狐貍
最近玩了一波DeepSeek?R1等推理模型,竟然發現它們有潛力顛覆我們的溝通、工作、甚至投資的方式——
今天我打算跟大家嘮嘮,如何高效駕馭R1這類模型,同時讓它們啟發我們在工作、溝通和投資上的新思維。
貼士1:寫郵件而不是寫微信
前陣子,一個創業的朋友跟我吐槽:員工老是一通微信轟炸,信息沒頭沒尾,重點模糊。
她跟我一樣,曾在外企/專業服務機構混過,郵件溝通那種條理和儀式感讓人舒服。
而現實中,大部分打工人還是習慣用微信/飛書/釘釘——
據2017年企鵝智庫對2萬人的調研,80%+的人用微信辦公,而用郵件的卻只有22.6%。
這也造就了我們短平快、高頻的溝通習慣。
這種溝通的單次信息密度很低,很像我們之前跟GPT-4o/豆包/Kimi們的對話——
你給了點背景知識,讓AI出個方案或圖表,它立馬就有輸出。
如果有哪里不滿意,就讓它一遍遍改,改到咱滿意為止。
而DeepSeek-R1等推理模型要是也這么「對話式交互」的話,效率就大打折扣了——
每次提問都要深度思考,哪怕問個「2022年中國GDP是多少」,也得等上16秒。
所以針對R1等推理模型,更適合的做法是更清晰的「郵件式交互」。
我們需要在長郵件中,把你要完成的任務描述得盡可能清楚。
截圖/swyx via Latent.Space
翻譯&制圖/ChatGPT,很帥的投資客
前幾天我看了技術播客Latent.Space的一期節目《o1不是一個聊天模型(o1 isn’t a chat model)》(OpenAI的o1是第一個會深度思考的推理模型)。
播客節目里頭介紹了一種o1的提問模板——
目標:你的目標是什么?
格式:你期待的是什么交付格式?
注意要點:解決過程中有哪些坑是必須避開的?
背景信息:所有你認為可能會影響答案的背景都得給上!
截圖/Latent.Space
順帶一提,根據OpenAI官方的提示詞指導,如果給提問加上XML標簽會提高表現。
比如可以這么提問——
<目標> 給我推薦5個可以穩健增值財富的資產類別,并幫我分配好投資比例。 <格式> 請以通俗易懂的語言、以表格的形式給到我方案。 <注意要點> 我希望可以不影響目前的生活水平。 <背景信息> 目前我是一個生活在中國的單親媽媽,我手頭上有100萬人民幣,每個月收入1萬人民幣、支出9千人民幣,是個什么都不懂的理財小白,我的風險偏好很低。投資周期我希望可以在10年內,因為10年后我想把這筆錢留給女兒。
「郵件式交互」的溝通方式也適用于同事間的溝通(即使仍是在微信/釘釘/飛書上)——
畢竟AI任勞任怨可以24小時隨時回復,但對其他同事也一來一回地「對話式交互」的話,那對方的工作會被頻頻打斷。
貼士2:不要光思考
o1和R1等推理模型有一個先天缺陷——腦補能力過強。
推理模型很擅長的是「自包含問題」,比如數學、代碼之類的理工科題目——題面里所有已知條件都有了,它只要負責思考就可以了。
但如果我們的問題還需要很多額外的背景知識,最好一次性都丟給它。
伯克利的Alejandro Cuadron等人在論文《過度思考的危險》(The Danger of Overthinking)里,把這個缺陷稱為「推理-行動兩難」——
他們讓各個模型去嘗試解決真實世界的代碼問題(SWE-Bench測試集)。
要解決這些真實存在的代碼問題,需要去搜集背景信息(比如看整個程序的所有相關代碼,比如去閱讀各個庫的說明文檔等等)。
而現實世界的問題,不是「已知XXX,求XXX」,很多信息需要自己去找。
而測試下來,推理模型會自己腦補各種背景信息,所以往往無法順利解決真實世界的問題(因為腦補的信息跟真實需求對不上)。
所以就跟人類閉門造車一樣,AI想得越多,表現越差。
截圖/The Danger of Overthinking
備注/橫軸為「過度思考分」,縱軸為「解決問題的比例」
換句話說,當你跟推理模型溝通時,如果不想它不受控地腦補,就把該給的所有背景信息都給到。
一個有意思的做法,是先用手機錄音,碎碎念所有的背景信息,然后再把語音轉文字,跟指令一起發給AI。
這有點像我們對待公司的新人——
可能會花一整個下午的時間,跟TA碎碎念公司做的業務、過各種數字……
而反過來,當我們融入一個新環境、接受一份新工作、迎接一個新客戶時,在開始工作前,一定要盡可能地先搜集自己需要知道的各種背景信息。
貼士3:重結果而不是重過程
以前我在麥肯錫的時候,有些領導會吐槽我「陽奉陰違」——
他們會比較micro-manage,會給我一套「標準流程」,讓我照做。
而我總是秉承「只要結果一樣work,怎么做不是很重要」的心態,用自己的方法把工作給做了。
類似的,我之前在某Fintech公司時,同事來自各行各業——有的之前在互聯網大廠,有的之前在金融機構,有的之前在快消公司……
每個人的工作方式都非常不一樣。
如果限制他們,要求只能咨詢公司的工作方法,那影響產出效率是一方面,另一方面也不能發揮每個人的專長。
類似的,當我們讓DeepSeek-R1等推理模型工作時,最好也把提問聚焦在「我要的結果是什么」上。
至于「如何實現我要的結果」,咱不用過度干預。
使用以前的GPT模型時,我們會習慣說「現在你是一個資深的基金經理」之類的提示詞,這個提示詞現在放在R1或o1上,效果反而不一定有以前好。
貼士4:需重視數據和事實的驗證
這一點主要是為了應對R1比較嚴重的「幻覺問題」。
所謂「幻覺」,也就是AI「一本正經地胡說八道」。
比如虎嗅就提到,讓DeepSeek制定成都游玩攻略時,它推薦了在杜甫草堂旁邊的「川納萬?!箍Х瑞^,不過實際上這家咖啡館距離杜甫草堂8.8公里。
R1的幻覺有多嚴重呢?
根據休斯幻覺評估模型(HHEM)的評測,R1的幻覺率高達14.3%。
這個幻覺評估測試,主要是讓模型對文本進行總結摘要。
有時候我讓R1總結一些PDF報告,它也會說出一些報告里頭沒有的細節。
這跟R1的訓練過程有關——
R1在訓練理工科題目時,因為大多有標準答案,所以幻覺不嚴重。
但R1在訓練文科題目時(寫作/事實問答/自我認知/翻譯),用的是V3模型的監督微調數據,也會讓V3模型來生成一些數據。
目前看來,V3模型會鼓勵創造性多一點。
但過度創造就是「編造」了,所以如果用R1來做報告的話,查證事實方面要下點功夫。
類比投資,我們平時在各個社群會接收到大量未經驗證的「小作文」。
只是盯著小作文進行投資,很容易就成了那個幫人抬轎子的工具人。
所以收集數據和信息時,千萬要重視數據和事實的查證。
不然你的結論可能與事實相距甚遠。
再多說幾句投資——
就像美銀說的,DeepSeek是中概股的「阿里IPO時刻」——2014年阿里上市帶動了中國「新經濟」板塊的崛起,吸引了全球長期資本的流入。
前幾天看到華創證券還特意寫了份報告,統計了ETF中的DeepSeek含量。
一級行業里頭,像是計算機ETF南方(159586)追蹤的指數就覆蓋了最多DeepSeek概念股(47/90)。
寬基方面,像是科創50ETF南方(588150)追蹤的指數也覆蓋了19.8%,接下來是159780追蹤的科創創業50(占比11.1%)和530580追蹤的上證180(占比8.1%)。
有意思的是,微信接入DeepSeek后,甚至連騰訊也被當成DeepSeek概念股了。
今天刷雪球,也看到有人在困惑:同是接入DeepSeek,為啥騰訊漲了百度卻跌了?
答案也很簡單——
其實百模大戰里,到尾聲的時候,大模型能力已經沒那么重要了(同質化很嚴重)。
就像Google之前對自己和OpenAI的評價——「我們沒有護城河,OpenAI也沒有。」
哪個大模型更好用,用戶就會切換過去,而且并沒有什么切換成本。
就算是Agent也是一樣的——如果現在有比Perplexity和Cursor更好用的產品,那我也會瞬間切換過去。
在這個階段,反而是場景和數據更重要。
像馬化騰說的,工業革命早一個月把電燈泡拿出來,在長的時間跨度上來看是不那么重要,關鍵要把底層算法、算力和數據扎扎實實做好,而且更關鍵的是場景落地。
場景的機會,目前的坑都被大廠給占了,別人暫時也搶不走。
就像我 說的,當你的「AI+」場景帶來的價值增量,并沒有高于遷移成本時,用戶寧愿坐等現有APP廠商,看看過幾個月它們能不能迭代出AI能力。
而微信擁有大量的公眾號文章數據,在信息檢索效率方面比錯失了移動端機會的百度還是甩了幾條街的。
類似的還有小紅書和B站。
而且信息搜索本身是百度的基本盤,本來大家還指望著它靠文心一言等AI產品逆風翻盤,現在相當于這個故事也講不通了。
P.S.更及時全面的資訊,可以看看我們的另一個公號——
「Greed is good.」
「很帥的投資客」的所有內容皆僅以傳遞知識與金融教育為目的,不構成任何投資建議。一切請以最新文章為準。
AI用法大全:《》
AI數據分析:《》
? 圖文/@狐貍君raphael,曾供職于麥肯錫金融機構組,也在 Google 和 VC 打過雜。華爾街見聞、36氪、新浪財經、南方周末、Linkedin等媒體專欄作者,著有暢銷書《風口上的豬》《無現金時代》。
參考資料/
《Google “We Have No Moat, And Neither Does OpenAI” – SemiAnalysis》《逐浪AIGC丨騰訊大模型緣何慢半步?“混元”主打應用 - 21財經》《#DeepSeek出... - @投中網的微博 - 微博》《基于GitHub的大模型能力評估數據集:SWE-BENCH - 知乎》《ETF中的DeepSeek含量|ETF_新浪財經_新浪網》《DeepSeek R1 之后,重新理解推理模型》《o1 不能用來 code 和 chat,那可以做什么》《AI應用的前提,是解決DeepSeek的幻覺問題》《HHEM Leaderboard - a Hugging Face Space by vectara》《Reasoning with o1 - DeepLearning.AI》《o1 isn’t a chat model (and that’s the point)》《The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks》《DeepSeek-R1超高幻覺率解析:為何大模型總“胡說八道”?- 華爾街見聞》《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》《2017 WECHAT USER AND BUSINESS ECOSYSTEM REPORT》《比起微信,西方人為何更喜歡用郵件溝通工作?|界面新聞》
覺得對你有用的話,幫我點個在看吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.