網易首頁 > 網易號 > 正文申請入駐

AI創業訪談?丨心識宇宙陶芳波：用一百份筆記，復刻 AI 版的自己

2025-07-15 13:25:27　來源: 晚點LatePost

北京舉報

分享至

創造自己，分發自己。

文丨孫海寧

編輯丨王姍姍

心識宇宙（Mindverse）創始人陶芳波有一套自己的 AI 助手分類法，分類標簽都是人稱代詞：

第一類 AI 助手主攻陪伴，對應人稱代詞 her，就像電影《她》中承接主人公各種情緒的 “薩曼莎”；第二類助手負責執行具體任務，類似《鋼鐵俠》中的智能管家 “賈維斯”，對應人稱代詞 him。

心識宇宙正在做第三類 AI 助手：me。這家公司想幫用戶復制自己的 “第二自我”，構建 “身份大模型”（AI Identily Model）——一個在現有基礎模型基礎上，根據用戶數據微調的大語言模型。它的認知、偏好、價值觀和用戶個人對齊，能代表用戶和其他應用接口、AI 交互。

創業前，陶芳波一直從事 AI 研究。他在清華讀完軟件工程專業本科后，赴伊利諾伊大學香檳分校攻讀博士學位，專業方向是數據挖掘，即使用機器學習方法尋找復雜數據背后的結構。

讀博期間，陶芳波曾利用 AI 技術幫反恐機構分析恐怖組織關系網；畢業后，他先在 Facebook 挖掘社交關系；然后到阿里達摩院的神經符號實驗室，用跨學科知識建模人腦。GPT-3 上線后，他辭職成立心識宇宙。

為了讓模型更懂用戶，多數 AI 技術公司的做法是總結出用戶身份信息、個人偏好，然后把它們作為上下文輸入模型。陶芳波主張把用戶的記憶、情感、價值觀參數化，根據用戶數據微調模型。他認為如果各個用戶使用同樣的底層模型，哪怕上下文存在差別，人機對齊的效果也有限。

微調模型是參考大腦運行原理：人腦不儲備細碎的知識，而是為人物、事件創建索引，由此牽連出相關人物、事件，心識宇宙用用戶數據訓練模型前，也會先歸納、串聯數據中的關鍵信息。人腦每天白天緩存經歷，夜晚消化記憶，心識宇宙也計劃每天訓練一次身份模型。

相比多模態大模型、Agent ，陶芳波承認身份模型還不是一個已被行業內廣泛認可的方向，但在 AI 能讀能看也能聽、通過調用各種工具幫用戶完成任務的未來中，一個思維和用戶更同頻、能代替用戶主動發起任務和驗收執行結果的身份模型，也是不可或缺的。

Me.bot 是心識宇宙面向海外用戶的 App，它形態類似記事本，但能通過用戶日常記錄，逐步養成能理解、表達并代表用戶的 AI 身份模型。去年 5 月上線后，已獲得近百萬名用戶。今年三月下旬，心識宇宙團隊又發起開源項目 Second Me，公開他們的身份模型訓練方法。三周內，已經有超過一萬人在 GitHub 為 Second Me 項目打上星標，是今年 GitHub 平臺上關注度增速最快的開源項目之一。

在陶芳波的終極想象里，人人擁有身份模型，意味著現實中運行的社會網絡可以被復制到線上，不過在線上交互的 AI 不受人類打字或講話速度限制，效率更高。身份模型替代人類收發任務、相互協作，人們將會從被迫使用各種工具的狀態中解放出來。

以下是《晚點 LatePost》和陶芳波的對談。

創業重定向，從他/她到 “我”

晚點：Mindverse 第一款產品 MindOS 是一個幫用戶搭 Agent 的平臺，類似 him/her 的集合體。之后團隊怎么想到要轉型做 me 的？

陶芳波：一是因為技術成熟度。MindOS 上線是在 2023 年，Agent 技術并不成熟，直到今天 Agent 離實際幫用戶完成任務也有些距離。二是我們發現很難讓普通用戶給自己搭一個 AI Agent ，有這樣意愿的人很少，多數非 AI 工具對用戶來說已經足夠好用了。

人和自己相處是最多的。Facebook 幫每個人構筑了數字身份，成為人類世界的基礎設施，用 AI 構建數字身份效果會比 Facebook 更好——它不止能承載留言、評論，還可以主動創建新連接。

人也是自戀的。訓練一個第二自我，會有種自己變永恒的感覺。在 AI 時代，被超級智能吞噬不是一個假設，而是很多人實實在在的擔心。

晚點：所以你們做了兩個 AI 分身產品——Me.bot 封裝在產品內，開箱即用；Second Me 作為 GitHub 項目，是一個開源產品？

陶芳波：對，但我認為我們做的不是分身（avatar）而是身份（identity）。人可以有很多分身，但只會有一個身份。分身往往帶著場景屬性——一個分身去約會、另一個去購物；但身份和場景無關，是基礎設施，有各種使用可能，怎么用由用戶決定。

具體場景內，一個分身承載的信息是身份的子集。就像一個人在工作、生活場景下往往呈現兩個狀態。把所有信息一股腦放到一個場景內，反而可能不合適。

晚點：你能想到的使用場景有哪些？

陶芳波：我一下能想到的場景，包括讓 AI 身份代替我們自己去約會、去面試等等。

此外，我們在打磨一個叫 “共鳴” 的功能。比如我們兩個第一次見面，或者隔段時間重逢，并不知道對方最近發生了什么。那么手機碰一碰，身份模型一瞬間就能同步，尋找共同經歷，然后針對性地聊幾回合，為我們破冰或者敘舊找個話頭。整個同步過程只要 5 到 10 秒。

破冰之外，另一種 “共鳴” 是允許用戶每次在 Me.bot 里記錄想法時，也把想法發給其他相互匹配的身份模型，獲得具體、有深度的回復。如果用戶覺得回復有趣，還可以進一步和那些身份大模型或者大模型背后的真人交互。

除了 “共鳴”，還有一個馬上要上線的新功能叫 “Talks”，它允許用戶把身份模型寄存在一個 H5 網頁里，分發給其他人。這頁面里的身份模型能用用戶的聲線講話，也可以和打開頁面的人語音交流。

完成交流后，身份模型的所有者會收到交流紀要，總結紀要的過程是高度個性化的——你的身份模型了解有些信息你已經掌握，就不會在紀要中反復強調。

晚點：為什么 Talks 選擇用聲音傳遞信息？無論是手機還是電腦屏幕上，文字傳輸信息的效率似乎比聲音高。

陶芳波：我們覺得聲音的作用被大大低估了。一個很有意思的認知學現象是，如果有人用聲音和你交流，你的注意力會提高。比如打電話聊天會比打字聊天更專注。對用戶來說，具體、熟悉的人的聲音是有一種特殊的穿透力的。

晚點：共鳴、Talks，哪個是優先級更高的功能？

陶芳波：Talks。發生共鳴的前提是雙方都有身份模型，Talks 則是讓真人先和身份模型聊起來，能讓更多人先看到身份模型的潛力，然后變成身份模型的用戶。

晚點：你應該已經試用 Talks 一段時間了，使用過程中有什么啟發嗎？

陶芳波：“表達” 這件事情很重要、很日常，但人往往不太會表達。

我一直把自己和一名朋友的聊天記錄存在 Me.bot 里，我們認識一周年時，我讓 Me.bot 總結我和他交流中各種感受和收獲，用我的聲音生成一段 talk 發給他。

這名朋友聽了好幾遍，很感動，不斷地說我們的關系又被這段 talk 拉近了一點。其實真讓我和他坐一起，或者打電話說同樣的話，我會覺得有點肉麻，很多事情也不容易想起來。

當然 Talks 的使用場景不只是表達情感。最近我和幾個合作伙伴的腦暴交流，都是用 Talks 完成的。

晚點：可也有一種觀點認為 AI 不能代替人傳遞情感。情感反應在溝通前親自完成準備過程中，反應在溝通時磕磕絆絆、結結巴巴，甚至是笨拙的表達中。

陶芳波：Talks 不替代溝通，但能讓溝通的門檻變低。寫幾句提示詞，身份模型就能把我真實想說的東西流利地說出來，反而可以增強人和人之間的連接。

晚點：心識宇宙怎么培養用戶打開 Me.bot 記錄生活的習慣？

陶芳波：我們有個概念叫 “共生”。想讓用戶自然、無痛地用 Me.bot 記錄生活，Me.bot 就必須一邊參與用戶生活，一邊創造價值。比如 Me.bot 參加會議，我們希望它不只像錄音軟件一樣旁聽，而可以根據對用戶的理解，時不時蹦出一些想法，參與討論。

用戶每次打開 Me.bot 的時候，也應該有不同的體驗。比如早上起來，Me.bot 可以問用戶今天心情還好嗎？到了北京，問怎么來北京了？要不要幫忙找個咖啡館？

不是用戶所有的生活細節都值得記錄。一天 24 小時里，可能人們注意力集中的時候只有不到 3 小時，這段時間才是真正塑造自我的時候。如果讓 AI 把所有信息捕獲下來，包括睡覺打呼嚕的聲音，那反而會讓身份模型更困惑。

晚點：“共生” 是個很好的概念，但感覺這類交互場景下，用戶很難區分是在和 me，還是和 him/her 交流。

陶芳波：用戶和自己身份模型交互時，me 和 him / her 體驗差別不大。但如果用戶和其他 AI 交互，或者 AI 和 AI 交互時，對面是代表一個人做決策、但也有自主性的 AI 管家，還是覺得自己就是另一個人的身份模型，其實是會影響用戶或者 AI 的信息分享策略的。

人腦如何認識世界，AI 就如何向人看齊

晚點：很多 AI 產品都試圖讓模型和用戶對齊。你覺得合理的路徑是什么？

陶芳波：首先我們不能完全依賴 RAG（檢索增強生成，即允許大語言模型在生成答案前，先根據用戶的輸入，搜索相關信息補充上下文）。RAG 本質是把用戶信息做成數據庫，要什么信息，去數據庫找一找，再把找到的信息作為上下文輸入模型。

問題是一旦數據庫過大，模型不知道捕捉什么樣的信息才能代表用戶。假設你今年 30 歲，把 30 年的人生經歷匯總成上下文，那可能有好幾億 Token，處理這些信息就 4-5 秒時間，模型不一定能很好地消化。

更重要的是，RAG 方法下，所有人的底層模型是一樣，而思考靠模型完成，這意味著本質上你和我沒有區別。

人之所以為人，是因為人能把外在信息抽象、內化。類似地，讓模型與用戶對齊更合理的方式，是用用戶信息去微調模型，影響模型的參數，由此提煉出用戶數據中的情感、偏好、價值觀。

晚點：一個用全世界數據訓練出的基礎模型，至少在知識層面已經遠超一個普通用戶了。微調參數，實際上是要讓模型忘掉一些已經習得的知識，才能和用戶對齊？

陶芳波：其實人成長也是基于一個基礎模型的。人出生時，大腦不是一片空白——幾千萬年進化改變的基因序列就是人的基礎模型。只不過真人的基礎模型可能知識過少，而我們用的基礎模型可能知識過多。

微調不會讓模型百分之百忘掉習得的知識，但可以通過放大和你相關的部分、壓制不相關的部分，有效改變基礎模型的輸出結果，讓模型和用戶對齊。

當然，無論是 LoRA（低秩適應，一種不改變模型主要參數、更加高效的模型微調方法）還是別的方法，我不覺得今天微調的技術已經完美。技術會持續演進，但通過改變參數的方式訓練身份模型的大方向是不變的。

晚點：心識宇宙如何使用用戶數據訓練身份模型？

陶芳波：首先要把數據主觀化。直接把我們今天交流的錄音發給 AI，AI 只知道這是兩個人相互對話，主觀化處理是讓 AI 知道兩個人中誰是 “我”，“我” 表達了什么觀點、對方又產生了什么回應。

然后還需要重構信息。人腦記不住今天你說什么、我說什么這樣的細節信息，而是圍繞著一個人、一件事情建立索引。我們處理數據的方法也類似。比如我上傳自己和朋友之間的聊天記錄后，Me.bot 會在此基礎上提煉信息——我們的友情之前遭遇了什么挫折、之后又因為什么變得更牢固，圍繞著我的朋友串聯起更全局歷史數據。

晚點：會有什么方式量化身份模型和人的相似程度嗎？

陶芳波：可以有一個指標，但我覺得每個人是自己模型最好的裁判。

晚點：什么時候你覺得你的身份模型已經足夠像你了？

陶芳波：去年我生日時在辦公室同事面前做分享，講自己從讀博士到 Facebook 的經歷、今天如何找到了自己人生的使命。剛好同事訓練好一版我的身份模型，就也讓這個模型做生日發言，說的和我真人講的幾乎一模一樣。之后我問他 MBTI 性格測試結果，只有一個和我不一樣。

晚點：訓練一個身份模型需要多少數據？

陶芳波：一百份筆記或者一百份記錄就可以了，甚至更少。其實很多類似的數據已經存在，用戶只需要上傳就行。

晚點：人的經歷不斷增加，自我認知隨之改變。身份模型如何跟上不斷變化的用戶？

陶芳波：我們覺得每天訓練一次身份模型比較合適。人腦白天獲得很多對話、新知識，它們只是被緩存在了一個地方，沒有變成持久記憶、參數化。睡眠過程中，人腦才會處理這些數據。身份模型也該這樣，白天記載信息，晚上訓練。

晚點：訓練一次成本是多少？

陶芳波：現在我們用 70 億參數的模型，單次也就一美金不到。參數量再小，模型不夠聰明；再大，邊際回報有限。

靠身份服務收費

晚點：身份模型可以代替用戶提出需求、和其他 AI 交互。但現在承接需求、完成任務的 AI 都不是很成熟。先做提需求的身份模型，時機成熟嗎？

陶芳波：之前提到的社交、面試、約會等需求，可以直接靠身份模型完成任務，這些需求場景已經夠大了。

身份模型也不用非要面向 AI。之前互聯網公司已經創造了大量的場景，身份模型只要和它們互動起來就行。比如身份模型可以去 LinkedIn 幫你找工作。之后 Agent 能力提升了，再和 Agent 互動也順理成章。

現在我們做了一個服務器叫 Second Me Server，平臺如果希望了解用戶，就可以向 Second Me 發起請求，通過身份模型知道用戶的偏好是什么。這其實是可以無縫融入現有的互聯網生態中的。

晚點：Second Me 和互聯網平臺的互動可能是單向的——他們愿意通過 Second Me 服務器了解用戶偏好，但不一定開放接口讓身份模型幫用戶購物。

陶芳波：這是個比較現實的問題。現在海外的互聯網還相對開放，大家可以通過 API（數據接口）連接。國內就過于封閉了，一個個平臺就像一個個孤島，無法接入，大家都在搞數據壁壘。

但這種孤立的狀態肯定會在 AI 時代被打破。孤島式生態無法提供很好的用戶體驗，用戶會倒逼平臺開放的。平臺不開放，新世界就與它無關了。

晚點：你們把 Second Me 做成開源項目的價值是什么？

陶芳波：把訓練方法開源，用戶就能在本地訓練身份模型，然后把它接入互聯網，可以解決用戶使用個人數據的心理壁壘。另外也有成本方面的考慮。如果我們有 100 萬個用戶，就得訓練 100 萬個模型，服務器成本、存儲成本是無法想象的。開源之后，更多身份模型的用法其實也來自開源社區。

晚點：這個開源項目的參與度如何？

陶芳波：GitHub 上有很多人關注，官方也在今年 4 月寫文章說 Second Me 是當時全站 Top 10 的項目。我們在三個星期內得到超過一萬個 star（類似用戶收藏），今年大概只有不到 20 個項目有這樣的增速。

有開發者看到我們項目后，花 7 萬塊錢買一臺 Mac Studio，就為了在本地訓練一版更強的自己。有用戶用跨時幾年、數百萬字的日記訓練出一個 AI 自我，把自己變永恒。

晚點：身份模型如何商業化？

陶芳波：現在我們想得還不是很充分。核心思路是我們作為身份服務的提供者，可以向用戶收費。另一種可能是，要是淘寶、抖音等平臺未來通過我們的身份模型了解用戶偏好、賣廣告，我們也可以向這些平臺收費。

晚點：構建身份模型時，已經有大量用戶數據的微信、抖音，或者理論上能記錄用戶一切操作的手機廠商，是不是做起來更快？

陶芳波：從數據的角度看肯定如此。但我們今天賭的是大公司內部創新的阻力。身份模型的早期使用者只會是一小群人，大廠不太可能為 1% 的用戶專門改變產品，因為影響剩下 99% 的用戶體驗的風險太高。淘寶要是抱著擁抱 AI 購物的念頭把整個應用界面都改了，只允許用戶和 AI 聊天購物，拼多多不得樂壞了？

晚點：身份模型之間可以交互，越多人用越好用，像一個傳統互聯網產品。Mindverse 有什么加速用戶增長的好辦法嗎？

陶芳波：買量不可持續，還是要靠口碑。口碑一是靠創造感，讓用戶覺得 “自己” 被創造出來；二是靠連接體驗，讓用戶能在產品上獲得高質量的連接。把這兩者做到極致，我覺得自然有好增長。

晚點：如果所有人都有一個身份模型，會對社會有什么影響？

陶芳波：人人都有身份模型、AI 接替一部分人們相互交互的工作，相當于存在于現實中的社會網絡有了一個線上復制版，復制版的效率會比原版高很多。

互聯網工具越來越多、越來越強大后，人反而成了工具的接口——微信、飛書、釘釘一個個隨時待命，等待被調用的人。用一個身份模型代替人成為這些工具的接口，個體就能被解放出來。

題圖：《編號 17》

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.