99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Harvey:ARR 1億美元、估值30億,用Agent思路解決法律場景AI落地難題

0
分享至

Harvey 絕對是法律場景落地最成功的 AI 企業了。

成立于 2022 年,客戶數量從 2023 年的 40 家增長到 2024 年的 235 家,遍布 42 個國家;在美國《法律周刊》評選的前 100 家律所中,有 28 家正在使用 Harvey。

2024 年 ARR 達到 5000 萬美元,今年年初預計 8 個月內將達到 1 億美元,2 月份拿到了紅杉資本領投的 3 億美元 D 輪融資,公司估值達到 30 億美元簡單說的話,Harvey 現在的收入與 AI 搜索當紅炸子雞 Perplexity 相當。

在前不久中,Harvey 是法律領域上榜的為數不多的公司之一。Harvey 目前已經能夠實現自動處理從文件審查到客戶溝通的整個法律流程,幾乎能替代一整個初級律師團隊。

近段時間,Harvey 的創始人兼 CEO Winston Weinberg 以及產品負責人 Aatish Nayak 接受了多家播客節目的訪談,在訪談節目中,兩人詳細地分享了包括 Harvey 的頂層戰略方向設計、法律類 AI 產品如何實現商業化落地、法律類 Agentic workflow 的構建以及對于近期熱門的推理模型如何應用等經驗。

本篇文章由 A16Z、Sequoia、No Priors 的三期播客節目內容整合而來。

TLDR

  • 在法律領域,「幻覺」在法律領域絕不能被視為一種「特性」,準確性是法律工作的基石,任何不準確的信息都可能導致嚴重的后果。Harvey 的目標是竭盡全力去最大限度地減少直至消除「幻覺」。

  • Harvey 給用戶的感覺更像是一個同事,而不僅只是一個人工智能工具或軟件,Aatish Nayak 希望它能像人一樣進行互動,能夠提供更多獨特的、來回引導式的交互體驗,而不是僅僅停留在文本指令的交流模式。

  • 法律行業本身極其復雜,也是關鍵所在。對 GPT 「套殼」公司的最大誤解在于,大家低估了基礎模型與行業需求之間的距離。Harvey 早期的核心競爭力是「引用能力」,逐行引用并確保引用的精確性,在法律工作中至關重要。從本質上講,Harvey 更像是一個智能協作系統或復合人工智能系統,其運作模式模仿了律師事務所內部的工作方式。

  • 在市場推廣方面,Harvey 選擇了先瞄準大型律師事務所,再向下滲透至整個行業的思路。Harvey 認為,在專業服務領域,聲望和信任至關重要。一旦贏得其中幾家事務所的信任,其他事務所、下游律所及其客戶也會隨之建立信任。

  • 對于企業客戶的敏感數據處理,Harvey 有極其嚴格的「禁止訓練」政策,稱為「不接觸」原則(eyes-off policy)。默認情況下,Harvey 對所有文件的處理操作要求,都明確規定絕不能利用客戶的數據進行訓練。同時,Harvey 的員工也無權查看這些客戶數據。

Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~

進群之后,你有機會得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發交流;

  • 資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;

  • 好用、有趣的產品/案例,Founder Park 會主動做宣傳。

01

不是 GPT 套殼,

而是法律行業的「AI 操作系統」

主持人你在 2022 年 7 月創業,當時ChatGPT尚未問世,這一領域幾乎不存在。ChatGPT 一出現,有人認為你們的產品只是基礎模型的「GPT wrapper」(GPT 套殼),毫無價值,是什么讓你堅信這是一個值得投資的業務?如何在基礎模型與客戶之間創造真正的價值?

Winston Weinberg:法律行業本身極其復雜,這是關鍵所在。對 GPT 「套殼」公司的最大誤解在于,大家低估了基礎模型與行業需求之間的距離。我們早期的核心競爭力就是「引用能力」:逐行引用并確保引用的精確性,這在法律工作中至關重要。(注:這里的「引用能力」是指在法律文本中,AI 能夠準確溯源其生成內容是基于原文的哪一部分)

從一開始,我們就將大量資源投入到這一功能上。如果只做「引用工具」,確實難免淪為 GPT 的「套殼」,最終被市場淘汰。但我們的目標是與行業深度協作,推動這個萬億美元市場的系統性變革。法律領域數據繁雜、流程高度專業化,僅靠模型本身無法實現全面自動化。

基礎模型在不斷進步,能為行業提供強大引擎,但它們只能替代流程中的某些環節。每當有新功能出現,我們會將其融入到我們自己產品已有的流程當中。以 OpenAI 發布的 Deep Research 為例:它大幅提升了資本市場研究和大規模數據分析的效率,雖然目前無法覆蓋律師的全部工作,但完全可作為百余步驟流程中的重要一環。當基礎模型能力增強或出現新功能時,相當于為我們解鎖了新的市場機會和可構建的流程模塊。

主持人:長期以來,在硅谷圈內普遍認為,向律師事務所或專業服務機構銷售產品并非最具前景的領域,原因在于這些機構歷來對新技術采納較為緩慢。很多人覺得,它們的計費模式與提高效率或采納新技術似乎不太契合。我很好奇,Harvey 對此怎么看?

Aatish Nayak:從產品和人工智能研發層面來講,我們會讓律師團隊深度參與其中。我們設立了專門的法律研究部門,該部門與產品經理和人工智能工程師緊密協作。他們的核心任務是將復雜的法律工作流程轉化為可執行的算法。

從本質上講,Harvey 更像是一個智能協作系統或復合人工智能系統,其運作模式模仿了律師事務所內部的工作方式。在律所里,如果一位合伙人承接了一個交易或訴訟項目,他會將其分解成若干子任務,可能分配給初級合伙人,初級合伙人再進一步細化,交由律師助理執行。隨后,由于律所是層級分明的組織結構,律師助理完成的工作會提交給上級進行審核和校對,最終由合伙人向客戶交付最終成果。我們的律師團隊與工程師合作,正是為了在不同類型的任務中復制這種分層協作模式,通過實際的「白板討論」,將不同的工作流程細致地梳理和展現出來,以便人工智能工程師能夠將其轉化為可執行的模型。

主持人:您提到這些不同的智能工作流程,您認為這些流程會取代人們之前所做的工作嗎?還是說您更傾向于將其視為AI輔助模式,或者是一種新型的人機協作模式?

Aatish Nayak:我認為將其僅僅視為「取代」或「輔助」可能有些片面。從宏觀上看,法律領域異常復雜,并且這種復雜性還在不斷增加,坦白說,在該領域開展工作的成本也持續攀升。全球化、互聯網以及人工智能等因素,在過去幾十年里極大地增加了法律工作的總量。因此,對于法律服務的需求幾乎是無限的,因為企業需要處理各種交易、應對復雜關系等等。需求無限,而供給卻非常有限,這種供給瓶頸導致了一個不幸的人力成本問題:律師們往往需要長時間工作,而且常常要處理一些非常重復枯燥的任務。

我們與招聘的律師以及客戶交流時發現,他們之所以選擇成為律師,并非是為了反復修改同一份文件的第五稿,或是重復解答相同的法律研究問題。他們更希望成為律師是希望能夠創造性地運用法律知識,提供專業的法律意見,參與塑造社會的法律框架。我們經常從客戶那里聽到一些積極反饋,比如 Harvey 能夠為他們節省 30%到 40%的時間,因為它確實幫助他們實現了那些基礎性、重復性工作的自動化。實際上,前幾天有一位客戶告訴我,Harvey 讓他們能夠按時下班回家陪伴家人,因為它顯著加快了許多工作的進度。需求無限而供給有限,恰恰為人工智能在這個領域發揮關鍵作用提供了廣闊空間。

02

把 Harvey 當同事,

像人一樣互動

主持人:你們在打造AI法律產品方面的理念是什么?擁有客戶資源是優勢,但當前技術變化飛快,幾乎每月都有新模型出現。想要在這樣一個快速發展的基礎上構建穩定產品,挑戰應該不小。

Aatish Nayak:是的,這里涉及到幾個方面。我們經常被問及,如何在兼顧律師現有工作流程和界面的基礎上,探索全新的人工智能原生用戶體驗。我覺得有必要強調一點,目前并沒有專門為律師設計的集成開發環境(IDE),不像開發者有 VS Code 或 Cursor 這樣的工具。律師最常用的工具依然是 Word 和電子郵件,也就是 Outlook。我們的產品需要在這些現有工具中進行交互。但歸根結底,我們別無選擇,只能在這些現有工具或軟件基礎上進行開發,因為確實沒有其他成熟的基礎設施可用。因此,我們選擇了構建AINative 的用戶體驗和應用程序。

主持人:AINative 的用戶體驗具體指什么?

Aatish Nayak:我認為,最核心原則之一,是我們希望 Harvey 給用戶的感覺更像是一個同事,而非僅僅是一個人工智能工具或軟件,我們希望它能像人一樣進行互動。

如果你在律師事務所或企業中與某人合作,通常需要與他們進行反復的交流和溝通,根據需求向他們提供更多信息。打個比方,我找到一個人,說:「嘿,你能幫我起草這份一對一的披露文件嗎?」如果他是一位優秀的同事,他會問你:「嘿,我需要更多信息,你能告訴我信息來源是什么?格式和語氣有什么要求?我們具體在處理什么交易?」然后,他可能會先起草一份文件,并問:「嘿,你能幫我檢查一下我的工作嗎?我的方向對嗎?」這就是我們希望 Harvey 帶來的體驗,即通過這樣的來回溝通和協作,引導你逐步完成工作。

主持人:那它的界面仍然是聊天機器人的形式嗎?用戶實際操作的界面到底是什么樣的?

Aatish Nayak:它確實有點像聊天界面,但會融入一些動態的用戶界面組件。我們在這里考慮的另一個重要原則是「宜家效應」。這個效應的核心觀點是,如果人們參與了某件事情的構建過程,他們會對自己的成果產生更強的責任感和認同感。宜家在這方面做得非常成功,他們將組裝家具的過程設計得既有趣又令人愉悅,在說明書等方面投入了大量精力。過去,人們對親手組裝宜家家具有著近乎狂熱的喜愛,形成了一種獨特的社群文化,盡管現在可能沒那么夸張了。

對于我們而言也是一樣,你不可能指望用 0.1 版本的模型一次性就完美的起草一份 S1 文件,實際的法律工作需要大量的反復修改和溝通,過程非常復雜。這涉及到人類獨有的數據集,如果我們只是簡單地說「嘿,起草這份披露時間表」,然后 Harvey 直接給出了最終結果,用戶是不會完全信任的,因為他們不清楚內容的生成邏輯和來源。所以,我們希望融入一些提示機制,我們稱之為「輕拍提醒」(Harvey 中用來引導用戶提供信息的機制),讓 Harvey 在給出最終結果之前,主動請求用戶的反饋、數據和意圖信息。

主持人:如果我是一名律師,實際使用中的場景會是怎樣的?很多 Agent 類產品在工作時會展示它正在進行的操作,但在過程中會有一些等待時間。律師會收到類似「回來一下,我有問題」這樣的通知嗎?如何將這個過程融入日常工作流程,而不是需要用戶持續盯著屏幕?

Aatish Nayak:對于我們的用戶群體和產品特性而言,一個有趣的現象是,我們對響應速度的要求并非極致。我認為對于很多聊天產品或新興的消費級人工智能應用,大多數用戶都期待即時反饋。但由于我們產品的輸出質量非常高,能夠生成接近人類水平的成果,所以用戶愿意等待兩分鐘、三分鐘甚至四分鐘來獲取結果。正是因為用戶能夠接受等待,這使我們有空間在每次處理過程中融入更多智能處理環節,進行更多的模型調用和復雜的算法運算,對此用戶可以接受并愿意等待。我們正在引入異步的 Agent,當任務完成時,它會通過電子郵件或提醒的方式通知用戶。所以,延遲對我們來說并不是一個嚴重的問題,這為我們的工作提供了很大的靈活性,只要 Agent 對其工作過程保持一定的透明度,而不是無緣無故地長時間運行,我認為這對于我們的用戶群體來說是完全可行的。

主持人:我們現在是否已經明確知道最佳的AI原生用戶界面或用戶體驗應該是什么樣的?如果答案是肯定的,我想了解是什么樣的?如果答案是否定的,您認為目前正在進行哪些實驗?或者還有哪些工作流程是人們尚未完全理清的?

Aatish Nayak:我認為答案是否定的。我認為目前的聊天界面相當于人工智能的「命令行」階段,就像當年微軟的 MS-DOS 剛出現時,用戶只能通過在終端輸入指令來操作。我們現在的 AI 用戶界面方面也處于類似的早期階段。我期待在 2025 年,我們能夠看到更多創新的交互方式,有更多動態的用戶體驗來與模型進行互動,而不僅僅局限于文本交流。

首先,我認為人們必須認識到,大多數用戶(包括我們的用戶),他們的查詢或指令往往不夠精確。有趣的是,人們對人工智能已經產生了很強的依賴,他們甚至認為人工智能是無所不知的。舉例來說,我們收到過不少支持請求,用戶會說「去我的郵箱里搜索那個東西,然后把結果給我」,或者「嘿,你還記得我上次說的那件事嗎?用那個信息來得出答案」。我覺得這既需要對用戶進行教育引導,另一方面也人工智能也確實需要更好地與用戶協作,主動從用戶那里獲取準確的意圖信息,而不是僅僅依賴一次性的指令來完全理解用戶需求。我希望看到 Agent 能夠提供更多獨特的、來回引導式的交互體驗,而不是僅僅停留在文本指令的交流模式。

我認為對于企業級應用而言,實際上客戶更需要這種 AI 原生的、深度集成的用戶體驗,因為企業的工作流程非常復雜和專業,而且企業工作往往是由團隊或多人協作完成的。因此,相比于消費級產品,企業需要更完善、更自然的協作式用戶體驗。消費級產品的應用場景非常多樣化,人們使用人工智能的方式也五花八門,也許在這種情況下,最佳的用例或最佳的用戶界面就是聊天界面,因為它足夠開放,可以覆蓋廣泛的市場需求,這也是我們目前所看到的情況。但我確實認為,在企業級領域,需要在用戶體驗方面進行更多深入的探索和實驗,因為企業的工作流程具體且復雜,任務難度高,而且永遠不可能靠單一指令一步到位地完成。

03

Harvey 提供的是垂直場景的Agentic workflow

主持人:簡要介紹一下構建產品方面有哪些重要進展或關鍵節點?

Winston Weinberg:關于如何構建產品,我認為一個關鍵且極具挑戰性的方面在于,這涉及到協調我們在不同組織層面的工作,以及如何把握不同的重點。基于此,核心策略是我們必須持續地擴展產品能力,然后再將其有效地整合起來。從理想狀態來看,如果所有模型都能完美協作,人類溝通也毫無障礙,那么最理想的用戶界面可能就是電子郵件,因為它能無縫處理所有聯系和信息,甚至能預測用戶需求。

主持人:聽起來,它甚至可以是 NeurAI link(神經連接,指直接連接到思維)。

Winston Weinberg:是的,那確實是更理想的狀態。但現實并非如此,而且我認為這也不可能一蹴而就。

因為即使技術在模型端實現了,也難以與人類現有的工作流程無縫對接。 我經常舉例說明:比如即使模型能以某種方式串聯完成像微軟和動視(Activision)合并這類大型并購中的所有步驟,用戶也無法簡單地下達「請合并」這樣的指令,并期待它能自動完成一切,用戶界面方面也存在很多交互問題。這也是我剛剛講的,必須持續擴展和整合產品能力的觀點。因此,基于聊天的用戶界面并不適用于所有用例,現在不是,將來我認為也不會。

舉例來說,如果您嘗試構建一個能夠進行高質量判例法研究的工具,這涉及多個步驟。您需要構建一個善于檢索所有案例的系統,一個善于比較和對比所有案例的系統,以及一個能夠將您案件中的事實與所有判例法進行綜合分析的系統等。若要實現這一點,最好的方法是擴展產品,構建特定的垂直領域解決方案,可以稱之為 Agentic workflow,或其他任何稱謂,總之以端到端地完成這項工作,最后整合在一起。

最終會是什么形態呢?我們會選擇一些極具價值的用例,構建特定的工作流程來完成,并將它們「鏈接」起來,使用戶能夠端到端地完成一項任務。其中的難點在于,如果我們以席位為單位進行銷售,就必須提供適用于盡可能多用戶的功能。因此,我們需要權衡的是:構建一個對證券律師極具價值的功能,還是一個對所有律師都適用的功能?這是整合的挑戰所在。我們需要構建這些特定的工作流程或 Agent 工作流程,然后將它們組合到產品統一的服務層面上。

具體來說,用戶將一份股權購買協議(SPA)上傳到 Harvey。我們內部構建了許多不同的工作流程,雖然用戶可能看不到這些,例如從協議中提取陳述和保證、總結協議,或執行其他相關任務。這些工作流程都已獨立構建完成。用戶既可以通過相應的用戶界面單獨執行這些工作流程,也可以在上傳 SPA 時,由 Harvey 提示:「您希望運行其中的哪些工作流程嗎?」這就是整合的體現。因此,我們構建這些特定的解決方案,然后再將其整合。

主持人:詳細地介紹下,具體的人機交互模式會是什么樣的呢?

Aatish Nayak:這是一個關于通用人工智能的普遍性議題,例如人類在其中扮演何種角色,工作在多大程度上可以實現完全自動化?實際情況是,比如要起草一份 S4 或 S1 文件,你不可能簡單地將任務交給一個 AI 推理模型,然后說「嘿,給我寫一份 S1 文件」,然后就萬事大吉了。這其中必然需要用戶的全程參與,且相關的每個人都需要參與。同時,你不能完全依賴模型來獨自完成 S1 文件的起草,因為完成一份 S1 文件或進行一次企業并購的過程,本質上是律師事務所、客戶以及其他相關方之間高度互動的過程。

因此,我們認為這些智能系統必須與人類用戶緊密協作才能高效完成任務,因為人類用戶有一些 Agent 不能直觀理解的特定意圖,或者 Agent 當前不具備的數據信息。所以在設計這些智能系統時,我們采用了一種以AI為核心的用戶體驗設計理念,旨在使其能夠與不同的組織成員進行有效協同,從而推動工作進展。例如,Agent 可以主動提出:「嘿,我已經起草了這份文件,我的方向是否正確?請提供更多信息,因為我在這個決策點上有些不確定該如何繼續。」未來我們會看到更多這樣主動式的交互模式,Agent 能夠真正地與律師事務所的不同人員進行溝通,實現高效協同來完成各項任務。

主持人:認為其中核心價值有多少來自模型本身,又有多少在于剛才描述的,比如 Agentic workflow 或認知架構?

Winston Weinberg:我認為可以將這個問題分解為三個層面。對于每個工作流程,首要問題是:用戶想要什么?他們的意圖是什么?以及如何準確提取這些意圖?其次,是需要哪些背景信息?最后是,結果是否準確?

我的觀點是,不同的系統在處理這些不同類型的需求時表現出色。例如,利用模型進行預測和路由(Routing),對于理解用戶意圖非常有益。因此,將用戶的查詢準確路由到他們希望執行的特定任務非常有效。這其中涉及一個編排的層面。在背景信息方面,我們是否有預定義的系統來搜索與問題相關的內部文檔和外部文檔?其中很大一部分工作是信息檢索。我們構建的主要功能是進行信息檢索,并進行路由,以確保在需要時能訪問外部文檔和內部文檔。

回到我的引用例子,這看似簡單,但實際上非常重要。我認為,許多工作雖可由模型輔助完成,但我們必須確保模型善于驗證特定信息。舉個例子,在法律領域有一個概念叫做「市場」。模型并不知道什么是市場,因為市場有不同版本:有特定私募股權公司的市場習慣條款(比如他們在杠桿收購、交易或附函中使用的條款),有所有私募股權公司通用的條款,還有一般的并購條款。模型無法訪問以上這些數據。因此,關于第三點(結果的準確性),很大程度上取決于我們是否能構建一個系統,這個系統能夠高效地在需要時檢索并比較所有這些不同的數據集。

主持人:我想回到您剛才提到的擴展和整合用戶界面的概念,我認為這個概念很有啟發性。您認為律師與 Harvey 互動的理想最終狀態是什么樣的?是那種類似于電子郵件的簡潔用戶界面,只輸入「合并公司 A 和 B」,任務就能完全自動化,還是

Winston Weinberg:我認為我們短期內不會達到那種狀態,但這并不是我不看好基礎模型的進步。我的意思是,我深信基礎模型會持續改進,我們將此作為公司設計的核心驅動力。我認為最主要的問題在于,那樣做會使用戶缺乏對工作流程進行干預和判斷的必要空間。

我認為,當人們談論 Agent 時,他們通常指的是那些相對簡單且經濟價值不高的任務。而當我們構建工作流程并引入 Agent 時,我們關注的是那些涉及數十萬美元成本的任務。法律行業之所以非常適合大型語言模型,原因之一在于:這個行業是基于文本的,而每個 token 具有極高的價值。在法律和專業服務領域,token 的價值尤其突出。試想一份 50 頁的并購協議,考慮到生成它的成本,其中的每一個詞、每一個 token 都價值不菲。因此,我認為最終狀態是持續構建這些 Agent 和工作流程,并盡可能多地相互連接。這樣一來,盡管用戶界面可能保持相似,但系統的推薦和路由模型會不斷優化,編排模型也會持續提升。

以律師事務所為例,可以這樣理解:我們正在構建能夠執行不同任務的專業化助理。同時,合伙人或管理合伙人的運營模式也至關重要。我認為,隨著模型使我們能構建越來越多專業化的特定助理,我們也需要投入大量精力構建一個能將所有這些整合起來的編排層。因此,盡管我們的用戶界面可能看起來相似,類似于一個文本交互窗口,但當用戶上傳大量文檔后,系統能夠提供操作建議,或者提示用戶:「這是您上次執行的任務,是否需要再次運行?」諸如此類的智能化和便捷性將得到提升,更像是一個非常了解需求的同事。

04

模型評估主要看 AI 能完成的工作量

主持人:Harvey 的產品底層技術架構是怎么樣的?你們主要使用特定的基礎模型嗎?如何評估和決定更換模型?

Aatish Nayak:Harvey 由數百次不同的模型調用組合而成,采用復合人工智能系統來生成最終輸出。目前在實際應用中,我們主要依賴 OpenAI 的模型,直接調用或者通過 Azure 部署。

這主要是基于兩點考慮:一是 OpenAI 的模型性能非常出色;二是 Azure 的基礎設施卓越,具備高速、高安全性的特點,能夠贏得客戶的信任。就像我之前說的,客戶非常信任 Azure,并希望它是我們默認的云服務選項,這是我們建立信任的關鍵。但總體而言,我們并非完全鎖定 OpenAI。實際上,我們與所有主要的AI實驗室都有合作,共同推動他們產品的發展,并提供關于法律推理方面的指導。我們還會分享數據集,交流我們獲得的洞見。因此,我們當然樂于嘗試各種不同的模型,只是目前受限于業務安全和基礎設施的要求,尚未完全實現。

主持人:更換模型有多大難度?如何確保更換后用戶體驗的一致性?

Aatish Nayak:從人工智能基礎設施的角度來看,我們從一開始就非常注重模塊化設計,這樣可以相對便捷地切換不同的模型序列和API端點。真正的挑戰在于評估環節,每個模型都有其獨特的特性和行為模式,同樣的指令或微調數據在不同模型上的效果可能會有差異。因此,更換模型確實需要投入大量的評估工作,以確保產品質量不會因此下降。

主持人:你們是否為此建立了內部評估體系?

Aatish Nayak:評估是我們工作的重中之重。在公司發展過程中,人類專家數據對于構建我們的系統來說至關重要。我認為評估主要分為內部和外部兩個層面。內部評估旨在持續改進我們的人工智能系統;外部評估則用于向用戶清晰傳達產品價值。在內部評估方面,我們既有內部的法律專家團隊,也會邀請外部專家參與,比如來自不同國家、不同業務領域的律師,他們會進行各種絕對或相對評估。絕對評估是對生成的內容依據特定標準進行評分;相對評估則是對比我們算法生成的兩個不同版本,然后進行優劣評分。隨著公司的發展,我們在這方面投入了大量資源,并持續擴大評估規模。

在外部評估方面,難點在于很多法律工作實際上是在客觀事實的基礎上應用主觀判斷。而評估主觀判斷非常困難,因為沒有絕對客觀的標準。比如,當你以某種方式解讀法律,這種解釋是比別人的更好還是更差?所以總體而言,外部評估和溝通產品價值非常具有挑戰性。而且從外部來看,法律任務種類極其繁多。如果您查看法律任務的分類法,會發現幾乎有一萬個細分的節點。律師們已經對這些類別進行了細致的劃分。這里的挑戰之一就是,如何讓客戶信服 Harvey 是高效、準確且可靠的。

因此,我們花費了很多時間,并在去年早些時候發布了一個名為「大律師基準」(Big Law Bench)的基準測試,選取了代表律師日常實際計費工作的頂級任務進行測試。目前所有公開的法律基準測試都采用了選擇題的形式,但實際上,法律工作非常開放且復雜,并不能簡單的用選擇題來衡量。我們發布的這個基準測試表明,我們正在衡量律師實際會做的具體工作,以及 Harvey 在處理這些工作時的表現。另外,基準測試衡量的并非單純的準確性,而是模型完成的工作量占 100%人工完成所需工作量的比例。

主持人:您的意思是時間是衡量標準嗎?

Aatish Nayak:不完全是時間,我們更側重于衡量模型完成了整個任務中多大比例的工作量。比如,在一項起草任務中,模型可能完成了 85%到 90%的內容,人工只需要處理剩下的 10%左右。這樣做是因為,單純看「準確性」容易忽略整體價值。即使模型不是 100%準確,但它已經幫你完成了大部分基礎工作,這帶來的效率提升遠比從頭開始要大得多。我們衡量的是模型為用戶帶來的實際工作量減少和效率提升。

主持人:你們是如何定義「工作完成」的衡量單位?這是一個相對新的領域,人們可能很難準確理解這些衡量標準的含義。

Aatish Nayak:這確實非常困難,而且衡量標準會因具體任務而異。不僅取決于任務本身,也取決于我們的客戶。例如,不同律師事務所創建案件時間線的方式可能大相徑庭。所以我們的做法是,首先嘗試標準化這些任務的名稱和分類體系,然后針對性地制定相應的評估標準。比如說,律師事務所 A 和律師事務所 B 可能把時間線中的日期列放在不同的位置,但至少都會包含日期信息。因此,我們針對每一個主要的評估任務都制定了一套標準,這些標準是基于我們內部的法律專業知識建立的,并且每個任務的標準都有所不同。我們努力進行標準化,但實際操作中仍然存在顯著差異。

05

「幻覺」不是法律領域的特性,

不打算自研模型

主持人: 關于大型語言模型,一個經常被討論的問題是所謂的「幻覺」,即模型會生成聽起來自信但實際上是錯誤或缺乏依據的內容。在法律領域,準確性至關重要。您如何看待這個問題?您認為「幻覺」是一個必須徹底消除的缺陷(bug),還是在某些情況下可以接受甚至加以利用的特性?

Winston Weinberg:這絕對是一個核心問題,尤其是在法律領域。我的觀點是,「幻覺」在法律領域絕不能被視為一種「特性」。準確性是法律工作的基石,任何不準確的信息都可能導致嚴重的后果。因此,我們的目標是竭盡全力去最大限度地減少直至消除「幻覺」。

我們采取了多種方法來應對這個問題。首先,正如我們之前討論的,我們格外注重采用高質量、經過驗證的數據用于模型訓練和信息檢索。其次,我們建立了復雜的后處理和驗證機制,以檢測和糾正模型可能產生的錯誤信息。例如,在法律引用方面,我們會進行多重交叉驗證,以確保引用的準確性和有效性。

此外,我們非常強調「Human-in-the-Loop」(人機協同)的重要性。我們的產品設計理念是增強律師的能力,而非取代他們。這意味著律

師始終需要對模型生成的內容進行審查和驗證。我們提供工具和界面,使律師能夠方便地檢查信息的來源和準確性,并在必要時進行修改。

當然,完全消除「幻覺」可能是一個極具挑戰性的目標,尤其是在處理非常復雜和開放性問題時。但是,我們認為可以通過持續改進模型、數據和流程來顯著降低「幻覺」發生的概率。在法律領域,我們必須將準確性放在首位,任何妥協都可能帶來無法承受的風險。

至于在其他領域,「幻覺」是否可以被視為一種「特性」,我認為這取決于具體的應用場景和風險承受能力。例如,在創意寫作或頭腦風暴等應用場景中,模型生成一些新穎但可能不完全真實的想法,或許可以激發人類的創造力。但在高風險領域,例如醫療診斷或金融決策,準確性仍然是至關重要的。

主持人:法律行業是一個注重推理邏輯的行業,近期如 OpenAI 的 o 系列推理模型的發展以及對開發大規模測試時間(Test-time)推理模型的關注,對你們有多大影響?

Winston Weinberg:影響非常大,且是積極的影響。當你在構建 AI 系統的時候,因為模型還不能完全處理復雜問題,需要將每個問題拆解為子問題,分別解決。例如,解決「反壟斷」相關 case,第一步是獲取目標公司的所有財務數據,根據這些財務數據確定在不同國家需要提交的文件。下一步考慮,如何完成所有的文件提交工作呢?這是我們之前一直在想辦法解決這個問題。

有了推理模型之后,就能逐步解決這些步驟。也就是說,我們不斷構建可行的推理步驟,當基礎模型得到改進時,就能推動我們更多地邁進一步。另外,成本降低對我們來說也是非常好的事情,當下我們主要優化質量,而非成本,如果價格下降,我們就能更快地提升所有用戶群體的服務質量。

主持人:Harvey 是否構建或計劃構建自己的基礎模型?

Aatish Nayak:簡短的回答是:沒有。我們目前沒有構建自己的基礎模型,也沒有相關的計劃。相反,我們選擇與 OpenAI 等領先機構密切合作,通過微調、二次訓練、提示工程以及檢索增強生成(RAG)等技術,來構建我們這種智能復合人工智能系統。

主持人:未來有自研基礎模型的打算嗎?原因是什么?

Aatish Nayak:簡短的回答依然是:沒有這個打算。我們不計劃構建自己的基礎模型。計算成本是一個重要的考量因素,構建基礎模型極其昂貴,我們寧愿將資金和資源投入到其他更具戰略意義的方面。是的,開發基礎模型確實需要籌集巨額資金,動輒數十億美元。我們更傾向于將這項高度專業的任務留給專注于此的公司,而我們將精力集中在為最終客戶提供價值,圍繞現有基礎模型構建創新產品和解決方案。

06

先拿下頂級律所,

再向下滲透整個行業

主持人:現在,Harvey 的客戶涵蓋了一些世界頂級的律師事務所,這自然使你們在流程數據方面擁有了獨特的優勢。我認為這是您在幾年前做出的一個反常但極具信念的戰略決策,當時有許多律師事務所希望與 Harvey 合作,但你們基本都婉拒了,而是專注于這些大型知名律所。能否簡要談談是什么讓您確信這是一個正確的策略?更重要的是,一旦您確定這是正確的策略,究竟是如何贏得他們的信任的?

Winston Weinberg:是的,我認為這個決策背后既有產品方面的考量,也有市場推廣(GTM)方面的考量。從產品角度來說,我們的判斷是模型會不斷進步,因此需要構建下一代模型難以輕易復制的系統。這就要求我們攻克極其復雜的國際并購等類型的工作,打造能夠處理這類復雜事務的系統,因為這樣才最具防御性。這是產品層面的原因。

從市場推廣角度來講,在專業服務領域,聲望和信任至關重要。聲望之所以重要,是因為信任是專業服務領域最核心的因素。我們一開始瞄準大型律師事務所的原因在于,一旦贏得其中幾家事務所的信任,其他事務所、下游律所及其客戶也會隨之建立信任。

我們曾考慮過是否直接面向企業客戶,但這存在諸多問題。一個主要原因是,他們根本沒有理由信任我們能真正構建出這些系統。那么,我們是如何贏得頂級律所信任的呢?我們做了許多完全無法規模化的事情。

我認為,對于任何構建 AI 產品并進行銷售的團隊而言,都需要有高度個性化的演示。過去如此,現在更是如此,而且其成本相對較低。我們早期采取的策略之一是,每當我向一位合伙人進行演示時,都會盡量使用他們最近處理過的案例。此外,律師非常善于辯論(褒義而言)。所以有時我會問:「這個論點如何?您會如何改進它?」如果在演示過程中遇到沉默,提出這個問題后,他們會仔細閱讀 Harvey 輸出的每一個字。盡管答案并不總是完美,但這促使他們以前所未有的方式參與進來。我們發現,許多資深合伙人可能從未接觸過 AI 產品,因此向他們展示一些基本原理,而不僅僅是產品的獨特之處,同樣非常重要。

主持人:Harvey 成立了約兩年時間,目前的計劃是將業務擴展至法律行業以外,請你談談這一決策的考慮,以及現有產品體系和市場策略在新領域的適用性怎么樣?

Aatish Nayak:我們確實擁有眾多法律行業的客戶,但我們不希望因此滿足于現狀。我們公司有一條文化原則,借用科比的一句話來說就是「工作尚未完成」(Work's not finished)。我們依然在法律領域投入了大量精力。但從宏觀角度來看,無論是處理交易類還是訴訟類工作,以及律師和法律工作的整體性質,你會發現其中涉及的人員并非僅限于法律專業人士。

例如,在企業并購交易中,會有稅務專家、財務專家以及人力資源專家參與,他們需要協同整合來自兩個團隊的工作。因此,我們不會簡單地認為只有律師才能使用我們的產品。我們的思路是,在處理這些大型項目的工作流程時,抓住機會將業務自然地擴展到其他相關領域。比如說,稅務專家可能需要了解與法律專家相同的一些信息,只是可能在此基礎上還需要獲取一些更專業、更具體的內容。所以我們正在利用現有的律師客戶以及他們參與的項目,順勢向這些新領域進行拓展。

我們的拓展方式有多種。總體上,我們采取了以客戶需求為導向的方法。實際上,我們許多現有的企業客戶已經開始讓他們的合規和人力資源團隊使用我們的產品了。因為在審查雇傭合同這類事務時,人力資源團隊成員顯然需要深度參與,這是一種非常自然的擴展方式,即在企業內部實現用戶群體的有機增長。同時,我們也秉持客戶至上的原則,正在與一些領先的專業服務機構開展合作。

例如,我們正與普華永道(PwC)合作,共同開發定制化的稅務和財務盡職調查系統。在國際業務方面,普華永道是稅務法律和財務盡職調查領域的頂級專家,他們為我們提供了深入的專業知識,并推動我們向這些方向發展。所以,我們已經在向這些領域擴展方面播下了種子,在未來的兩到三年內,我們將很自然地進入這些新的領域。

主持人:您提到為新領域開發定制模型或流程,這是否意味著這些定制是普華永道獨有的,不打算推廣給其他客戶?

Aatish Nayak:特別是針對稅務工作,世界各地的稅務律師會就特定稅法如何適用于其客戶提出大量問題,而其中很多關鍵的專業知識實際上掌握在普華永道這樣的機構手中。比如,在英國稅法領域,普華永道擁有世界頂級的稅務專家。所以當我們說要開發定制系統時,我們實際上是利用了他們積累的大量數據,同時結合他們專家的專業知識和評估反饋來持續改進這個系統。我們會構建各種微調模型和數據采集系統,整合這些數據以及來自這些客戶的評估信息。從這個角度看,普華永道是獨一無二的合作伙伴。但隨著時間的推移,我們也可能會開始與其他專業服務提供商展開合作。

07

將領域專家融入產品設計

主持人:Harvey 的團隊是如何構建的?我想很難找到一個同時懂研究、工程、法律領域知識、可用數據,同時還能與用戶互動的人,以及你們是如何跨團隊協作完成這些工作的呢?

Winston Weinberg:我覺得我們在這方面正逐漸做得更好。我們開始將這些系統確定為所謂的「AI 模式」。也就是說,我們需要構建 30 到 50 個這樣的模式,并將它們整合到產品的各個部分。舉個例子,如果開發一個非常擅長案例法研究的 AI 系統,它可以應用于簡易判決動議,也可以應用于無數不同類型的訴訟場景。它雖然不能從頭到尾完成整個訴訟場景的任務,但你可以在其他基礎上添加這個功能。所以,我們現在的做法是,有些團隊負責構建這些模式,有些團隊則負責將其應用到整個平臺上。目前來看,效果還不錯,但這肯定還在不斷完善中。

還有一點很有趣,我們公司有很多律師,領域專家很有幫助,主要有兩個原因:

其一,領域專家可以作為設計伙伴。他們很擅長指出我們需要教會模型做什么,需要采取怎樣的逐步思考方式,用戶想要的輸出結果是什么等等。

其二,評估工作很難。對我們來說,大多數基準測試完全沒用。比如,有人給我們某個模型的早期使用權限,說它在所有這些基準測試中表現都好得多,但實際上對于我們的業務來說并非如此。

現實情況是,你必須聘請非常優秀的律師來評估這些系統,在稅務和其他領域也是如此。而且他們不能太初級,因為如果太初級卻能勝任評估工作,那他們就該是資深律師了。所以,將領域專家融入產品設計、開發以及最終評估環節,是非常困難的,我們也一直在努力解決這個問題。

主持人:剛剛你提到稅務評估方面,當你考慮組建團隊開展工作時,新入職的工程師能理解稅務盡職調查嗎?你認為什么樣的人適合加入 Harvey?

Winston Weinberg:我們正努力解決問題,也正在大量招人,同時也在努力做好知識共享,這很重要。我們做得不錯的一點是彼此尊重程度高。許多工程師沒有法律和專業服務領域經驗,我們舉辦過幾次關于復雜業務結構(如私有化交易)的研討會,你能看到工程師們驚嘆:「哇,這些人做的工作真的很厲害。」 不過在知識共享方面,確實是個難題,因為不少參與產品開發的人,在過去的職業生涯中沒有實際接觸過稅務盡職調查這類工作。

主持人: 確實,擁有多樣化的客戶群體對此會很有助益。法律領域的專業問題如何解決?

Winston Weinberg:這確實是我們遇到的主要挑戰之一。許多法律任務的關鍵流程數據并不存在于公開的互聯網上,僅僅依靠模型自身難以完全解決。 例如,關于如何制作披露附表或理解特定「市場」習慣條款,這些實操性的流程知識在 Reddit 等網站上是找不到的。因此,我們聘請了領域專家來解決這個問題,他們會梳理并定義這些具體的操作步驟,然后我們將模型能力應用于這些步驟,或者針對性地進行微調來彌合差距。

另一方面,除了流程復雜,評估 AI 在法律領域的表現也極具挑戰性,這要求我們必須聘請中級或更高級別的法律專業人士來承擔大量評估工作。這是現實,因為如果初級人員就能勝任評估,那他們實際上已經達到了中級或高級水平。在律師事務所等專業機構中,中級或高級人員很大一部分工作就是評估初級人員的工作成果,這項工作非常耗時且成本高昂。我認為這些機構可能有 20%到 30%的收入用于此項工作。

08

只用 Azure,

絕不訓練客戶數據

主持人:您此前提到普華永道是一個很好的合作伙伴,在設計一些你們之前沒有涉及的定制項目上提供了重要幫助,這需要普華永道給予你們高度信任,因為他們需要提供非常敏感的數據。而且,對于任何服務企業客戶的產品公司而言,企業買家總會有很多關于數據使用方式的疑問,比如我的數據是否會被用于模型訓練?這些數據會泄露給我的競爭對手嗎?等等。你們是如何處理客戶數據隱私這類的關鍵問題的?

Aatish Nayak:我認為這是企業軟件領域一個普遍存在但討論不足的話題,不僅僅局限于人工智能領域。企業的成熟度遠超單純的技術層面。我覺得,這需要從產品和工程團隊的文化建設就開始,我們從一開始就采取了一些關鍵措施,因為我們的首批客戶正是那些對于數據隱私要求最嚴苛的機構,他們處理著全球范圍內極其敏感的業務,要贏得他們的信任,確實是巨大的挑戰。

我們從一開始就實施了幾項政策。首先,對于敏感數據,我們有極其嚴格的「禁止訓練」政策。默認情況下,我們對所有文件的處理操作,都明確規定 Harvey 絕不能利用這些數據進行訓練。更進一步,Harvey 的員工也無權查看這些客戶數據。我們將此稱為「不接觸」原則(eyes-off policy)。由于客戶數據的高度敏感性,Harvey 的大部分員工都無法訪問這些數據。

此外,我們對外部供應商有一份非常嚴格的白名單。舉例來說,我們僅允許使用部署在 Azure 上的模型來改進我們的系統和增強產品功能。選擇 Azure 是因為它在企業級市場享有極高的信任度。我們所有的主要客戶都在大規模使用 Azure 進行部署,因此他們對 Azure 平臺非常信任。這也意味著,即便有新的模型問世,比如 Google 或 Anthropic 推出的新模型,或者社交媒體上宣傳的各種新奇工具,我們也不能立即采納使用。在這方面,我們必須堅持非常嚴格的策略。

同時,這又回到了產品工程文化的議題上。我們必須確保工程師團隊清楚明白,他們不能隨意使用未經批準的產品或進行部署,我們在這方面的規章制度非常嚴格。

此外,我們很早就構建了一個強大的安全團隊。舉個例子,我們的安全負責人是公司最初的 15 名員工之一,他建立了一整套非常強大的安全體系。當他與銀行等機構的首席信息官或首席安全官等高層進行溝通時,對方能夠感受到我們的專業性和可靠性,而不是一家隨意的初創公司。所以,我認為這些綜合性的措施對于贏得客戶信任至關重要。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國對中國留學生下手,27萬留美學生一夜之間……

美國對中國留學生下手,27萬留美學生一夜之間……

販財局
2025-05-29 14:55:12
0.04秒絕殺!中國隊終于奪冠,12年,等了整整12年,十大官媒盛贊

0.04秒絕殺!中國隊終于奪冠,12年,等了整整12年,十大官媒盛贊

墨印齋
2025-05-29 14:46:17
百度為李彥宏私人飛機支付費用,官方正式回應來了!網友:公司報銷管理層所有支出是常規操作吧

百度為李彥宏私人飛機支付費用,官方正式回應來了!網友:公司報銷管理層所有支出是常規操作吧

大白聊IT
2025-05-29 15:07:05
浙江一地驚現“雙頭蛇”!村民嚇懵:還會倒著爬

浙江一地驚現“雙頭蛇”!村民嚇懵:還會倒著爬

瀟湘晨報
2025-05-29 12:55:51
掌心那一抹亮色:年輕人最小限度的勇敢表達

掌心那一抹亮色:年輕人最小限度的勇敢表達

36氪
2025-05-29 21:31:20
殲-10CE首次取得實戰戰果,國防部回應!“爭氣機”變“頂流”,背后有故事

殲-10CE首次取得實戰戰果,國防部回應!“爭氣機”變“頂流”,背后有故事

上觀新聞
2025-05-29 17:13:15
人保集團財會部總經理瞿棟開會期間突發心梗離世,終年55歲

人保集團財會部總經理瞿棟開會期間突發心梗離世,終年55歲

魯中晨報
2025-05-29 19:09:47
100+未接來電、辱罵短信,只因兩年前喊她“阿姨”?小伙:我沒有

100+未接來電、辱罵短信,只因兩年前喊她“阿姨”?小伙:我沒有

極目新聞
2025-05-29 20:17:20
600萬發炮彈送抵俄羅斯,可飽和打擊30萬烏軍,每20發炮彈炸一人

600萬發炮彈送抵俄羅斯,可飽和打擊30萬烏軍,每20發炮彈炸一人

龍炎校尉
2025-05-29 09:14:28
三權分立戰勝川普 美聯邦法院讓關稅歸零

三權分立戰勝川普 美聯邦法院讓關稅歸零

凱利經濟觀察
2025-05-29 12:09:08
5月29日俄烏最新:史上最大的泄密事件

5月29日俄烏最新:史上最大的泄密事件

西樓飲月
2025-05-29 17:36:24
王毅明天簽字,在聯合國見證下,把美國踢出局,宣告一個時代結束

王毅明天簽字,在聯合國見證下,把美國踢出局,宣告一個時代結束

說天說地說實事
2025-05-29 19:54:16
上市即巔峰,連續43個跌停,從106跌到0.06,里面散戶全線被套!

上市即巔峰,連續43個跌停,從106跌到0.06,里面散戶全線被套!

財經市界
2025-05-29 08:54:16
唇語專家破譯法國總統馬克龍被妻子打臉后對話:布麗吉特怒罵“滾開,你個廢物”

唇語專家破譯法國總統馬克龍被妻子打臉后對話:布麗吉特怒罵“滾開,你個廢物”

愛意隨風起呀
2025-05-29 00:50:32
王楚欽回應緋聞:希望大家給予理解與空間。

王楚欽回應緋聞:希望大家給予理解與空間。

大嘴說臺球
2025-05-29 13:29:43
河南省十四屆人大常委會第十七次會議任免名單

河南省十四屆人大常委會第十七次會議任免名單

鄭州新聞廣播
2025-05-29 20:14:54
上海一保姆隱藏身份工作13年,業主發現她真正身份后,從30樓跳下去

上海一保姆隱藏身份工作13年,業主發現她真正身份后,從30樓跳下去

故事秘棧
2025-05-26 19:16:38
孫繼海青訓風波!中巴俱樂部發文劃清界限,家長無奈改名字刪視頻

孫繼海青訓風波!中巴俱樂部發文劃清界限,家長無奈改名字刪視頻

夢史
2025-05-29 14:55:39
美國終于動手,27萬中國學生,將被陸續遣返,中方警告兩大后果

美國終于動手,27萬中國學生,將被陸續遣返,中方警告兩大后果

阿傖說事
2025-05-29 16:03:16
又有兩國打起來了,事情會鬧大嗎?對比東南亞,南亞才是大麻煩

又有兩國打起來了,事情會鬧大嗎?對比東南亞,南亞才是大麻煩

查雯老師
2025-05-29 15:26:36
2025-05-29 22:15:00
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
762文章數 133關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

換上高爾夫GTI同款2.0T動力 新凌渡L GTS實車曝光

態度原創

游戲
時尚
親子
藝術
軍事航空

Switch2游戲現已開放購買!付費升級包也能預購

鞋子專場|| 舒服到能暴走的鞋,我幫你們找到了!

親子要聞

孩子脾胃虛,眼底發青,這碗水煮給孩子喝

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

以軍承認使用激光武器攔截無人機

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中宁县| 温宿县| 尼勒克县| 宜黄县| 马公市| 高州市| 冀州市| 翁牛特旗| 长兴县| 浦城县| 浦江县| 桂东县| 象州县| 澄迈县| 岳池县| 清流县| 杭锦后旗| 台中县| 东乡族自治县| 稷山县| 通渭县| 临沧市| 漯河市| 咸宁市| 旺苍县| 南澳县| 罗田县| 东乌珠穆沁旗| 宝清县| 高邑县| 重庆市| 桂阳县| 阿拉尔市| 长丰县| 朝阳区| 阿图什市| 延庆县| 连平县| 台江县| 新安县| 翁牛特旗|