作者|子川
來源|AI先鋒官
眾所周知,OpenAI 提供兩種類型的模型:推理模型(例如 o1 和 o3-mini)和GPT 模型(如 GPT-4o)。
那開發者面對這兩種類型的模型該如何選擇呢?
前段時間,OpenAI解讀了o系列推理模型與效率型GPT系列模型的不同,從而進一步幫助開發者和企業能更好地選擇適合自己的模型。
此外。OpenAI還分享了o系列7大實際應用場景,在這些實際案例中,一家金融分析平臺通過o系列模型成功找出了影響收購的關鍵變更條款,幫助公司節省了7500萬美元。
下面是全文解讀:
推理模型與GPT模型的不同
與GPT模型相比,OpenAI的o系列模型在不同任務上表現出色,并需要不同的提示方式。
這兩個模型系列并非孰優孰劣——它們只是各有所長。
OpenAI訓練了o系列模型("規劃者")來對復雜任務進行更長時間、更深入的思考,使它們能夠有效地制定策略、規劃復雜問題的解決方案,并基于大量模糊信息做出決策。
這些模型還能以高準確度和精確度執行任務,使它們在數學、科學、工程、金融服務和法律服務等通常需要人類專家的領域中表現理想。
另一方面,OpenAI的低延遲、更具成本效益的GPT模型("工作馬")專為直接執行而設計。應用程序可能會使用o系列模型來規劃解決問題的策略,而使用GPT模型來執行特定任務,特別是當速度和成本比完美準確性更重要時。
如何選擇適合自己的模型?
你在使用過程中最關注的是什么?
速度和成本 → GPT模型更快且通常成本更低
執行明確定義的任務 → GPT模型能很好地處理明確定義的任務
準確性和可靠性 → o系列模型是可靠的決策者
復雜問題解決 → o系列模型能處理模糊和復雜問題
如果在完成任務時速度和成本是最重要的因素,且你的案例是由簡單明確的任務組成,那么GPT模型是最適合的選擇。
然而,如果準確性和可靠性是最重要的因素,且有非常復雜的多步驟問題需要解決,那么o系列模型可能更適合。
大多數AI工作流程會同時使用這兩類模型——o系列用于智能規劃和決策,GPT系列用于任務執行。
GPT-4o 和 GPT-4o 迷你模型將訂單詳細信息與客戶信息進行分類,識別訂單問題和退貨政策,然后將所有這些數據點饋送到 o3-mini,以根據政策對退貨的可行性做出最終決定。
何時使用推理模型
下面是OpenAI從客戶和內部觀察到的一些成功使用模式。這并不是對所有可能用例的全面回顧,而是測試 o 系列模型的一些實用指南。
1. 處理模糊任務
推理模型特別擅長處理有限信息或分散信息,通過簡單的提示理解用戶意圖并處理指令中的任何空白。
實際上,推理模型通常會在做出無根據的猜測或嘗試填補信息空白之前提出澄清問題。
“o1 的推理能力使我們的多智能體平臺 Matrix 在處理復雜文檔時能夠生成詳盡、格式良好且詳細的響應。例如,o1 使 Matrix 能夠通過基本提示輕松識別信用協議中受限支付能力下可用的籃子。以前的任何模型都無法達到如此高的性能。與其他模型相比,o1 在密集信用協議中 52% 的復雜提示上取得了更好的結果。”
— Hebbia,法律和金融人工智能知識平臺公司
2. 大海撈針
當你傳遞大量非結構化信息時,推理模型擅長理解并提取最相關的信息來回答問題。
“為了分析一家公司的收購,o1 審查了數十份公司文件(如合同和租約),以找出可能影響交易的任何棘手條件。該模型的任務是標記關鍵條款,并在這樣做的過程中,在腳注中確定了一項至關重要的“控制權變更”條款:如果公司被出售,它將必須立即償還 7500 萬美元的貸款。o1 對細節的極度關注使我們的 AI 代理能夠通過識別關鍵任務信息來支持財務專業人士。”
— Endex,AI金融智能平臺
3. 在大型數據集中發現關系和細微差別
OpenAI發現推理模型特別擅長推理復雜文檔,這些文檔有數百頁密集的非結構化信息——如法律合同、財務報表和保險索賠。
這些模型特別擅長在文檔之間找出相似之處,并基于數據中未明確表達的事實做出決策。
"稅務研究需要綜合多個文檔以產生最終連貫的答案。我們將GPT-4o替換為o1,發現o1在推理文檔之間的相互作用以得出任何單一文檔中都不明顯的邏輯結論方面表現更好。因此,通過切換到o1,我們看到端到端性能提高了4倍——令人難以置信。"
—Blue J,AI稅務研究平臺
推理模型還擅長推理微妙的政策和規則,并將其應用于手頭任務以得出合理的結論。
"在金融分析中,分析師經常處理圍繞股東權益的復雜情景,并需要理解相關的法律復雜性。我們用一個具有挑戰性但常見的問題測試了來自不同提供商的約10個模型:融資如何影響現有股東,特別是當他們行使反稀釋特權時?這需要推理融資前和融資后的估值,并處理循環稀釋循環——頂級金融分析師需要花費20-30分鐘才能解決的問題。我們發現o1和o3-mini可以完美地做到這一點!這些模型甚至生成了一個清晰的計算表,顯示對10萬美元股東的影響。"
–BlueFlame AI,投資管理AI平臺
4. 多步驟智能規劃
推理模型對智能規劃和策略開發至關重要。
當推理模型用作"規劃者"時,OpenAI看到了成功的案例,它會為問題制定詳細的多步驟解決方案,然后根據是高智能還是低延遲更重要來選擇和分配合適的GPT模型("執行者")進行每個步驟。
"我們在我們的代理基礎設施中使用o1作為規劃者,讓它協調工作流中的其他模型來完成多步驟任務。我們發現o1非常擅長選擇數據類型并將大問題分解成更小的塊,使其他模型能夠專注于執行。"
—Argon AI,制藥行業AI知識平臺
"o1為我們的工作AI助手Lindy提供了許多智能工作流程。該模型使用函數調用從您的日歷或電子郵件中提取信息,然后可以自動幫助您安排會議、發送電子郵件和管理日常任務的其他部分。我們將所有曾經導致問題的智能步驟都切換到o1,并觀察到我們的代理幾乎在一夜之間變得完美無缺!"
—Lindy.AI,工作AI助手
5. 視覺推理
截至今日,o1是唯一支持視覺能力的推理模型。它與GPT-4o的區別在于,o1能夠理解最具挑戰性的視覺內容,如結構模糊的圖表和表格,或圖像質量較差的照片。
"我們為網上數百萬產品自動進行風險和合規審查,包括奢侈珠寶仿制品、瀕危物種和管制物質。GPT-4o在我們最難的圖像分類任務上達到了50%的準確率。o1在不對我們的流程進行任何修改的情況下達到了令人印象深刻的88%準確率。"
—SafetyKit,AI驅動的風險和合規平臺
從OpenAI自己的內部測試中,可以看到看到o1能夠從高度詳細的建筑圖紙中識別裝置和材料,以生成全面的材料清單。
OpenAI研究院觀察到的最令人驚訝的事情之一是,o1可以通過在建筑圖紙的一頁上查看圖例,并在沒有明確指示的情況下正確地將其應用到另一頁上,從而在不同圖像之間找出相似之處。
下面您可以看到,對于 4x4 PT 木柱,o1 根據圖例識別出“PT”代表壓力處理。
6. 審查、調試和改進代碼質量
推理模型能有效地審查和改進大量代碼,通常在后臺運行代碼審查,考慮到模型的較高延遲。
"我們在GitHub和GitLab等平臺上提供自動AI代碼審查。雖然代碼審查過程本身對延遲不敏感,但確實需要理解跨多個文件的代碼差異。這正是o1真正閃光的地方——它能夠可靠地檢測到人類審查者可能忽略的代碼庫的微小變化。在切換到o系列模型后,我們能夠將產品轉化率提高3倍。"
—CodeRabbit,AI代碼審查初創公司
雖然GPT-4o和GPT-4o mini可能因其較低的延遲而更適合編寫代碼,但也看到o3-mini在延遲要求稍低的代碼生成用例中表現出色。
"o3-mini始終如一地生成高質量、結論性的代碼,當問題定義明確時,即使對于非常具有挑戰性的編碼任務,也經常能得出正確的解決方案。雖然其他模型可能只適用于小規模、快速的代碼迭代,但o3-mini在規劃和執行復雜的軟件設計系統方面表現出色。"
—Windsurf,由Codeium構建的協作智能AI驅動IDE
7. 評估和基準測試其他模型響應
OpenAI還發現推理模型在基準測試和評估其他模型響應方面表現良好。數據驗證對確保數據集質量和可靠性非常重要,特別是在醫療保健等敏感領域。
傳統的驗證方法使用預定義的規則和模式,但像o1和o3-mini這樣的高級模型可以理解上下文并推理數據,為驗證提供更靈活、更智能的方法。
求稍低的代碼生成用例中表現出色。
"許多客戶在Braintrust的評估過程中使用LLM作為評判者。例如,一家醫療保健公司可能使用像gpt-4o這樣的工作馬模型總結患者問題,然后用o1評估摘要質量。一位Braintrust客戶看到評判者的F1分數從4o的0.12提高到o1的0.74!在這些用例中,他們發現o1的推理在發現完成之間的細微差別方面是一個改變游戲規則的因素,特別是對于最困難和最復雜的評分任務。"
—Braintrust,AI評估平臺
如何有效地提示推理模型
這些模型在簡單直接的提示下表現最佳。一些提示工程技術,如指示模型"逐步思考",可能不會增強性能(有時甚至會阻礙它)。
以下是一些提示技巧的最佳實踐
開發者消息(developer messages)替代系統消息(system messages):從o1-2024-12-17開始,推理模型支持開發者消息而非系統消息,以符合模型規范中描述的命令鏈行為。
保持提示簡單直接:這些模型擅長理解和響應簡短、清晰的指令。
避免思維鏈提示:由于這些模型內部執行推理,提示它們"逐步思考"或"解釋你的推理"是不必要的。
使用分隔符增加清晰度:使用markdown、XML標簽和章節標題等分隔符清晰地指示輸入的不同部分,幫助模型適當地解釋不同部分。
先嘗試零樣本,需要時再使用少樣本:推理模型通常不需要少樣本示例就能產生良好的結果,所以嘗試編寫不帶示例的提示。如果您對所需輸出有更復雜的要求,在提示中包含幾個輸入和所需輸出的示例可能會有所幫助。只需確保示例與提示指令非常一致,因為兩者之間的差異可能會產生不良結果。
提供具體指導:如果有您明確希望限制模型響應的方式(如"提出預算低于500美元的解決方案"),請在提示中明確概述這些約束。
明確說明您的最終目標:在您的指示中,嘗試為成功的響應提供非常具體的參數,并鼓勵模型繼續推理和迭代,
Markdown 格式:從o1-2024-12-17
版本開始,推理模型的 API 默認不會輸出帶 Markdown 格式的內容。若你希望模型在回復中使用 Markdown,可在開發者消息(developer message)的第一行包含字符串Formatting re-enabled
,這樣模型就知道你需要它以 Markdown 格式輸出。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.