臺灣大學(xué)團(tuán)隊破解AI系統(tǒng)優(yōu)化難題：讓機(jī)器像搭積木一樣自我改進(jìn)

2025-06-18 22:01:09　來源: 至頂頭條

北京舉報

分享至

想象一下，如果你能讓一套復(fù)雜的工具組合自己學(xué)會如何變得更好用，那會是什么樣子？臺灣大學(xué)的研究團(tuán)隊最近就在這個領(lǐng)域取得了重要突破。這項由臺灣大學(xué)的李語昂、易冠廷、劉美怡、盧叡超、楊冠博和陳蘊(yùn)儂教授共同完成的研究，發(fā)表于2025年6月的arXiv預(yù)印本平臺，論文編號為arXiv:2506.08234v1。感興趣的讀者可以通過https://github.com/MiuLab/AISysOpt-Survey這個項目頁面獲取更多詳細(xì)信息。

要理解這項研究的重要性，我們先來想象一個熟悉的場景。假設(shè)你正在準(zhǔn)備一頓復(fù)雜的晚餐，需要用到烤箱、平底鍋、攪拌器和各種調(diào)料。每個工具都有自己的用途，但真正的挑戰(zhàn)在于如何讓它們協(xié)調(diào)工作，在合適的時間做合適的事情，最終端出一桌美味佳肴。現(xiàn)在，如果這些廚房工具能夠自己觀察、學(xué)習(xí)，并且逐漸改進(jìn)彼此的配合方式，那就相當(dāng)于我們今天要討論的"復(fù)合AI系統(tǒng)優(yōu)化"。

在人工智能的世界里，類似的情況正在發(fā)生。以前，研究人員主要專注于讓單個AI模型變得更聰明，就像是不斷升級一把瑞士軍刀的功能。但現(xiàn)在，更多的注意力轉(zhuǎn)向了如何讓多個AI組件像交響樂團(tuán)一樣協(xié)調(diào)合作。這些復(fù)合AI系統(tǒng)就像是一個精密的工廠生產(chǎn)線，每個環(huán)節(jié)都有專門的任務(wù)：有的負(fù)責(zé)搜索信息，有的負(fù)責(zé)分析數(shù)據(jù)，有的負(fù)責(zé)生成代碼，還有的負(fù)責(zé)與用戶對話。

這樣的系統(tǒng)確實功能強(qiáng)大，但也帶來了新的挑戰(zhàn)。就像指揮一個交響樂團(tuán)比solo演奏要復(fù)雜得多一樣，優(yōu)化這些多組件系統(tǒng)比改進(jìn)單個模型難上加難。傳統(tǒng)的優(yōu)化方法就像是只能調(diào)整每個樂器的音量，但無法改變樂隊的編排和配合方式。而臺灣大學(xué)研究團(tuán)隊要解決的，正是如何讓這些AI"樂團(tuán)"自己學(xué)會更好的演奏方式。

這項研究的創(chuàng)新之處在于，研究團(tuán)隊首次系統(tǒng)性地梳理了現(xiàn)有的各種優(yōu)化方法，并且提出了一個全新的分類框架。他們發(fā)現(xiàn)，現(xiàn)有的方法可以從兩個關(guān)鍵維度來理解：一個是系統(tǒng)結(jié)構(gòu)的靈活性，另一個是學(xué)習(xí)信號的類型。這就像是給所有的優(yōu)化方法畫了一張地圖，讓研究人員和開發(fā)者能夠快速找到最適合自己問題的解決方案。

更重要的是，這項研究揭示了一個令人興奮的趨勢：AI系統(tǒng)正在學(xué)會使用自然語言來指導(dǎo)自己的改進(jìn)過程。想象一下，如果你的電腦不僅能執(zhí)行命令，還能理解"這個結(jié)果不夠好，應(yīng)該更注重細(xì)節(jié)"這樣的反饋，并據(jù)此調(diào)整自己的工作方式。這種基于自然語言反饋的優(yōu)化方法，為非技術(shù)專家參與AI系統(tǒng)改進(jìn)打開了大門。

一、當(dāng)AI系統(tǒng)學(xué)會團(tuán)隊合作：復(fù)合系統(tǒng)的奇妙世界

要理解復(fù)合AI系統(tǒng)，我們可以把它想象成一個現(xiàn)代化的新聞編輯部。在這個編輯部里，有專門負(fù)責(zé)收集信息的記者AI，有擅長分析數(shù)據(jù)的統(tǒng)計AI，有負(fù)責(zé)撰寫文章的寫作AI，還有專門進(jìn)行事實核查的驗證AI。每個AI都有自己的專長，但只有當(dāng)它們協(xié)調(diào)配合時，才能產(chǎn)出高質(zhì)量的新聞報道。

與傳統(tǒng)的單一AI模型相比，這種復(fù)合系統(tǒng)的優(yōu)勢顯而易見。就像一個人既要當(dāng)記者又要當(dāng)編輯還要當(dāng)攝影師會力不從心一樣，讓一個AI模型處理所有任務(wù)往往效果不佳。復(fù)合系統(tǒng)通過分工合作，讓每個組件專注于自己最擅長的任務(wù)，從而實現(xiàn)了"術(shù)業(yè)有專攻"的效果。

臺灣大學(xué)的研究團(tuán)隊為了更好地分析這些復(fù)合系統(tǒng)，創(chuàng)建了一套數(shù)學(xué)描述方法。他們把整個系統(tǒng)想象成一張由節(jié)點和連接線組成的網(wǎng)絡(luò)圖。每個節(jié)點就像是工廠流水線上的一個工作站，負(fù)責(zé)特定的處理任務(wù)。而連接線則決定了信息在不同工作站之間的流動路徑。

這種描述方法的巧妙之處在于，它考慮到了系統(tǒng)的動態(tài)特性。就像交通信號燈會根據(jù)車流量調(diào)整紅綠燈時間一樣，復(fù)合AI系統(tǒng)中的連接也會根據(jù)當(dāng)前情況動態(tài)激活或關(guān)閉。這意味著同一個系統(tǒng)在處理不同類型的問題時，可能會采用完全不同的信息流動路徑。

為了讓讀者更好地理解這個概念，我們可以想象一個智能客服系統(tǒng)。當(dāng)客戶詢問簡單的賬戶余額時，系統(tǒng)可能只需要激活查詢數(shù)據(jù)庫的模塊。但當(dāng)客戶要求解決復(fù)雜的技術(shù)問題時，系統(tǒng)可能需要依次激活問題理解模塊、知識檢索模塊、推理分析模塊和回答生成模塊。這種根據(jù)需求動態(tài)調(diào)整的能力，正是復(fù)合AI系統(tǒng)的強(qiáng)大之處。

研究團(tuán)隊還發(fā)現(xiàn)，現(xiàn)有的復(fù)合AI系統(tǒng)優(yōu)化面臨著一個根本性挑戰(zhàn)：不可微分性。簡單來說，就是傳統(tǒng)的優(yōu)化方法依賴于能夠計算"梯度"（可以理解為改進(jìn)方向的指針），但復(fù)合系統(tǒng)中的許多組件，特別是大語言模型，就像黑盒子一樣無法直接計算梯度。這就好比你想改進(jìn)一道菜的味道，但無法知道每種調(diào)料對最終口感的具體影響程度。

正是這個挑戰(zhàn)催生了各種創(chuàng)新的優(yōu)化方法。有些方法嘗試用啟發(fā)式算法來尋找最佳配置，就像廚師通過反復(fù)試驗來找到最佳調(diào)料配比。有些方法則利用輔助AI來提供文字形式的改進(jìn)建議，就像有一個經(jīng)驗豐富的美食顧問在旁邊指導(dǎo)。

二、四個維度看透優(yōu)化方法：解構(gòu)復(fù)雜系統(tǒng)的改進(jìn)之道

面對琳瑯滿目的優(yōu)化方法，臺灣大學(xué)的研究團(tuán)隊提出了一個非常實用的分析框架。他們發(fā)現(xiàn)，所有的優(yōu)化方法都可以從四個關(guān)鍵維度來理解和分類，就像用四把不同的鑰匙來打開理解之門。

第一個維度是結(jié)構(gòu)靈活性，這決定了優(yōu)化過程是否允許改變系統(tǒng)的基本架構(gòu)。想象你正在裝修房子，有些裝修方案只允許你重新粉刷墻壁、更換家具，這就類似于"固定結(jié)構(gòu)"的優(yōu)化方法。這類方法假設(shè)系統(tǒng)的基本框架已經(jīng)確定，只需要調(diào)整各個組件的參數(shù)，比如修改AI模型的提示詞模板或調(diào)整模型權(quán)重。這種方法的優(yōu)勢是相對簡單安全，就像在現(xiàn)有房間布局基礎(chǔ)上重新裝飾一樣，風(fēng)險較小且容易掌控。

另一類方法則屬于"靈活結(jié)構(gòu)"優(yōu)化，這就像是允許你拆墻、改變房間布局、甚至增加新房間的全面改造。這類方法不僅會調(diào)整現(xiàn)有組件的參數(shù)，還會探索不同的系統(tǒng)架構(gòu)，比如增加新的AI模塊、改變模塊間的連接方式，或者完全重新設(shè)計信息流動路徑。雖然這種方法的潛在收益更大，但也相應(yīng)地帶來了更高的復(fù)雜性和不確定性。

第二個維度是學(xué)習(xí)信號的類型，這關(guān)系到系統(tǒng)如何獲得改進(jìn)的指導(dǎo)。研究團(tuán)隊發(fā)現(xiàn)了兩種截然不同的信號類型：自然語言反饋和數(shù)值信號。自然語言反饋就像是有一位經(jīng)驗豐富的導(dǎo)師在旁邊用人類的語言指出問題和改進(jìn)方向。比如，這位導(dǎo)師可能會說"這個回答太過技術(shù)化，應(yīng)該更通俗易懂一些"或者"分析過程缺乏邏輯性，建議重新組織論證結(jié)構(gòu)"。這種方法的魅力在于它更貼近人類的思維方式，即使是非技術(shù)專家也能理解和參與改進(jìn)過程。

數(shù)值信號則更像是傳統(tǒng)的量化考核，通過具體的分?jǐn)?shù)、準(zhǔn)確率或其他可測量的指標(biāo)來指導(dǎo)改進(jìn)。研究團(tuán)隊進(jìn)一步將數(shù)值信號細(xì)分為四種不同的使用方式。第一種是基于規(guī)則的直接學(xué)習(xí)，就像根據(jù)考試成績直接調(diào)整學(xué)習(xí)計劃。第二種是監(jiān)督式微調(diào)，類似于老師給出標(biāo)準(zhǔn)答案讓學(xué)生反復(fù)練習(xí)。第三種是強(qiáng)化學(xué)習(xí)，像是通過獎勵和懲罰來引導(dǎo)行為改變。第四種是直接偏好優(yōu)化，通過比較不同方案的優(yōu)劣來指導(dǎo)改進(jìn)方向。

第三個維度是組件選擇，這涉及系統(tǒng)中包含哪些類型的AI工具。大多數(shù)復(fù)合系統(tǒng)都以大語言模型為核心，但會根據(jù)具體應(yīng)用需求添加各種專門化組件。比如，一個面向科研的AI系統(tǒng)可能會集成檢索增強(qiáng)生成模塊來訪問最新文獻(xiàn)，添加代碼解釋器來執(zhí)行數(shù)據(jù)分析，或者連接各種專業(yè)工具來處理特定任務(wù)。在多模態(tài)應(yīng)用中，系統(tǒng)還可能包含圖像生成模型、語音處理模塊等。組件的選擇直接影響系統(tǒng)的能力邊界和優(yōu)化策略的設(shè)計。

第四個維度是系統(tǒng)表示方法，這決定了如何在計算機(jī)中描述和操作整個系統(tǒng)。最常見的表示方法是圖結(jié)構(gòu)，其中有向無環(huán)圖確保每個組件在單次處理中只被調(diào)用一次，而循環(huán)圖則支持多輪交互和迭代處理。另一種越來越受歡迎的表示方法是將系統(tǒng)工作流程寫成自然語言程序或Python代碼，這種方法支持更復(fù)雜的條件邏輯和循環(huán)結(jié)構(gòu)，為系統(tǒng)設(shè)計提供了更大的靈活性。

通過這四個維度的分析，研究團(tuán)隊構(gòu)建了一個二乘二的分類框架，將結(jié)構(gòu)靈活性和學(xué)習(xí)信號類型作為主要分類軸。這個框架不僅幫助研究人員理解現(xiàn)有方法的特點和適用場景，也為未來的方法開發(fā)提供了清晰的指導(dǎo)方向。

三、固定結(jié)構(gòu)與自然語言反饋：讓AI用人話指導(dǎo)自己

在復(fù)合AI系統(tǒng)優(yōu)化的眾多方法中，有一類特別有趣的方法結(jié)合了固定系統(tǒng)結(jié)構(gòu)和自然語言反饋。這就像是給一個已經(jīng)建好的工廠配備了一位經(jīng)驗豐富的顧問，這位顧問不會改變生產(chǎn)線的基本布局，但會用通俗易懂的語言指出每個環(huán)節(jié)的改進(jìn)方向。

這一類方法的開創(chuàng)性工作是TextGrad系統(tǒng)。要理解TextGrad的工作原理，我們可以把它想象成一個擁有三重身份的AI教練團(tuán)隊。第一位是評估教練，它負(fù)責(zé)觀察系統(tǒng)的整體表現(xiàn)，就像體育教練觀察球隊比賽一樣，指出哪些地方做得好，哪些地方需要改進(jìn)。第二位是分析教練，它會深入到每個具體環(huán)節(jié)，分析問題的根源，并提出針對性的改進(jìn)建議。第三位是執(zhí)行教練，它負(fù)責(zé)根據(jù)前面的分析結(jié)果實際調(diào)整系統(tǒng)參數(shù)。

這個過程的巧妙之處在于它模仿了人類學(xué)習(xí)的自然方式。就像學(xué)生寫作文時，老師會在文章旁邊寫評語，指出"這段論證不夠充分"或"這個例子很恰當(dāng)"，然后學(xué)生根據(jù)這些評語修改文章。TextGrad讓AI系統(tǒng)也能進(jìn)行類似的自我反思和改進(jìn)。

TextGrad的出現(xiàn)啟發(fā)了許多后續(xù)研究。比如AIME系統(tǒng)發(fā)現(xiàn)，對于復(fù)雜的代碼生成任務(wù)，使用單一評估器容易漏掉錯誤，就像只有一個老師批改作業(yè)可能會遺漏一些問題。因此，AIME采用了多個評估器協(xié)同工作的策略，類似于讓多位老師從不同角度評估同一份作業(yè)，從而提高評估的準(zhǔn)確性和全面性。

另一個有趣的改進(jìn)來自REVOLVE系統(tǒng)。研究人員發(fā)現(xiàn)，簡單的一次性反饋往往導(dǎo)致系統(tǒng)在優(yōu)化過程中陷入反復(fù)震蕩，就像學(xué)生根據(jù)老師的建議修改作文，但改來改去總是在幾個版本之間循環(huán)。REVOLVE通過引入歷史記錄機(jī)制解決了這個問題，讓系統(tǒng)能夠記住之前的嘗試和結(jié)果，從而做出更加明智的改進(jìn)決策。

GASO系統(tǒng)則關(guān)注到了另一個重要問題：在復(fù)合系統(tǒng)中，不同組件之間存在相互影響，單獨優(yōu)化每個組件可能無法達(dá)到整體最優(yōu)。這就像樂隊中每個樂手都單獨練習(xí)到完美，但合奏時仍然可能不協(xié)調(diào)。GASO提出了語義梯度下降方法，讓系統(tǒng)在優(yōu)化時考慮組件間的相互作用，實現(xiàn)更好的整體協(xié)調(diào)。

LLM-AutoDiff系統(tǒng)進(jìn)一步擴(kuò)展了這一思路，專門針對大規(guī)模和循環(huán)結(jié)構(gòu)的復(fù)合系統(tǒng)。在處理包含循環(huán)的系統(tǒng)時，某些組件可能在單次處理中被多次調(diào)用，這就像工廠流水線中某個工作站需要對同一產(chǎn)品進(jìn)行多次加工。LLM-AutoDiff引入了時間序列梯度累積機(jī)制，能夠有效處理這種復(fù)雜情況。

Trace系統(tǒng)則從另一個角度解決了優(yōu)化效率問題。傳統(tǒng)的TextGrad方法需要為每個組件單獨調(diào)用AI助手來生成改進(jìn)建議，這在大型系統(tǒng)中會產(chǎn)生大量的計算開銷。Trace采用了全局優(yōu)化策略，就像讓一位總教練統(tǒng)一指導(dǎo)整個團(tuán)隊，而不是給每個隊員配備單獨的教練。這種方法不僅提高了效率，還減少了因多個獨立建議之間可能存在沖突而導(dǎo)致的問題。

這些基于自然語言反饋的方法最大的優(yōu)勢在于它們的可解釋性和可參與性。技術(shù)專家可以理解系統(tǒng)的改進(jìn)邏輯，非技術(shù)人員也能通過閱讀文字反饋了解系統(tǒng)的優(yōu)化過程。然而，這類方法也面臨著一些挑戰(zhàn)，比如依賴高質(zhì)量的語言模型來生成準(zhǔn)確的反饋，以及在使用商業(yè)API時可能產(chǎn)生的高昂成本。

四、固定結(jié)構(gòu)與數(shù)值信號：用數(shù)據(jù)驅(qū)動的精確改進(jìn)

與自然語言反饋方法相對應(yīng)的，是另一類基于數(shù)值信號的優(yōu)化方法。這些方法就像是用精密儀器來指導(dǎo)系統(tǒng)改進(jìn)，通過具體的數(shù)字和統(tǒng)計指標(biāo)來衡量性能并指導(dǎo)優(yōu)化方向。這種方法更加客觀和量化，避免了自然語言可能帶來的模糊性和主觀性。

DSPy系統(tǒng)是這一類方法的典型代表。它的工作方式就像一個智能的樣本收集器和篩選器。想象你是一位廚師，想要改進(jìn)一道菜的配方，DSPy的做法就是制作很多不同版本的菜品，然后通過顧客的評分來篩選出最受歡迎的幾種配方，最后基于這些成功案例來優(yōu)化標(biāo)準(zhǔn)制作流程。具體來說，DSPy會生成大量的輸入輸出示例對，評估每對示例的質(zhì)量，然后選擇最高質(zhì)量的示例作為訓(xùn)練數(shù)據(jù)來改進(jìn)系統(tǒng)性能。

MIPRO系統(tǒng)在DSPy的基礎(chǔ)上更進(jìn)一步，它不僅優(yōu)化訓(xùn)練示例，還同時優(yōu)化指令模板。這就像是在改進(jìn)菜譜的同時，也在優(yōu)化烹飪說明書的寫法。MIPRO使用貝葉斯優(yōu)化方法來維護(hù)和更新不同配置組合的性能分布，總是傾向于選擇那些歷史表現(xiàn)更好的配置。這種方法的智能之處在于它能夠平衡探索新配置和利用已知好配置之間的關(guān)系。

BetterTogether系統(tǒng)則提出了一個很有趣的想法：讓提示優(yōu)化和模型微調(diào)交替進(jìn)行。這就像是讓理論學(xué)習(xí)和實踐訓(xùn)練相互促進(jìn)。首先通過調(diào)整提示來找到較好的任務(wù)描述方式，然后基于這些提示對模型進(jìn)行微調(diào)，微調(diào)后的模型又能更好地理解新的提示，從而形成一個正向循環(huán)。

在需要模型微調(diào)的數(shù)值信號方法中，SiriuS系統(tǒng)采用了角色扮演的有趣策略。它為復(fù)合系統(tǒng)中的不同AI組件分配特定角色，比如"物理學(xué)家"、"數(shù)學(xué)家"等，然后收集這些角色在高質(zhì)量推理過程中的對話數(shù)據(jù)，用這些數(shù)據(jù)來微調(diào)相應(yīng)的模型。當(dāng)系統(tǒng)遇到失敗案例時，SiriuS會引入額外的反饋機(jī)制來生成改進(jìn)版本的訓(xùn)練數(shù)據(jù)，這就像是讓演員在表演失誤后接受導(dǎo)演指導(dǎo)，然后重新演練同一場戲。

MAPoRL系統(tǒng)則將注意力轉(zhuǎn)向了多智能體辯論場景的優(yōu)化。在這種場景中，多個AI會就同一問題展開討論，最終達(dá)成共識。MAPoRL的創(chuàng)新在于引入了一個專門的驗證器來為每個參與討論的AI分配即時獎勵，并且設(shè)計了影響感知的獎勵塑造機(jī)制來鼓勵協(xié)作行為。這就像是在辯論賽中，不僅要獎勵說出精彩論點的選手，還要獎勵那些能夠促進(jìn)整體討論質(zhì)量的行為。

SysDPO系統(tǒng)面向的是包含多種類型組件的復(fù)合系統(tǒng)，比如同時包含文本生成模型和圖像生成模型的系統(tǒng)。它的核心思想是通過比較不同系統(tǒng)配置的輸出質(zhì)量來構(gòu)建偏好數(shù)據(jù)集。比如在圖像生成任務(wù)中，系統(tǒng)會根據(jù)生成圖像的順序一致性和分布均勻性來評分，然后使用這些偏好數(shù)據(jù)來優(yōu)化整個系統(tǒng)。

這些基于數(shù)值信號的方法的主要優(yōu)勢在于它們的客觀性和可重復(fù)性。數(shù)字不會撒謊，統(tǒng)計指標(biāo)提供了明確的優(yōu)化方向。同時，這類方法通常可以使用開源模型來實現(xiàn)，避免了商業(yè)API的高昂成本。然而，它們也面臨著一些挑戰(zhàn)，比如需要設(shè)計合適的評估指標(biāo)，以及在進(jìn)行模型微調(diào)時需要大量的計算資源。

五、靈活結(jié)構(gòu)與自然語言反饋：讓AI重新設(shè)計自己的架構(gòu)

在復(fù)合AI系統(tǒng)優(yōu)化的更高級形態(tài)中，有一類方法不滿足于僅僅調(diào)整現(xiàn)有系統(tǒng)的參數(shù)，而是要讓系統(tǒng)學(xué)會重新設(shè)計自己的架構(gòu)。這就像是讓一個建筑師不僅能夠重新裝修房間，還能重新設(shè)計整棟建筑的結(jié)構(gòu)布局。這類方法結(jié)合了結(jié)構(gòu)靈活性和自然語言反饋，代表了AI系統(tǒng)自我改進(jìn)能力的前沿探索。

Agent Symbolic Learning系統(tǒng)是這一領(lǐng)域的先驅(qū)之一。它設(shè)計了三個專門的優(yōu)化器：提示優(yōu)化器負(fù)責(zé)改進(jìn)AI與用戶的對話方式，工具優(yōu)化器負(fù)責(zé)創(chuàng)建和改進(jìn)系統(tǒng)可以使用的外部工具，管道優(yōu)化器則負(fù)責(zé)重新設(shè)計整個系統(tǒng)的工作流程。這就像是給系統(tǒng)配備了三位不同專業(yè)的顧問：一位溝通專家、一位工具設(shè)計師和一位流程架構(gòu)師。每位顧問都能從自己的專業(yè)角度提出改進(jìn)建議，共同推動系統(tǒng)的全面優(yōu)化。

MASS系統(tǒng)則通過深入的實驗分析發(fā)現(xiàn)了一個有趣的現(xiàn)象：在大多數(shù)情況下，優(yōu)化提示詞比重新設(shè)計系統(tǒng)架構(gòu)更容易獲得性能提升。這個發(fā)現(xiàn)類似于發(fā)現(xiàn)在提升餐廳服務(wù)質(zhì)量時，改進(jìn)服務(wù)員的溝通方式往往比重新設(shè)計廚房布局更有效。基于這一洞察，MASS設(shè)計了一個三階段優(yōu)化框架：首先專注于提示優(yōu)化來獲得快速改進(jìn)，然后再探索更復(fù)雜的架構(gòu)變更。

然而，傳統(tǒng)的圖結(jié)構(gòu)表示方法在描述復(fù)雜系統(tǒng)架構(gòu)時存在局限性。ADAS系統(tǒng)率先提出了用Python代碼來表示AI系統(tǒng)的創(chuàng)新思路。這種方法的優(yōu)勢在于代碼能夠表達(dá)復(fù)雜的條件邏輯、循環(huán)結(jié)構(gòu)和動態(tài)決策過程，遠(yuǎn)比圖結(jié)構(gòu)更加靈活。ADAS讓一個元AI根據(jù)歷史成功案例和性能數(shù)據(jù)來編寫新的系統(tǒng)代碼，就像是讓一位經(jīng)驗豐富的軟件架構(gòu)師根據(jù)以往項目經(jīng)驗來設(shè)計新系統(tǒng)。

AFlow系統(tǒng)發(fā)現(xiàn)了ADAS在搜索過程中的一些問題，比如容易陷入局部最優(yōu)解，以及在大量歷史案例中容易迷失方向。為了解決這些問題，AFlow引入了蒙特卡洛樹搜索算法，這種算法能夠更系統(tǒng)地探索不同的設(shè)計可能性。它就像是給系統(tǒng)提供了一個智能的探索策略，既能深入挖掘有前景的設(shè)計方向，又能保持對新可能性的開放態(tài)度。

DebFlow系統(tǒng)則從另一個角度改進(jìn)了系統(tǒng)設(shè)計過程。它認(rèn)為依賴單一的元AI來設(shè)計系統(tǒng)存在視角局限性，就像是只讓一個人來設(shè)計復(fù)雜項目可能會有思維盲點。因此，DebFlow引入了多智能體辯論機(jī)制，讓多個AI從不同角度對系統(tǒng)設(shè)計方案進(jìn)行討論和評估，最后由一個仲裁AI來綜合各方意見并做出最終決策。

這些基于自然語言反饋的靈活結(jié)構(gòu)方法展現(xiàn)了AI系統(tǒng)自我設(shè)計能力的巨大潛力。它們不僅能夠優(yōu)化現(xiàn)有系統(tǒng)，還能創(chuàng)造出全新的系統(tǒng)架構(gòu)。這種能力特別適合處理那些需求復(fù)雜多變的應(yīng)用場景，因為系統(tǒng)可以根據(jù)新的需求動態(tài)調(diào)整自己的結(jié)構(gòu)和功能。

然而，這類方法也面臨著一些挑戰(zhàn)。首先是計算成本問題，因為系統(tǒng)設(shè)計過程需要大量的試驗和評估，特別是在使用商業(yè)AI服務(wù)時成本會很高。其次是穩(wěn)定性問題，因為給系統(tǒng)太大的設(shè)計自由度可能導(dǎo)致不可預(yù)測的行為。最后是評估問題，如何客觀評估一個全新設(shè)計的系統(tǒng)的質(zhì)量仍然是一個開放性挑戰(zhàn)。

六、靈活結(jié)構(gòu)與數(shù)值信號：用數(shù)據(jù)指導(dǎo)的架構(gòu)革新

在復(fù)合AI系統(tǒng)優(yōu)化的最前沿，有一類方法將結(jié)構(gòu)靈活性與數(shù)值信號相結(jié)合，讓系統(tǒng)能夠基于客觀的性能數(shù)據(jù)來重新設(shè)計自己的架構(gòu)。這種方法就像是讓一個工程師團(tuán)隊根據(jù)詳細(xì)的性能測試數(shù)據(jù)來重新設(shè)計整個生產(chǎn)系統(tǒng)，既有創(chuàng)新的自由度，又有科學(xué)的指導(dǎo)依據(jù)。

DyLAN系統(tǒng)提出了一個特別巧妙的建模思路。它將多輪對話和辯論過程建模為一個時間展開的前饋網(wǎng)絡(luò)，其中不同角色的AI在不同時間層上進(jìn)行交互。想象一下接力賽跑，每個跑者代表一個AI角色，每一棒代表一輪對話，整個接力過程就構(gòu)成了完整的問題解決流程。DyLAN的優(yōu)化策略是通過性能評估來識別那些對最終結(jié)果貢獻(xiàn)較小的"跑者"，然后將其從團(tuán)隊中移除，同時重新安排剩余成員之間的配合方式。

GPTSwarm系統(tǒng)則采用了更加分層的架構(gòu)設(shè)計思路。它將整個系統(tǒng)組織成三個層次：節(jié)點層負(fù)責(zé)基本的處理功能，智能體層將相關(guān)節(jié)點組合成具有特定能力的模塊，群體層則協(xié)調(diào)多個智能體之間的協(xié)作。這種設(shè)計就像是現(xiàn)代企業(yè)的組織結(jié)構(gòu)，有基層員工、部門經(jīng)理和高層決策者。GPTSwarm使用強(qiáng)化學(xué)習(xí)中的REINFORCE算法來優(yōu)化不同層次之間的連接關(guān)系，讓系統(tǒng)能夠自主學(xué)習(xí)最佳的協(xié)作模式。

在這一類別中，還有一個特別有趣的趨勢是查詢自適應(yīng)優(yōu)化。與之前討論的方法不同，這些方法不是為特定任務(wù)優(yōu)化一個通用系統(tǒng)，而是為每個具體查詢都設(shè)計一個專門的系統(tǒng)。這就像是為每位顧客量身定制服務(wù)方案，而不是提供標(biāo)準(zhǔn)化服務(wù)。

MAS-GPT系統(tǒng)是查詢自適應(yīng)方法的典型代表。它首先構(gòu)建了一個包含各種查詢類型的數(shù)據(jù)池和一個包含40多種常見系統(tǒng)設(shè)計模式的模板池。然后通過大量的評估、選擇和優(yōu)化過程，為不同類型的查詢匹配最適合的系統(tǒng)架構(gòu)。這個過程就像是一個經(jīng)驗豐富的項目經(jīng)理，能夠根據(jù)每個項目的特點選擇最合適的團(tuán)隊組合和工作流程。

AutoFlow系統(tǒng)采用了另一種有趣的方法，它使用特殊的CoRE語法來描述AI系統(tǒng)，然后訓(xùn)練一個元AI來生成這種語法描述的系統(tǒng)。優(yōu)化過程通過強(qiáng)化學(xué)習(xí)進(jìn)行，使用任務(wù)數(shù)據(jù)上的平均得分作為獎勵信號。對于那些無法直接微調(diào)的商業(yè)模型，AutoFlow還提供了基于上下文學(xué)習(xí)的替代方案。

MaAS系統(tǒng)引入了"智能體超網(wǎng)絡(luò)"的概念，這是一個覆蓋所有可能智能體架構(gòu)的概率分布。優(yōu)化過程就是在這個巨大的設(shè)計空間中尋找最優(yōu)配置。特別值得注意的是，MaAS在優(yōu)化目標(biāo)中不僅考慮了系統(tǒng)性能，還引入了計算成本因素，尋求性能和效率之間的最佳平衡點。

W4S系統(tǒng)則追求最大的設(shè)計靈活性，它只約束系統(tǒng)的輸入輸出接口，而對內(nèi)部實現(xiàn)不做任何預(yù)設(shè)限制。這種方法就像是給建筑師一塊空地和基本的建筑要求，讓其完全自由地設(shè)計建筑方案。W4S將整個系統(tǒng)設(shè)計過程建模為多步驟的馬爾可夫決策過程，讓元AI逐步學(xué)習(xí)如何根據(jù)環(huán)境反饋來設(shè)計和改進(jìn)系統(tǒng)。

FlowReasoner系統(tǒng)采用了混合優(yōu)化策略，首先使用監(jiān)督學(xué)習(xí)讓元AI掌握基本的系統(tǒng)設(shè)計能力，然后通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化設(shè)計質(zhì)量。這種兩階段方法類似于先讓學(xué)生學(xué)習(xí)基礎(chǔ)知識，再通過實踐項目來提升應(yīng)用能力。

ScoreFlow系統(tǒng)對傳統(tǒng)的直接偏好優(yōu)化方法進(jìn)行了擴(kuò)展，提出了Score-DPO算法。在每次迭代中，系統(tǒng)會為同一個查詢生成多個候選系統(tǒng)設(shè)計，然后根據(jù)實際執(zhí)行結(jié)果的質(zhì)量差異來構(gòu)建偏好數(shù)據(jù)，進(jìn)而指導(dǎo)后續(xù)的優(yōu)化過程。

這些基于數(shù)值信號的靈活結(jié)構(gòu)方法代表了AI系統(tǒng)自主設(shè)計能力的最新發(fā)展。它們不僅能夠創(chuàng)造新的系統(tǒng)架構(gòu)，還能夠基于客觀數(shù)據(jù)來評估和改進(jìn)設(shè)計質(zhì)量。然而，這類方法也面臨著一些挑戰(zhàn)，比如需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù)，以及在不同模型家族之間的泛化能力有限等問題。

七、面臨的挑戰(zhàn)與未來發(fā)展方向

盡管復(fù)合AI系統(tǒng)優(yōu)化領(lǐng)域取得了令人矚目的進(jìn)展，但研究團(tuán)隊也坦誠地指出了當(dāng)前面臨的主要挑戰(zhàn)，這些挑戰(zhàn)就像是前進(jìn)路上的幾座大山，需要研究者們共同努力來攀越。

第一個重大挑戰(zhàn)是過度依賴人工配置的問題。雖然這些優(yōu)化方法的目標(biāo)是實現(xiàn)自動化，但實際上仍然需要大量的人工干預(yù)。這就像是聲稱發(fā)明了自動駕駛汽車，但實際上還需要司機(jī)頻繁地手動調(diào)整方向盤和油門。在固定結(jié)構(gòu)的方法中，用戶需要根據(jù)領(lǐng)域?qū)I(yè)知識來設(shè)計系統(tǒng)架構(gòu)，這本身就是一個需要豐富經(jīng)驗的復(fù)雜任務(wù)。更令人困擾的是，許多方法中使用的提示模板都是研究者手工制作的，往往缺乏明確的設(shè)計原理或敏感性分析。

數(shù)值參數(shù)的配置問題同樣普遍存在。比如在DSPy系統(tǒng)中，需要人工決定引導(dǎo)采樣的數(shù)量，這個看似簡單的數(shù)字實際上對系統(tǒng)性能有重要影響。即使是那些看起來完全自動化的方法，比如MAS-GPT，在深入檢查后也會發(fā)現(xiàn)需要手動配置各種模板參數(shù)。這種情況就像是購買了一臺號稱"全自動"的洗衣機(jī)，但仍然需要手動設(shè)置水溫、洗滌時間和漂洗次數(shù)。

第二個嚴(yán)峻挑戰(zhàn)是計算負(fù)擔(dān)過重的問題。優(yōu)化復(fù)合AI系統(tǒng)本身就比優(yōu)化單個模型復(fù)雜得多，現(xiàn)有方法為了應(yīng)對這種復(fù)雜性，往往采用了計算成本很高的解決方案。基于自然語言反饋的方法需要多次調(diào)用大型語言模型來模擬單次梯度更新，這就像是為了做一道菜需要咨詢好幾位大廚，成本自然高昂。即使那些采用全局優(yōu)化策略的方法也需要在提示中嵌入大量上下文信息，導(dǎo)致每次API調(diào)用的成本顯著增加。

另一方面，基于數(shù)值信號的方法通常需要對開源模型進(jìn)行微調(diào)來獲得良好性能，這就將成本負(fù)擔(dān)從API費用轉(zhuǎn)移到了GPU計算資源上。開發(fā)者面臨著一個兩難選擇：要么承擔(dān)高昂的API成本，要么投入大量的GPU資源。更糟糕的是，許多靈活結(jié)構(gòu)方法過于關(guān)注系統(tǒng)性能，而忽略了對系統(tǒng)復(fù)雜度的控制，導(dǎo)致優(yōu)化后的系統(tǒng)可能包含大量冗余的多輪循環(huán)或冗長的執(zhí)行過程，在實際部署時消耗過多資源。

第三個挑戰(zhàn)是實驗評估范圍的局限性。雖然復(fù)合AI系統(tǒng)的初衷是解決復(fù)雜問題，但目前大多數(shù)研究主要在相對簡單的標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行評估，比如數(shù)學(xué)推理、常識問答和代碼生成等。這些評估雖然能夠反映方法的一般有效性，但可能無法充分展現(xiàn)復(fù)合系統(tǒng)在真正復(fù)雜任務(wù)中的優(yōu)勢。就像是只在平坦路面測試越野車的性能，而沒有在真正的崎嶇山路上驗證其能力。

研究團(tuán)隊建議未來的工作應(yīng)該更多地關(guān)注那些需要多個AI組件深度協(xié)作的復(fù)雜任務(wù)，比如AgentBench和AgentGym這樣的多任務(wù)基準(zhǔn)測試，或者GAIA這樣的真實世界場景評估。甚至可以考慮開發(fā)專門用于評估AI系統(tǒng)優(yōu)化方法的新型基準(zhǔn)測試，特別關(guān)注多模態(tài)協(xié)作和復(fù)雜推理任務(wù)。

第四個重要挑戰(zhàn)是理論基礎(chǔ)的薄弱。基于自然語言反饋的方法雖然在實踐中表現(xiàn)良好，但缺乏嚴(yán)格的理論保證。與傳統(tǒng)的數(shù)值梯度下降方法有著完善的收斂性證明不同，文本梯度下降的收斂性和最優(yōu)性至今沒有得到理論驗證。這種理論空白就像是在沒有地圖的情況下探索未知領(lǐng)域，雖然可能發(fā)現(xiàn)有趣的地方，但缺乏系統(tǒng)性的指導(dǎo)原則。

第五個挑戰(zhàn)是缺乏標(biāo)準(zhǔn)化的庫支持。目前該領(lǐng)域缺乏像TensorFlow或PyTorch那樣被廣泛接受的標(biāo)準(zhǔn)工具庫。雖然TextGrad和DSPy等工具已經(jīng)獲得了一定的關(guān)注，但大多數(shù)研究仍然使用自制的代碼庫。這種分散化的現(xiàn)狀阻礙了最佳實踐的傳播和方法的標(biāo)準(zhǔn)化比較。

面對這些挑戰(zhàn)，研究團(tuán)隊提出了幾個重要的發(fā)展方向。首先是開發(fā)真正的自動化優(yōu)化方法，減少對人工配置的依賴，就像從手動檔汽車發(fā)展到自動檔汽車一樣。其次是設(shè)計更加高效的優(yōu)化算法，在保證效果的前提下降低計算成本。第三是建立更加全面的評估體系，包括復(fù)雜任務(wù)基準(zhǔn)和多維度性能指標(biāo)。第四是加強(qiáng)理論研究，為自然語言反饋方法提供嚴(yán)格的數(shù)學(xué)基礎(chǔ)。最后是推動標(biāo)準(zhǔn)化工具的發(fā)展，建立統(tǒng)一的開發(fā)和評估平臺。

說到底，復(fù)合AI系統(tǒng)優(yōu)化這個領(lǐng)域就像是一個正在快速發(fā)展的新興城市，基礎(chǔ)設(shè)施還在建設(shè)中，各種創(chuàng)新想法層出不窮，但也面臨著成長的煩惱。臺灣大學(xué)研究團(tuán)隊的這項工作就像是為這座城市繪制了第一張詳細(xì)地圖，不僅標(biāo)明了現(xiàn)有的建筑和道路，還指出了未來發(fā)展的方向。雖然前路還有許多挑戰(zhàn)需要克服，但正是這些挑戰(zhàn)為研究者們提供了無限的探索空間和創(chuàng)新機(jī)會。

隨著人工智能技術(shù)的不斷進(jìn)步，我們有理由相信，復(fù)合AI系統(tǒng)將變得越來越智能、高效和易用。也許在不久的將來，普通用戶就能像搭積木一樣輕松地構(gòu)建和優(yōu)化屬于自己的AI系統(tǒng)，而不需要深厚的技術(shù)背景。這種民主化的AI工具將為各行各業(yè)帶來前所未有的創(chuàng)新機(jī)會，讓人工智能真正成為每個人都能使用的強(qiáng)大助手。

對于那些希望深入了解這項研究技術(shù)細(xì)節(jié)的讀者，強(qiáng)烈建議查閱臺灣大學(xué)研究團(tuán)隊發(fā)布的完整論文，其中包含了詳細(xì)的技術(shù)分析、實驗結(jié)果和代碼實現(xiàn)。該項目的開源代碼庫也為其他研究者提供了寶貴的參考資源，推動著整個領(lǐng)域的快速發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.