99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

人工智能也需要思考時間:淺談 “測試時計算” 的含義

0
分享至


2025年3月,蘭德公司(RAND)發(fā)布《當(dāng)人工智能需要時間思考時:淺談“測試時計算”的含義》(When AI Takes Time to Think: Implications of Test-Time Compute),文章介紹了“測試時計算”(Test-Time Compute,TTC)在推理型人工智能模型中的興起及其深遠(yuǎn)影響。啟元洞見編譯文章主要內(nèi)容,旨在為讀者了解“測試時計算”帶來的結(jié)構(gòu)性變革提供參考。

隨著OpenAI的o1、o3和DeepSeek的R1等推理型模型的出現(xiàn),人工智能開發(fā)體系中增添了一項重要能力:“測試時計算”(Test-Time Compute,TTC),這項能力在推理過程中顯著提升了模型性能。不同于傳統(tǒng)模型直接輸出答案的方式,推理模型采用顯式的分步思考流程,即通過“邊思考邊表達(dá)”的方式,嘗試多種解題路徑、生成中間推理步驟,并對可能的解答進(jìn)行比較評估,最終凝練出更可靠的輸出結(jié)果。

在一些情況下,人們甚至可以允許模型“思考”數(shù)分鐘生成幾十頁文本,然后模型將這段詳盡推理壓縮為用戶看到的一句簡潔回答。盡管這并非顛覆性的技術(shù)革命,但它是人工智能技術(shù)發(fā)展演進(jìn)的一部分,已經(jīng)在政策、產(chǎn)業(yè)格局與安全等領(lǐng)域引發(fā)連鎖反應(yīng)。如同其他技術(shù)進(jìn)步一樣,其影響不會立竿見影,但從長遠(yuǎn)來看,其累積效應(yīng)可能深遠(yuǎn)且不可忽視。

計算能力如何影響人工智能
的生命周期

在探討“測試時計算”的影響之前,應(yīng)先理解計算能力在人工智能開發(fā)與部署過程中的作用。過去,訓(xùn)練階段計算量的持續(xù)提升一直是推動人工智能進(jìn)步的主要動力,它使得人們能夠訓(xùn)練出越來越強大的擁有更多參數(shù)、使用更多數(shù)據(jù)的模型。而如今,測試時計算能力作為一個新增變量,進(jìn)入了這套機(jī)制。人工智能發(fā)展的路徑曾被簡單理解為“擴(kuò)大預(yù)訓(xùn)練計算規(guī)模”,但實際上遠(yuǎn)比這復(fù)雜。隨著推理階段計算量的引入,這個路徑進(jìn)一步變得多元復(fù)雜,從原先調(diào)控一個變量,轉(zhuǎn)變?yōu)橥瑫r優(yōu)化多個變量的系統(tǒng)工程。

簡言之,計算能力通過以下四個關(guān)鍵階段推動模型能力的提升。

(一)實驗階段

在這個階段,研究人員測試各種架構(gòu)設(shè)計(例如超參數(shù)、學(xué)習(xí)率及其他變量),尋找最優(yōu)方案,作為后續(xù)大規(guī)模訓(xùn)練的基礎(chǔ)。

(二)預(yù)訓(xùn)練階段

在這個階段,研究人員通過在互聯(lián)網(wǎng)龐大的數(shù)據(jù)集上對模型進(jìn)行大規(guī)模訓(xùn)練,為模型建立基礎(chǔ)能力。

(三)后訓(xùn)練階段

在這個階段,研究人員通過強化學(xué)習(xí)、指令微調(diào)等方法,讓模型在某些特定任務(wù)中表現(xiàn)優(yōu)異或者更像一個聊天機(jī)器人。近年來,還新增了通過強化學(xué)習(xí)來教會模型“逐步推理”能力的功能。

(四)部署階段

部署階段包括部署能力與部署規(guī)模。關(guān)于部署能力,指模型在響應(yīng)用戶提問時“思考”的時間,即測試時計算能力。關(guān)于部署規(guī)模,指系統(tǒng)的用戶規(guī)模或人工智能體的部署數(shù)量,當(dāng)數(shù)以百萬計用戶同時發(fā)出請求時,這就成為影響性能的關(guān)鍵因素。

當(dāng)前的變化,不在于計算能力是否仍然重要,而在于計算能力在哪些階段、以何種方式發(fā)揮作用。一個常見的誤解是,由于推理模型變得更高效,計算能力的重要性下降。事實恰恰相反,這些所謂的高效新進(jìn)展,仍然是建立在大規(guī)模預(yù)訓(xùn)練基礎(chǔ)模型之上的,而訓(xùn)練這些模型需要動用數(shù)千塊加速芯片和數(shù)百萬美元的資源投入。

當(dāng)模型完成初步訓(xùn)練后,人們會發(fā)現(xiàn)兩個新的“可擴(kuò)展杠桿”出現(xiàn)了:一個是后訓(xùn)練階段,在此階段可以通過強化學(xué)習(xí)進(jìn)一步塑造模型的推理能力;另一個是推理階段,這個階段與過去主要依賴訓(xùn)練數(shù)據(jù)規(guī)模和模型體量來提升能力不同,推理型模型通過在此階段投入更多計算時間,也能夠顯著增強其解決問題的能力,盡管這種能力仍然建立在預(yù)訓(xùn)練打下的基礎(chǔ)和后續(xù)訓(xùn)練形成的推理機(jī)制之上。

如今“測試時計算”為推動人工智能能力增長開辟了新的路徑。盡管當(dāng)前這一變化看似緩慢演進(jìn),但未來可能對人工智能的技術(shù)生態(tài)與相關(guān)政策體系帶來深遠(yuǎn)影響。

測試時計算的六大影響

(一)創(chuàng)新周期正在加速

隨著已經(jīng)投身推理研究的團(tuán)隊(如OpenAI、DeepSeek等)以及更多新入局者的不斷探索,人工智能的性能提升將加速發(fā)展。在這一新興研究領(lǐng)域中,迭代速度更快,只需通過強化學(xué)習(xí)或增加推理時間即可提升性能,無需耗資數(shù)百萬美元進(jìn)行一次全新的預(yù)訓(xùn)練,這使得更新成本更低。

此外,這種相對低門檻的性能提升方式吸引了更多開發(fā)者參與人工智能研究,尤其是學(xué)術(shù)界的研究者,他們更傾向于分享發(fā)現(xiàn),從而加速行業(yè)進(jìn)步。這也將推動技術(shù)的共享,已有前沿模型擁有者與相對弱勢競爭者之間的差距可能會比預(yù)訓(xùn)練主導(dǎo)時代更快縮小。但與此同時,預(yù)訓(xùn)練方面的進(jìn)展仍在持續(xù),每一代重大躍升仍可能帶來新的能力鴻溝。

性能提升最快的領(lǐng)域,預(yù)計將是那些具備清晰反饋機(jī)制、結(jié)果易于驗證的領(lǐng)域,尤其是數(shù)學(xué)和軟件工程領(lǐng)域。這一點具有重要意義,因為許多模型開發(fā)者本身就是軟件工程師,這將形成一個正向反饋循環(huán):工程師利用模型提升工作效率,帶來更多使用與創(chuàng)新,從而催生更優(yōu)秀的下一代模型。但這種推理能力是否能順利遷移到其他領(lǐng)域仍需時間驗證。

(二)技術(shù)共享加速,同時維持領(lǐng)先優(yōu)勢

測試時計算同時服務(wù)于領(lǐng)先企業(yè)與中小開發(fā)者,先進(jìn)模型可借此獲得更強推理能力,較小規(guī)模的系統(tǒng)也可實現(xiàn)過去需要大規(guī)模預(yù)訓(xùn)練才能達(dá)到的性能。但這并不意味著計算門檻的降低或消失,而是人工智能演進(jìn)中算法效率提升的又一次飛躍,即在既定性能水平下所需的計算成本變得更低。但要推進(jìn)最前沿的能力,仍需巨大的資源投入。

領(lǐng)先企業(yè)通過在其最新、最大模型中集成推理技術(shù)來維持優(yōu)勢。而中小開發(fā)者則能以更有限的資源達(dá)成過去的頂尖表現(xiàn),雖然差距縮小,但尚未完全彌合。

(三)分級使用推理模型

測試時計算促進(jìn)了人工智能能力的靈活性,同一個模型,依據(jù)任務(wù)中分配的計算資源不同,可以展現(xiàn)出不同的“智能水平”。這一問題目前就已顯現(xiàn):是否必須訂閱高級版本才能使用最先進(jìn)的能力?對于簡單查詢,可能并無必要,但許多用戶為了在特定任務(wù)中獲得更優(yōu)表現(xiàn),仍會選擇付費升級。展望未來,用戶不僅要挑選合適的模型,還可能需要決定讓模型“思考”多長時間,以平衡效率與性能。

(四)部署能力:從“部署規(guī)模”到“部署
規(guī)模與智能水平的協(xié)同提升”

部署時的計算資源一直是決定人工智能影響力的關(guān)鍵,它決定了可以服務(wù)多少用戶,進(jìn)而影響人工智能在不同行業(yè)、領(lǐng)域的滲透程度。而如今,測試時計算的引入加劇了計算資源與模型智能之間的耦合關(guān)系,同一模型在被分配不同的推理時間后會表現(xiàn)出不同“智商”。

這一變化帶來了重要的地緣政治與經(jīng)濟(jì)影響。在地緣政治方面,計算資源充足的國家可以通過補貼人工智能服務(wù)的方式在國際上擴(kuò)大軟實力。在經(jīng)濟(jì)方面,擁有推理計算資源的國家,擁有著將先進(jìn)人工智能批量部署并盈利的能力,這可能形成“部署成功-賺取利潤-繼續(xù)升級”的正反饋機(jī)制。

(五)合成數(shù)據(jù)推動能力飛輪

推理能力的進(jìn)一步提升可能依賴于“合成推理數(shù)據(jù)”的生成,即由人工智能自行產(chǎn)出的推理樣本,這類數(shù)據(jù)將成為越來越有價值的戰(zhàn)略資源。每一代模型都借助上一代生成的推理樣式來進(jìn)行強化,從而進(jìn)一步增強下一代模型的推理能力,形成加速能力進(jìn)化的閉環(huán)。

同時,這一機(jī)制也可能加劇數(shù)據(jù)安全風(fēng)險,使“推理數(shù)據(jù)竊取”成為新隱患。但從長期看,保護(hù)此類合成數(shù)據(jù)可能并不現(xiàn)實,數(shù)據(jù)獲取途徑可能會迅速擴(kuò)散。例如DeepSeek R1所共享的鏈?zhǔn)剿季S推理方式,已經(jīng)惠及其他團(tuán)隊。這種推理數(shù)據(jù)的廣泛傳播,也可能進(jìn)一步縮小前沿技術(shù)擁有者與相對弱勢競爭者之間的差距。

(六)政策制定面臨信息不對稱挑戰(zhàn)

隨著人工智能能力的不斷躍升,從外部視角做出明智的政策決策正變得越來越困難。推理模型的技術(shù)細(xì)節(jié)及其發(fā)展路徑常被公司作為商業(yè)秘密加以保護(hù),這造成了開發(fā)者與政策制定者之間日益擴(kuò)大的信息鴻溝。若不正視并彌補這些信息不對稱,政策制定者可能將越來越難以跟上人工智能演化的腳步。

結(jié)語

測試時計算并非顛覆性地改寫了人工智能發(fā)展的全部邏輯,但它無疑引入了一個重要的新變量,值得政策制定者高度重視。這是人工智能發(fā)展中的一次結(jié)構(gòu)性演進(jìn),新增的變量正在重新塑造政策應(yīng)對的重點和邊界。

事實表明,人工智能的發(fā)展并不是沿著一條單一、持續(xù)上升的曲線前行。如今,這一進(jìn)程更像是多條曲線并行推進(jìn)(包括預(yù)訓(xùn)練、強化學(xué)習(xí)和測試時計算等)。然而,政策體系往往滯后于技術(shù)發(fā)展,常常在新變量已經(jīng)深刻影響產(chǎn)業(yè)發(fā)展和社會走向后,政策制定者才意識到其帶來的挑戰(zhàn)。

免責(zé)聲明:本文轉(zhuǎn)自啟元洞見。文章內(nèi)容系原作者個人觀點,本公眾號編譯/轉(zhuǎn)載僅為分享、傳達(dá)不同觀點,如有任何異議,歡迎聯(lián)系我們

研究所簡介

國際技術(shù)經(jīng)濟(jì)研究所(IITE)成立于1985年11月,是隸屬于國務(wù)院發(fā)展研究中心的非營利性研究機(jī)構(gòu),主要職能是研究我國經(jīng)濟(jì)、科技社會發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題,跟蹤和分析世界科技、經(jīng)濟(jì)發(fā)展態(tài)勢,為中央和有關(guān)部委提供決策咨詢服務(wù)。“全球技術(shù)地圖”為國際技術(shù)經(jīng)濟(jì)研究所官方微信賬號,致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見。

地址:北京市海淀區(qū)小南莊20號樓A座

電話:010-82635522

微信:iite_er

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

全球技術(shù)地圖 incentive-icons
全球技術(shù)地圖
洞見前沿,引領(lǐng)未來
3852文章數(shù) 13394關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈里的“詩與遠(yuǎn)方

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 博客| 乌审旗| 华坪县| 宣化县| 佛教| 凤山县| 安顺市| 容城县| 航空| 南昌市| 西畴县| 云龙县| 宜君县| 板桥市| 许昌县| 广饶县| 沾化县| 台前县| 大连市| 光泽县| 东阳市| 江阴市| 南和县| 花垣县| 武隆县| 日喀则市| 屯门区| 庄浪县| 昆明市| 贺兰县| 波密县| 金阳县| 安康市| 许昌市| 奈曼旗| 南郑县| 丽江市| 建湖县| 谢通门县| 吉水县| 双江|