高考是左右命運(yùn)的人生“大考”,也是人工智能的試金石。
AI 寫作文到 AI解數(shù)學(xué)和物理題,“炫技”的表演已經(jīng)很多了,而“解題”被當(dāng)成系統(tǒng)工程的審視仍然很少。AI 參加高考全科目考試的意義不在成績,而在方法,以及這種方法在“解題”之外的意義。
按常理思考,當(dāng)一名 AI 在高考中達(dá)到了一本的錄取分?jǐn)?shù)線,我們似乎可以認(rèn)為它能幫我們解決工作中的一些基礎(chǔ)需求和問題。而當(dāng)它能考上985院校的時(shí)候,我們覺得可以把一些更需要智能和方法論的復(fù)雜任務(wù)交給它了。它能考上清華和北大的時(shí)候,我們理應(yīng)派給它一些挑戰(zhàn)人類高難度認(rèn)知和解決方案的使命……等它先真能考上再說吧。
今年,有一個(gè) AI 好像真的考上了。
2025年高考,字節(jié)跳動(dòng)旗下的通用大模型——豆包大模型1.6(Seed 1.6-Thinking),以文科683分、理科648分的成績,在Gemini 2.5、DeepSeek-R1、Claude Sonnet 4和OpenAI-o3等一系列全球頂級(jí)通用大語言模型中,文科位居第一,理科位居第二(僅次于Gemini)。按照最早公布分?jǐn)?shù)線的山東省分?jǐn)?shù)線,綜合賦分約為690分,在山東省模擬排名可進(jìn)入前80名,理論上具備了沖擊清華和北大的實(shí)力。
豆包能沖擊清北,跟人類學(xué)霸考上清北,有非常類似的內(nèi)在“素質(zhì)”,以及非常接近的“拿分”方法論。
你無法想象一個(gè)基礎(chǔ)知識(shí)掌握不扎實(shí)、智商在人均水準(zhǔn)之下的學(xué)生能考上清北;同理,一個(gè)參數(shù)不夠、訓(xùn)練不完善、知識(shí)和語料庫不完整的大模型也考不上。更重要的,一個(gè)考上清北的學(xué)生一定是善于思考、心思縝密、巧于答題時(shí)間分配,從全局駕馭一張?jiān)嚲淼母呤郑煌?,一個(gè)能考上清北的AI 也得具備強(qiáng)大的思維鏈條,能用直覺和推理兩種能力高效解題,具備從復(fù)雜的命題中抽取本質(zhì)的能力。
問題在于,它是怎么做到的,它為什么重要,以及意味著什么。
「豆包1.6」是如何答題的?
參加高考的是豆包大模型1.6(下稱豆包1.6),比起前代的模型,它在兩項(xiàng)關(guān)鍵能力上取得了重要的提升:“深度思考(Seed1.6-Thinking)”和“多模態(tài)+超長上下文(256K)”。
豆包1.6融合了視覺與文本模態(tài),在一個(gè)整體架構(gòu)下進(jìn)行訓(xùn)練。它支持高達(dá)256K長度的上下文輸入——這意味著模型有近似25萬字節(jié)的信息“瞬間記憶”容量,遠(yuǎn)超傳統(tǒng)模型的上下文長度。
在考試中,豆包1.6可以一口氣消化整卷試題,無論是冗長的閱讀理解文章、鋪陳的資料分析,還是跨頁的題干信息,都能一次性消化、不遺漏任何細(xì)節(jié)。這種就算是最聰明的考生也難具備的能力,對(duì)高考科目的拿分是全方位的——語文和英語科目的閱讀理解,往往附有長篇文章和整套問題,傳統(tǒng)模型可能需要分段處理,而豆包1.6可將全文及所有問題置于統(tǒng)一的上下文中逐一作答,避免了上下文切換造成的信息遺失與錯(cuò)誤理解。
打個(gè)比方,就是考生把整本試卷打開,正反面都能攤開鋪在一張桌面上,凝視數(shù)十秒,一次性記憶整套試卷的內(nèi)容,短期內(nèi)不會(huì)遺忘,然后在答題紙上作答。
而在理科和文科的很多題目中,圖片、圖表與文字資料往往交織出現(xiàn),需要考生具備“讀圖”“識(shí)圖”的本領(lǐng)。例如,生物考題的細(xì)胞結(jié)構(gòu)示意圖,化學(xué)題的實(shí)驗(yàn)裝置圖或分子結(jié)構(gòu)式,地理題的等高線地形圖或氣候統(tǒng)計(jì)圖,政治歷史題時(shí)常出現(xiàn)的漫畫時(shí)政圖解。這些豆包都通過視覺—語言深度融合訓(xùn)練,即它的VLM(視覺語言模型),具備了從像素中提取關(guān)鍵信息并準(zhǔn)確理解它們的能力。
這里有個(gè)很有意思的bug:首次測試時(shí),由于使用的網(wǎng)絡(luò)版試卷圖片清晰度較低,豆包1.6和其它模型在化學(xué)、生物等依賴圖像的科目上普遍失分嚴(yán)重;而當(dāng)研究團(tuán)隊(duì)更換高清試題圖片,并采用圖文交織的輸入方式重新測試后,豆包1.6的化學(xué)、生物兩科成績猛增近30分,這讓理科總分提升至676分(這就超過Gemini得第一了)。這表明模型之前并非不會(huì)做,而是“看不清題”。高清圖像讓豆包充分發(fā)揮出多模態(tài)推理潛能,在涉及實(shí)驗(yàn)現(xiàn)象觀察、結(jié)構(gòu)辨識(shí)的題目上找到了正確解答思路。
可以說,多模態(tài)能力為模型打開了“視覺理解”的大門,加上超長上下文提供的“全局記憶”,豆包在理科綜合題中像是配備顯微鏡與長卷紙的學(xué)霸:既看清每個(gè)圖表細(xì)節(jié),又能把關(guān)聯(lián)信息通盤考慮,層層推演出答案。
讓我們再拆解一下豆包Seed1.6-Thinking在各個(gè)學(xué)科上的“拿分”技能點(diǎn)——
它在語文、英語兩門語言科目拿下單科第一,離不開強(qiáng)大的語言理解和表達(dá)能力,更得益于模型能綜合長篇文章內(nèi)容并進(jìn)行邏輯分析。在閱讀理解題中,模型可借助鏈?zhǔn)剿伎际崂砦恼旅}絡(luò)、推斷隱含信息;在主觀表達(dá)題(如作文、短文寫作)中,模型調(diào)動(dòng)海量語料中學(xué)到的知識(shí)和范文經(jīng)驗(yàn),輔以上下文整體把控,輸出結(jié)構(gòu)嚴(yán)謹(jǐn)、立意深刻的篇章。
它在數(shù)學(xué)與物理學(xué)科的表現(xiàn)則凸顯了“深度思考”的價(jià)值:Seed1.6-Thinking數(shù)學(xué)成績超過140分,物理取得了單科最高分。數(shù)理題目都充滿復(fù)雜計(jì)算和推導(dǎo),模型通過鏈?zhǔn)酵评碇鸩角蠼?,每一步都有條不紊。不少數(shù)學(xué)和物理題目都涉及多步單位換算、公式推導(dǎo),甚至綜合多知識(shí)點(diǎn)。在“自適應(yīng)深度思考”驅(qū)動(dòng)下,模型仿佛在“草稿紙”上列出了詳盡的推演過程,既避免漏解步驟,又降低了出錯(cuò)概率。
在化學(xué)、生物科目上,讀圖和讀表是關(guān)鍵的能力——這在視覺障礙消除后的表現(xiàn)中被展露得更為清晰。此外,化學(xué)計(jì)算題需要繁瑣的方程式配平和多步驟數(shù)值計(jì)算,深度思考使模型敢于在內(nèi)部展開繁復(fù)運(yùn)算而不擔(dān)心浪費(fèi)時(shí)間;生物學(xué)的分析題常涉及生理過程多環(huán)節(jié)推理,模型則通過長鏈思考將各環(huán)節(jié)因果串聯(lián)起來,層層推進(jìn)得出正確結(jié)論。
在政治、歷史和地理學(xué)科,首要得是Seed 1.6-Thinking預(yù)訓(xùn)練階段積累的知識(shí)儲(chǔ)備——大量高質(zhì)量學(xué)科訓(xùn)練語料和知識(shí)圖譜,饋贈(zèng)給了模型扎實(shí)的背景知識(shí),也就是模型“書背得足夠好”。而史、地、政三科考查的不僅是記憶,還有對(duì)材料的分析、對(duì)理論的應(yīng)用。而Seed1.6-Thinking在這三門學(xué)科均拿下最高分,意味著模型在掌握豐富的事實(shí)與概念與利用鏈?zhǔn)酵评韺?duì)材料進(jìn)行批判性分析上面,它掌握得相當(dāng)出色。
一言以蔽之,多模態(tài)VLM+長上下文讓模型在考場上“目覽八方”——不是偷看鄰座的卷子,而是一口氣消化完自己眼前的卷子。而深度思考則令其“心思縝密”,靈活答題策略和技巧。
而它在文史和理工科目上的表現(xiàn)皆可圈點(diǎn),似乎昭示了大型通用模型在復(fù)雜認(rèn)知任務(wù)的潛力——通過深度思考優(yōu)化推理策略、通過多模態(tài)長上下文拓展感知疆界。
解各行各業(yè)的題
經(jīng)歷過高考勝出,然后又在各行各業(yè)的職場和生意場打拼了10年以上的同學(xué)可能都清楚:高考那5-6門學(xué)科的“解題”,好像是我們漫長的職業(yè)生涯和社會(huì)角色扮演中最容易解的題。
高考之后生活工作的「題」,“考上清北“的 AI 能不能比清北畢業(yè)的人類更擅長?
一個(gè)并不復(fù)雜的遞進(jìn)思辨是:具備考上清北的能力,同時(shí)不受“專業(yè)”知識(shí)束縛,而具備更強(qiáng)大通用知識(shí)和認(rèn)知習(xí)得能力的 AI 也許是可以的。
回到豆包大模型1.6,它的高考解題技巧是“自適應(yīng)深度思考“和“多模態(tài)VLM+超長上下文推理”,這是一種通用能力,而并非專業(yè)能力。
人類從事的各行各業(yè)充滿了智能任務(wù)的挑戰(zhàn)。幾乎所有的挑戰(zhàn)都可以總結(jié)成兩個(gè)巨大的壁壘——信息跨度大、推理難度高。
而豆包大模型1.6 作為通用模型,兩項(xiàng)關(guān)鍵的能力:“自適應(yīng)深度思考”和多模態(tài)+長上下文處理,分別對(duì)準(zhǔn)了上述的“信息跨度大”和“推理難度高”這兩個(gè)關(guān)鍵挑戰(zhàn):“自適應(yīng)深度思考”是在推理迷宮中找到出口的方法論,而“多模態(tài)+超長文本處理”是將散落的信息串聯(lián)成有意義的整體。
看看金融領(lǐng)域能用它們做些什么——
面對(duì)冗長的財(cái)務(wù)報(bào)表和財(cái)政法規(guī)、鋪天蓋地的市場數(shù)據(jù)。模型256K上下文窗口可以一口氣讀完且保留要點(diǎn);財(cái)務(wù)指標(biāo)異常,模型能找到起對(duì)應(yīng)的法規(guī)細(xì)則,像資深審計(jì)師那樣捕捉到潛在風(fēng)險(xiǎn)。
自適應(yīng)深度思考則令模型思考收放自如:判斷某新業(yè)務(wù)是否違規(guī),模型先定位相關(guān)法規(guī)條款,情形復(fù)雜就逐條對(duì)比業(yè)務(wù)細(xì)節(jié)與法律條文,演繹出觸碰監(jiān)管紅線的可能性,給出有理有據(jù)的結(jié)論。它既是董秘,也是審計(jì),還可以當(dāng)分析師。
再看看醫(yī)療行業(yè)——
醫(yī)生既要瀏覽冗長病史,又得凝視影像片上的細(xì)微陰影——兩種模態(tài)的信息需在腦中交匯。豆包1.6的多模態(tài)長上下文能將病歷文本和 CT、核磁影像一次納入視野,即便患者多年累積的病史和檢驗(yàn)結(jié)果也可以一覽無余,不會(huì)遺漏某次過敏或指標(biāo)緩慢變化,全局把控為準(zhǔn)確診斷打下基礎(chǔ)。
診斷過程往往推理難度極高:癥狀可能相互矛盾、影像特征模糊不清,需要反復(fù)演繹各種可能。自適應(yīng)深度思考可以賦予模型鑒別診斷式的推理能力:情況簡單便直達(dá)結(jié)論,病情復(fù)雜則觸發(fā)鏈?zhǔn)酵魄貌∫?。模型羅列可能疾病、對(duì)照影像尋找關(guān)鍵征象并結(jié)合病史排除干擾,層層推演后輸出清晰的診療建議。
還有軟件工程——
現(xiàn)代軟件項(xiàng)目代碼成千上萬行,分散于眾多文件模塊,一個(gè)細(xì)小漏洞往往藏在跨文件的函數(shù)調(diào)用鏈里。調(diào)試如此龐雜的系統(tǒng),以往模型受限于短上下文窗口,只能盲人摸象地片段查看代碼。
用256K 上下文,模型可將海量相關(guān)代碼一次納入腦海,構(gòu)建完整的全局視圖。某個(gè)函數(shù)跨文件定義、調(diào)用和配置時(shí),模型記住初始假設(shè),追蹤調(diào)用再關(guān)聯(lián)配置參數(shù),一氣呵成找出癥結(jié)。而自適應(yīng)深度思考則讓模型具備程序員調(diào)試時(shí)的分層思維:簡單情況直接定位錯(cuò)誤,隱蔽bug 則自動(dòng)進(jìn)入“逐步調(diào)試”模式,在內(nèi)部一步步模擬執(zhí)行、檢查變量變化,甚至窮舉不同路徑的輸出。它的角色相當(dāng)于一名全棧工程師——字節(jié)跳動(dòng)的編程輔助工具TRAE的背后,也是豆包1.6這個(gè)模型。
更重要的,我們引以為傲的“中國制造”——
工廠里的聯(lián)網(wǎng)設(shè)備每刻都在產(chǎn)生日志和監(jiān)控畫面。設(shè)備一旦故障,工程師需同時(shí)查看分散各處的傳感器日志和報(bào)警記錄,并結(jié)合攝像頭畫面或設(shè)備示意圖定位問題。這意味著信息跨度極大且燒腦的因果推理。
在這類場景里,具備多模態(tài)和超長上下文的模型宛如超級(jí)“監(jiān)工”兼“分析師”。它可讀入數(shù)小時(shí)、數(shù)天甚至更長時(shí)間范圍的關(guān)鍵日志,并同步調(diào)取故障發(fā)生時(shí)的視頻截圖或設(shè)備照片。借助超長上下文,那些散落各處的異常事件被匯聚到模型的時(shí)序記憶中:也許凌晨的一次電壓微跌與午后的溫度飆升看似無關(guān),卻被模型串聯(lián)成潛在因果鏈。
當(dāng)畫面中某閥門冒煙的瞬間,模型的視覺分析將其納入推理:壓力異常導(dǎo)致閥門老化破裂,煙霧報(bào)警隨之而起——多源信息最終指向同一故障根因。自適應(yīng)深度思考則拿捏推理深度:日志清楚表明的簡單超標(biāo),它直接指出問題;但遇到復(fù)雜連鎖故障,它耐心層層深挖,將每步因果梳理清晰??赡芟韧茢?A 引發(fā) B,再探究 A 停機(jī)原因,如此步步推理,還原事故鏈條。人類工程師或許要熬夜逐步排查,而模型幾分鐘內(nèi)便條理清晰地給出故障報(bào)告和修復(fù)建議。
以上領(lǐng)域看似迥異,本質(zhì)上都面臨信息跨度大、推理難度高的挑戰(zhàn)。豆包1.6 展現(xiàn)的通用模型范式,正是通過超長上下文融合多模態(tài)信息,配以自適應(yīng)深度思考能力,看上去給出了一個(gè)目前解決跨行業(yè)普適性挑戰(zhàn)的較優(yōu)解。
它展現(xiàn)出的是跨場景的遷移潛力——從考場試題到行業(yè)難題,統(tǒng)一的模型架構(gòu)能應(yīng)對(duì)不同領(lǐng)域和模態(tài)的數(shù)據(jù),歸功于對(duì)底層思維方式的靈活調(diào)度。這是比“高考“復(fù)雜百倍千倍甚至萬倍的命題和挑戰(zhàn)。一個(gè)優(yōu)秀的高考考生可能要在走出考場之后20-30年才能逐漸積累出解決這些問題的一部分能力,但能考上清北的AI,很可能已經(jīng)快做到了。
為“解題”而生的引擎
“能看全、能想深”——前者對(duì)應(yīng)的是多模態(tài)VLM+ 256K長文本處理,后者對(duì)應(yīng)的是自適應(yīng)深度思考框架。它們構(gòu)成了豆包大模型1.6 的兩個(gè)核心能力,也形塑了豆包作為一個(gè)大語言模型的稟賦。
它的后臺(tái),是一條被火山引擎云架構(gòu)拉到極限的高速公路。
2024年 12 月,火山引擎一天處理4萬億 tokens;到了2025年3月,這個(gè)數(shù)字跳到了 12.7 萬億;5月底又爬到16.4萬億,較發(fā)布初期增長了137倍,而且曲線還在抬頭。IDC的報(bào)告顯示:火山引擎在中國公有云大模型調(diào)用場景下吃掉46.4%市場份額,接近半壁江山。
這種陡峭的增長對(duì)云基礎(chǔ)設(shè)施提出了嚴(yán)苛考驗(yàn)——如何在峰值流量下從容應(yīng)對(duì)?火山引擎的彈性算力架構(gòu)給出了優(yōu)解:龐大的 GPU 集群如同會(huì)呼吸的“云端肌肉”,能根據(jù)負(fù)載實(shí)時(shí)擴(kuò)容或回收。當(dāng)成千上萬復(fù)雜請求并發(fā)涌來,調(diào)度系統(tǒng)迅速分配更多算力,確保模型響應(yīng)依舊穩(wěn)定迅捷;當(dāng)夜深流量回落,資源又自動(dòng)降載休整,不浪費(fèi)一瓦電力。這種彈性能力使得無論調(diào)用頻率漲到何種量級(jí),服務(wù)都能平穩(wěn)運(yùn)行,如同高架橋底下的減震柱,默默消解流量沖擊。
彈性的背后是對(duì)算力精細(xì)打磨和調(diào)度優(yōu)化?;鹕揭嫱ㄟ^參數(shù)與算力解耦、KV緩存復(fù)用、異構(gòu)硬件適配等技術(shù),大幅提升了單卡推理吞吐,讓相同GPU集群可以提供數(shù)倍的服務(wù)能力。在延遲不敏感的場景,系統(tǒng)甚至?xí)擅钫{(diào)度舊型號(hào)GPU承擔(dān)部分計(jì)算,讓“老將”發(fā)揮余熱,進(jìn)一步降低成本。
豆包1.6的單位調(diào)用的綜合成本,相比上一代深度思考模型下降了約63%——只需過去三分之一的價(jià)格,就能驅(qū)動(dòng)更強(qiáng)大的模型跑起來。
豆包大模型1.6 和被它“倒逼”優(yōu)化的火山引擎,對(duì)AI應(yīng)用開發(fā)者和企業(yè)意味著更多的選項(xiàng)以及可能。
這意味著開發(fā)者和企業(yè)客戶可以用更低門檻、更可控的成本,放心地把海量請求交給云端的通用智能處理,而不必?fù)?dān)心算力瓶頸。對(duì)于開發(fā)者而言,豆包 1.6 那些看似復(fù)雜的技能如今都被云平臺(tái)轉(zhuǎn)化為可調(diào)用的 “應(yīng)用能力”——多模態(tài)、超長上下文、自適應(yīng)深度思考……這些模型特性在火山引擎的打磨下,變成了一系列直觀易用的接口和參數(shù)選項(xiàng)?;逎乃季S鏈機(jī)制被封裝成一個(gè)聰明的開關(guān),真正做到了按需取用。
同樣,“通用智能”龐大的輸入適配能力也被云端巧妙打理,讓開發(fā)者可以毫無負(fù)擔(dān)地喂給模型任何形式的內(nèi)容。從法律長文檔到高清圖像,從代碼片段到表格數(shù)據(jù),火山引擎都會(huì)先行對(duì)輸入進(jìn)行預(yù)處理和格式轉(zhuǎn)換,再交由模型吞入理解。面對(duì)一張圖片,平臺(tái)后臺(tái)會(huì)自動(dòng)將其轉(zhuǎn)碼為模型可理解的向量特征;面對(duì)十幾萬字的長文本,底層會(huì)進(jìn)行分段緩存和上下文管理,充分利用256K的超長窗口,確保模型一次性“讀”完文件不成問題。
火山引擎還提供了豐富的行業(yè)適配工具,幫助將通用模型快速調(diào)校到特定領(lǐng)域的語境中。無論是接入金融行業(yè)的專業(yè)術(shù)語庫,還是加載醫(yī)療領(lǐng)域的知識(shí)圖譜,這些附加的上下文與提示都可以通過簡單配置融合到模型調(diào)用中,使其回答更貼近行業(yè)需求。
一言以蔽之:豆包1.6 的推理、語言、視覺能力,經(jīng)過云基建的二次打包,化作一個(gè)個(gè)直接調(diào)用的功能接口。開發(fā)者只需聚焦業(yè)務(wù)本身,就能讓應(yīng)用具備閱讀百頁文件、識(shí)別圖像內(nèi)容、理解專業(yè)語境等智能特長。通用智能的底層技能,被平滑遷移成了各行各業(yè)的即取即用工具。
這意味著,火山引擎成了“為應(yīng)用落地而生的云”——高考其實(shí)是一個(gè)典型的應(yīng)用場景,金融、醫(yī)療、軟件和工業(yè)制造也是由形形色色的應(yīng)用和Agent 構(gòu)成的,它離應(yīng)用場景更近。
它的背后,還是把豆包最新模型的兩個(gè)硬核能力——自適應(yīng)深度思考與多模態(tài)-超長上下文——順勢轉(zhuǎn)譯成了直接可消費(fèi)的應(yīng)用能力。
前者通過調(diào)度器感知推理鏈長短,將“要不要展開思考”變成一種可以被 API 參數(shù)調(diào)用、被計(jì)量計(jì)費(fèi)的服務(wù)檔位;后者則把一次吞下 256 K token、跨圖文音的感知能力,封裝成搜索、編程、巡檢等場景一鍵接入的上下文窗口。
對(duì)終端開發(fā)者而言,調(diào)用豆包并不需要關(guān)心背后多少GPU和KV 分片,而是像配置水龍頭流量那樣:決定是打開“短鏈秒答”還是“深鏈剝洋蔥”,是上傳純文本還是連同 4K 圖像一起喂給模型?;鹕揭姘选澳P湍芰Α弊龀伞爱a(chǎn)品形態(tài)”,是為了方便消費(fèi)電子秒接語音助手,證券公司一鍵喚起智能投研,工廠把多源日志和紅外圖打包送上云就得到故障溯因——算力、存儲(chǔ)、帶寬、RAG、端云協(xié)同在背后默默伸縮,而開發(fā)者面向的始終是一套業(yè)務(wù)語義清晰、顆粒度靈活的 AI 服務(wù)。
這種“把底層魔法改造成上層開關(guān)”的設(shè)計(jì),才讓 16.4 萬億tokens的實(shí)際生產(chǎn)流量成為可能,而它在最近一次最接近社會(huì)公眾的表現(xiàn),是通過“考上清北” 實(shí)現(xiàn)的。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.