從 “陪跑” 到 “領(lǐng)跑”
豆包如何實現(xiàn)技術(shù)躍遷?
高考作為大模型絕佳測試場景,其價值無可替代:一方面,題目設(shè)計具有極強的系統(tǒng)性和全面性,可以全面檢驗?zāi)P偷幕A(chǔ)知識儲備與跨領(lǐng)域處理能力;另一方面,高考題目每年更新,也能直觀反映模型面對新問題時的泛化能力。
山東是高考大省,此次字節(jié)跳動Seed團隊此次以2025年山東高考真題為標(biāo)尺,含金量不言而喻。
一同參考的考生還有業(yè)界主流的推理模型Gemini2.5-Pro-0605、DeepSeek-R1-0528、Claude-Sonnet-4、OpenAI-o3-high-0416。最終排名顯示,Seed1.6-Thinking 于理科方面排名第二,達到648分,其中物理表現(xiàn)比較突出;在文科上則排名第一,達683分,地理和歷史優(yōu)勢較大,文科和理科分數(shù)均超出大部分 985 高校往年錄取分數(shù)線。
在所有科目試卷中,圖像類問題分數(shù)占比超過30%,最終成績也表明,物理、化學(xué)、地理等學(xué)科的圖像題是檢驗多模態(tài)能力的分水嶺。具體來看,在語、數(shù)、外等基礎(chǔ)學(xué)科中,上述模型大多表現(xiàn)較好。拉開差距的是化學(xué)和生物等讀圖題,由于題目不是官方發(fā)布,圖比較模糊,因此各模型失分較多。
大模型“高考”通關(guān)
重塑AI競爭格局
根據(jù)中研普華產(chǎn)業(yè)研究院的數(shù)據(jù),2024年全球多模態(tài)AI市場規(guī)模達到24億美元,年均復(fù)合增長率超過28%。預(yù)計到2025年,全球多模態(tài)大模型市場規(guī)模將達到1280億美元。
目前在產(chǎn)業(yè)端,多模態(tài)正逐步推開,從智能家居到虛擬現(xiàn)實,從自動駕駛汽車到語音助手,多模態(tài)技術(shù)正在不斷拓展各個領(lǐng)域的應(yīng)用。但要實現(xiàn)規(guī)模化應(yīng)用,模型成本下降和多模態(tài)能力的提升是最重要的主線。
在多模態(tài)升級方面,豆包大模型Seed1.6已經(jīng)展現(xiàn)了強大的技術(shù)潛力和實戰(zhàn)能力,高考這一復(fù)雜測試場景下的“不偏科”能力證明模型不僅“通用”,而且“懂行”。與之相對應(yīng)的的是,火山引擎數(shù)據(jù)顯示,豆包大模型已接入多所高校的智能教輔系統(tǒng),提供教學(xué)、管理、科研、服務(wù)多維度服務(wù)體系,這種應(yīng)用潛力,驅(qū)動著人工智能大模型重構(gòu)教學(xué)體系的核心架構(gòu)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.