新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】普林斯頓大學(xué)AI實(shí)驗(yàn)室與復(fù)旦大學(xué)歷史學(xué)系聯(lián)手推出了全球首個(gè)聚焦歷史研究能力的AI評(píng)測(cè)基準(zhǔn)——HistBench,并同步開發(fā)了深度嵌入歷史研究場(chǎng)景的AI助手——HistAgent。這一成果不僅填補(bǔ)了人文學(xué)科AI測(cè)試的空白,更為復(fù)雜史料處理與多模態(tài)理解建立了系統(tǒng)工具框架。
歷史是關(guān)于時(shí)間中的人的科學(xué)。
——馬克·布洛赫
人工智能已在諸多自然科學(xué)領(lǐng)域成為有力的研究助手,然而面對(duì)承載著文化意涵與歷史記憶的人文學(xué)科,卻仍舊表現(xiàn)得捉襟見肘。
究其原因,AI當(dāng)前最缺乏的并非工具性能力,而是對(duì)人類智慧與文化的理解能力——這正是人文學(xué)科探究的核心。
在眾多人文學(xué)科中,歷史學(xué)因其海量的數(shù)據(jù)規(guī)模、多元的史料類型以及復(fù)雜的跨文化、跨時(shí)空特性,成為檢驗(yàn)AI深度認(rèn)知能力的理想試驗(yàn)場(chǎng)。
因此,AI不僅需要強(qiáng)大的識(shí)記能力,更需要深刻理解、精準(zhǔn)判斷與嚴(yán)謹(jǐn)推理的能力,才能夠處理紛繁復(fù)雜的文獻(xiàn)材料。
為此,普林斯頓大學(xué)AI實(shí)驗(yàn)室與復(fù)旦大學(xué)歷史學(xué)系聯(lián)合打造了HistBench與HistAgent,拉開了歷史研究的AI時(shí)代的序幕。
論文地址:http://arxiv.org/abs/2505.20246
代碼鏈接: https://github.com/CharlesQ9/HistAgent
HistBench作為全球首個(gè)歷史領(lǐng)域評(píng)測(cè)基準(zhǔn),涵蓋414道歷史學(xué)者撰寫的研究問題,橫跨29種古今語(yǔ)言,覆蓋全球多文明的歷史演化脈絡(luò)。
測(cè)試顯示,主流大模型HistBench上準(zhǔn)確率不足20%,暴露了通用AI在歷史領(lǐng)域的認(rèn)知短板。
而專為歷史研究打造的HistAgent,集成文獻(xiàn)檢索、OCR識(shí)別、多語(yǔ)言翻譯、檔案檢索與圖像解譯等核心工具,首次實(shí)現(xiàn)AI智能體在歷史研究領(lǐng)域的深度定制與優(yōu)化,在HistBench測(cè)試中準(zhǔn)確率遠(yuǎn)超現(xiàn)有模型,并在GAIA通用基準(zhǔn)斬獲60%成績(jī),充分證明專業(yè)定制與通用能力可兼得!
HistBench:AI與歷史的極限挑戰(zhàn)
HistBench數(shù)據(jù)集共收錄414道高質(zhì)量歷史問題,最初面向全球征集數(shù)千道題目,經(jīng)由三輪篩選流程層層遴選而來:首先是初篩與標(biāo)準(zhǔn)化;其次由大模型初步預(yù)判以剔除低難度問題;最后由歷史學(xué)專家進(jìn)行復(fù)核校正,確保問題具備足夠的研究?jī)r(jià)值與挑戰(zhàn)強(qiáng)度。
參與出題與審核的專家層級(jí)涵蓋面廣,從歷史學(xué)本科生、研究型碩博生,到海內(nèi)外高校青年教師和資深教授,構(gòu)成了一支多維度、跨年齡段的知識(shí)共同體,使題目既有理論深度,也具實(shí)踐張力。
與傳統(tǒng)知識(shí)問答不同,HistBench 強(qiáng)調(diào)方法論挑戰(zhàn)與推理深度,特別注重AI在處理史料中的表現(xiàn),如破損手稿、殘缺碑銘、古地圖、模糊音頻等復(fù)雜材料。
長(zhǎng)期以來,AI 評(píng)測(cè)體系主要由理工科主導(dǎo),人文學(xué)科缺席,評(píng)估內(nèi)容缺乏語(yǔ)言、模態(tài)與領(lǐng)域的多樣性,也缺乏針對(duì)史學(xué)特點(diǎn)的精細(xì)化設(shè)計(jì)。
HistBench 正是在這一背景下誕生,旨在填補(bǔ)這一空白,推動(dòng)AI在人文領(lǐng)域的系統(tǒng)性測(cè)試與能力突破。
全面覆蓋歷史研究的廣度與深度
多語(yǔ)言覆蓋:打破英語(yǔ)中心主義,覆蓋29種語(yǔ)言,體現(xiàn)人文學(xué)科全球視野。
多模態(tài)史料:涵蓋手稿、圖像、音視頻、歷史文物等多種史料,真實(shí)模擬歷史研究情境。
精細(xì)分級(jí):問題從基礎(chǔ)史料讀取到跨學(xué)科深度分析均清晰分層,讓模型表現(xiàn)一目了然。
HistBench覆蓋20多個(gè)歷史區(qū)域、36個(gè)子領(lǐng)域。這些子領(lǐng)域包括但不限于:
古典時(shí)代研究,涵蓋古希臘、古羅馬、中原漢唐、印度吠陀、兩河與尼羅河流域等多個(gè)文明軸心區(qū)域的語(yǔ)言學(xué)、歷史學(xué)與哲學(xué)文獻(xiàn)傳統(tǒng)
史學(xué)史與史學(xué)理論,歷史學(xué)科的發(fā)展演變、范式更替與方法論革新;
全球史,包括人口遷徙、跨洋貿(mào)易、知識(shí)傳播等;
傳統(tǒng)史學(xué)研究,政治史、經(jīng)濟(jì)史和思想史,包括改革與革命、產(chǎn)業(yè)發(fā)展和觀念流變等;
新文化史,包括性別史、城市史、日常生活史和物質(zhì)文化研究等;
藝術(shù)史,包括圖像史、雕塑史、電影史和音樂史等;
環(huán)境史,包括環(huán)保運(yùn)動(dòng)、生態(tài)思想和能源與資源管理等;
科學(xué)技術(shù)與醫(yī)學(xué)史,包括早期科學(xué)機(jī)構(gòu)、東西方科技交流、生物學(xué)、天文學(xué)、疫病史、衛(wèi)生建制、醫(yī)療社會(huì)史等;
交叉學(xué)科:考古學(xué)、文學(xué)史、哲學(xué)史、新聞史、翻譯史和歷史地理學(xué)。
難度分層
HistBench精心設(shè)計(jì)三類難度等級(jí),模擬真實(shí)歷史研究挑戰(zhàn):
Level 1(基礎(chǔ)):166題,原則上由歷史背景助理設(shè)計(jì),聚焦基本信息檢索和提取。
Level 2(進(jìn)階):172題,原則上由研究生撰寫,要求在材料處理或邏輯推理上構(gòu)成一定難度。
Level 3(挑戰(zhàn)):76題,原則上由資深學(xué)者設(shè)計(jì),涉及小/死語(yǔ)言語(yǔ)言讀取、多模態(tài)史料處理和跨學(xué)科分析。
HistAgent:AI歷史研究助手
在歷史學(xué)研究中,提出問題只是一個(gè)開始,真正重要的是如何處理材料并找到答案。
為此,團(tuán)隊(duì)研發(fā)了專為歷史學(xué)研究服務(wù)的智能系統(tǒng)——HistAgent,它不是通用型AI的「人文拓展版」,而是從底層結(jié)構(gòu)就面向史學(xué)研究進(jìn)行功能搭建與優(yōu)化的專業(yè)助手,從任務(wù)分解到工具集成,完全嵌入歷史學(xué)者的工作流程。
HistAgent能夠檢索文獻(xiàn)和史料,處理手稿、圖像和地圖等多模態(tài)材料,并結(jié)合歷史知識(shí)輔助推理,幫助研究者梳理線索、整合信息、形成學(xué)術(shù)判斷。
與GPT-4o、DeepSeek、Grok等通用大模型相比,HistAgent針對(duì)性更強(qiáng)。主流模型雖擅長(zhǎng)公式和代碼,卻難以處理古希臘碑文、敦煌殘卷、滿文檔案等歷史材料,更缺乏嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)推理能力。
HistAgent 的設(shè)計(jì)理念正是要填充AI在歷史研究領(lǐng)域的空白,是一套包含多個(gè)子模塊的多智能體協(xié)作系統(tǒng),能夠模擬歷史研究的流程,將復(fù)雜任務(wù)拆解為不同的子任務(wù),并根據(jù)每個(gè)子任務(wù)的需求調(diào)用最合適的工具,完成多模態(tài)、多語(yǔ)言和跨學(xué)科的指令。
通過這樣的設(shè)計(jì)架構(gòu),HistAgent不僅能檢索學(xué)術(shù)信息和處理歷史材料,更能深入問題、形成推理、得出答案,成為歷史研究者得力的助手。
HistAgent的「多智能體協(xié)作系統(tǒng)」
HistAgent的架構(gòu)由以下幾個(gè)核心模塊組成:
文本搜索模塊:支持多步網(wǎng)頁(yè)搜索與頁(yè)面解析,可檢索學(xué)術(shù)網(wǎng)站和歷史資料,提供權(quán)威背景信息和證據(jù)支持。
OCR模塊:支持識(shí)別手稿、碑銘和古地圖等文檔。其中針對(duì)字母文字材料,專門引入了 Transkribus 平臺(tái)——?dú)v史學(xué)界公認(rèn)的一流手稿識(shí)別服務(wù)平臺(tái),能顯著提高識(shí)別的準(zhǔn)確率與排版轉(zhuǎn)錄質(zhì)量。
翻譯模塊:支持多種語(yǔ)言互譯,包括古典語(yǔ)言與小眾語(yǔ)言。HistAgent不僅能翻譯文本的表面意思,還能結(jié)合語(yǔ)境優(yōu)化譯文,提供流暢準(zhǔn)確的片段。
圖像分析模塊:支持圖片反向搜索、文物識(shí)別等任務(wù)。能夠?yàn)闅v史圖像材料尋找出處、補(bǔ)充背景、解析含義。
音頻處理模塊:支持處理歷史演講和訪談?dòng)涗浀纫纛l材料。
視頻分析模塊:支持處理各類影像視頻材料,能從中抽幀、分析場(chǎng)景、輔助理解歷史事件。
文獻(xiàn)搜索模塊:支持解析 PDF、DOCX、XLSX、PPTX 等多種格式,便于處理研究資料。
文件處理模塊:支持PDF、DOCX、XLSX、PPTX等文檔解析,方便處理多格式的歷史材料和研究文件。
這一切的背后,離不開一個(gè)中央調(diào)度模塊(Manager Agent)的有機(jī)協(xié)調(diào):
HistAgent會(huì)根據(jù)任務(wù)需求,智能判斷調(diào)用子模塊的范圍和順序、并整合多模態(tài)結(jié)果,從而最終輸出符合歷史學(xué)科規(guī)范的完整回答。
當(dāng)需要OCR時(shí),就會(huì)調(diào)用OCR Agent,當(dāng)需要查論文時(shí),就會(huì)調(diào)用文獻(xiàn)搜索Agent,當(dāng)需要多語(yǔ)言處理時(shí),就會(huì)調(diào)用翻譯Agent。
正如一場(chǎng)舞臺(tái)劇,多個(gè)「演員」各司其職,共同完成復(fù)雜的歷史研究任務(wù)。
HistAgent如何破解「歷史迷宮」?
為了全面評(píng)估 HistAgent 的能力,團(tuán)隊(duì)設(shè)計(jì)了一輪系統(tǒng)測(cè)試,選用了三個(gè)評(píng)測(cè)集,涵蓋不同類型的任務(wù):HistBench、HLE 歷史子集,以及GAIA通用任務(wù)。這三個(gè)評(píng)測(cè)集共同構(gòu)成了對(duì)歷史推理能力和通用任務(wù)適應(yīng)能力的全方位檢驗(yàn)。
實(shí)驗(yàn)結(jié)果顯示,HistAgent在各項(xiàng)測(cè)試中均表現(xiàn)出顯著優(yōu)勢(shì)。
在HistBench上,GPT-4o(帶網(wǎng)絡(luò)搜索)的準(zhǔn)確率為18.60%,而HistAgent pass@2達(dá)到了36.47%,提升幅度接近一倍。
在HLE歷史子集中,HistAgent的pass@1為28.57%,遠(yuǎn)高于GPT-4o(8.9%)和ODR-smolagents(17.9%);pass@3更是達(dá)到42.86%
即便在GAIA這類綜合性多模態(tài)任務(wù)上,HistAgent也保持了60.00%的pass@1成績(jī),超過baseline模型ODR-smolagents 5個(gè)百分點(diǎn),展現(xiàn)出良好的通用性。
這些結(jié)果表明,HistAgent能夠有效處理復(fù)雜的歷史任務(wù),同時(shí)具備一定的通用任務(wù)能力,驗(yàn)證了其作為多模態(tài)歷史推理助手的適用性和優(yōu)勢(shì)。
AI與歷史的對(duì)話,才剛剛開始
HistBench和HistAgent的發(fā)布,是AI歷史推理領(lǐng)域的重要突破。
它們不僅為AI處理復(fù)雜歷史問題提供了系統(tǒng)性基準(zhǔn)與工具框架,也為評(píng)估和提升AI在人文學(xué)科中的能力開辟了新路徑。
HistBench與HistAgent的發(fā)布只是起點(diǎn),團(tuán)隊(duì)計(jì)劃將繼續(xù)擴(kuò)展題庫(kù),吸納更多來自全球史學(xué)專家的真實(shí)研究問題,并根據(jù)用戶反饋和研究需求,不斷升級(jí)HistAgent的各模塊能力。
研究人員的目標(biāo)是打造一個(gè)始終與史學(xué)前沿并行進(jìn)化的AI助手,讓它真正成為歷史學(xué)家可信賴的研究伙伴。
AI是否能真正成為歷史學(xué)家?
至少在今天,還遠(yuǎn)未達(dá)到這種程度。但通過HistBench的測(cè)試與HistAgent的嘗試,至少擁有了一把探索歷史的新鑰匙,不僅是AI技術(shù)的發(fā)展,更是一次AI與人文學(xué)科共塑認(rèn)知邊界的嘗試。
這只是一個(gè)開始,AI與歷史的故事,仍在繼續(xù)。
HistBench和HistAgent的意義絕不僅是提供一個(gè)正確的回答本身,而是回應(yīng)了科技與人文的關(guān)系這一宏大而深遠(yuǎn)的議題,勾勒出了AI如何走入和參與人類的文明記憶構(gòu)建的無限可能。
參考資料:
http://arxiv.org/abs/2505.20246
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.