網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全球首個(gè)歷史基準(zhǔn)！普林復(fù)旦打造AI歷史助手，AI破圈人文學(xué)科

2025-06-11 21:25:06　來源: 新智元

北京舉報(bào)

分享至

　　新智元報(bào)道

　　編輯：LRST

　　【新智元導(dǎo)讀】普林斯頓大學(xué)AI實(shí)驗(yàn)室與復(fù)旦大學(xué)歷史學(xué)系聯(lián)手推出了全球首個(gè)聚焦歷史研究能力的AI評(píng)測(cè)基準(zhǔn)——HistBench，并同步開發(fā)了深度嵌入歷史研究場(chǎng)景的AI助手——HistAgent。這一成果不僅填補(bǔ)了人文學(xué)科AI測(cè)試的空白，更為復(fù)雜史料處理與多模態(tài)理解建立了系統(tǒng)工具框架。

　　歷史是關(guān)于時(shí)間中的人的科學(xué)。

　　——馬克·布洛赫

　　人工智能已在諸多自然科學(xué)領(lǐng)域成為有力的研究助手，然而面對(duì)承載著文化意涵與歷史記憶的人文學(xué)科，卻仍舊表現(xiàn)得捉襟見肘。

　　究其原因，AI當(dāng)前最缺乏的并非工具性能力，而是對(duì)人類智慧與文化的理解能力——這正是人文學(xué)科探究的核心。

　　在眾多人文學(xué)科中，歷史學(xué)因其海量的數(shù)據(jù)規(guī)模、多元的史料類型以及復(fù)雜的跨文化、跨時(shí)空特性，成為檢驗(yàn)AI深度認(rèn)知能力的理想試驗(yàn)場(chǎng)。

　　因此，AI不僅需要強(qiáng)大的識(shí)記能力，更需要深刻理解、精準(zhǔn)判斷與嚴(yán)謹(jǐn)推理的能力，才能夠處理紛繁復(fù)雜的文獻(xiàn)材料。

　　為此，普林斯頓大學(xué)AI實(shí)驗(yàn)室與復(fù)旦大學(xué)歷史學(xué)系聯(lián)合打造了HistBench與HistAgent，拉開了歷史研究的AI時(shí)代的序幕。

　　論文地址：http://arxiv.org/abs/2505.20246

　　代碼鏈接: https://github.com/CharlesQ9/HistAgent

　　HistBench作為全球首個(gè)歷史領(lǐng)域評(píng)測(cè)基準(zhǔn)，涵蓋414道歷史學(xué)者撰寫的研究問題，橫跨29種古今語(yǔ)言，覆蓋全球多文明的歷史演化脈絡(luò)。

　　測(cè)試顯示，主流大模型HistBench上準(zhǔn)確率不足20%，暴露了通用AI在歷史領(lǐng)域的認(rèn)知短板。

　　而專為歷史研究打造的HistAgent，集成文獻(xiàn)檢索、OCR識(shí)別、多語(yǔ)言翻譯、檔案檢索與圖像解譯等核心工具，首次實(shí)現(xiàn)AI智能體在歷史研究領(lǐng)域的深度定制與優(yōu)化，在HistBench測(cè)試中準(zhǔn)確率遠(yuǎn)超現(xiàn)有模型，并在GAIA通用基準(zhǔn)斬獲60%成績(jī)，充分證明專業(yè)定制與通用能力可兼得！

　　HistBench：AI與歷史的極限挑戰(zhàn)

　　HistBench數(shù)據(jù)集共收錄414道高質(zhì)量歷史問題，最初面向全球征集數(shù)千道題目，經(jīng)由三輪篩選流程層層遴選而來：首先是初篩與標(biāo)準(zhǔn)化；其次由大模型初步預(yù)判以剔除低難度問題；最后由歷史學(xué)專家進(jìn)行復(fù)核校正，確保問題具備足夠的研究?jī)r(jià)值與挑戰(zhàn)強(qiáng)度。

　　參與出題與審核的專家層級(jí)涵蓋面廣，從歷史學(xué)本科生、研究型碩博生，到海內(nèi)外高校青年教師和資深教授，構(gòu)成了一支多維度、跨年齡段的知識(shí)共同體，使題目既有理論深度，也具實(shí)踐張力。

　　與傳統(tǒng)知識(shí)問答不同，HistBench 強(qiáng)調(diào)方法論挑戰(zhàn)與推理深度，特別注重AI在處理史料中的表現(xiàn)，如破損手稿、殘缺碑銘、古地圖、模糊音頻等復(fù)雜材料。

　　長(zhǎng)期以來，AI 評(píng)測(cè)體系主要由理工科主導(dǎo)，人文學(xué)科缺席，評(píng)估內(nèi)容缺乏語(yǔ)言、模態(tài)與領(lǐng)域的多樣性，也缺乏針對(duì)史學(xué)特點(diǎn)的精細(xì)化設(shè)計(jì)。

　　HistBench 正是在這一背景下誕生，旨在填補(bǔ)這一空白，推動(dòng)AI在人文領(lǐng)域的系統(tǒng)性測(cè)試與能力突破。

　　全面覆蓋歷史研究的廣度與深度

　　多語(yǔ)言覆蓋：打破英語(yǔ)中心主義，覆蓋29種語(yǔ)言，體現(xiàn)人文學(xué)科全球視野。

　　多模態(tài)史料：涵蓋手稿、圖像、音視頻、歷史文物等多種史料，真實(shí)模擬歷史研究情境。

　　精細(xì)分級(jí)：問題從基礎(chǔ)史料讀取到跨學(xué)科深度分析均清晰分層，讓模型表現(xiàn)一目了然。

　　HistBench覆蓋20多個(gè)歷史區(qū)域、36個(gè)子領(lǐng)域。這些子領(lǐng)域包括但不限于：

　　古典時(shí)代研究，涵蓋古希臘、古羅馬、中原漢唐、印度吠陀、兩河與尼羅河流域等多個(gè)文明軸心區(qū)域的語(yǔ)言學(xué)、歷史學(xué)與哲學(xué)文獻(xiàn)傳統(tǒng)

　　史學(xué)史與史學(xué)理論，歷史學(xué)科的發(fā)展演變、范式更替與方法論革新；

　　全球史，包括人口遷徙、跨洋貿(mào)易、知識(shí)傳播等；

　　傳統(tǒng)史學(xué)研究，政治史、經(jīng)濟(jì)史和思想史，包括改革與革命、產(chǎn)業(yè)發(fā)展和觀念流變等；

　　新文化史，包括性別史、城市史、日常生活史和物質(zhì)文化研究等；

　　藝術(shù)史，包括圖像史、雕塑史、電影史和音樂史等；

　　環(huán)境史，包括環(huán)保運(yùn)動(dòng)、生態(tài)思想和能源與資源管理等；

　　科學(xué)技術(shù)與醫(yī)學(xué)史，包括早期科學(xué)機(jī)構(gòu)、東西方科技交流、生物學(xué)、天文學(xué)、疫病史、衛(wèi)生建制、醫(yī)療社會(huì)史等；

　　交叉學(xué)科：考古學(xué)、文學(xué)史、哲學(xué)史、新聞史、翻譯史和歷史地理學(xué)。

　　難度分層

　　HistBench精心設(shè)計(jì)三類難度等級(jí)，模擬真實(shí)歷史研究挑戰(zhàn)：

　　Level 1（基礎(chǔ)）：166題，原則上由歷史背景助理設(shè)計(jì)，聚焦基本信息檢索和提取。

　　Level 2（進(jìn)階）：172題，原則上由研究生撰寫，要求在材料處理或邏輯推理上構(gòu)成一定難度。

　　Level 3（挑戰(zhàn)）：76題，原則上由資深學(xué)者設(shè)計(jì)，涉及小/死語(yǔ)言語(yǔ)言讀取、多模態(tài)史料處理和跨學(xué)科分析。

　　HistAgent：AI歷史研究助手

　　在歷史學(xué)研究中，提出問題只是一個(gè)開始，真正重要的是如何處理材料并找到答案。

　　為此，團(tuán)隊(duì)研發(fā)了專為歷史學(xué)研究服務(wù)的智能系統(tǒng)——HistAgent，它不是通用型AI的「人文拓展版」，而是從底層結(jié)構(gòu)就面向史學(xué)研究進(jìn)行功能搭建與優(yōu)化的專業(yè)助手，從任務(wù)分解到工具集成，完全嵌入歷史學(xué)者的工作流程。

　　HistAgent能夠檢索文獻(xiàn)和史料，處理手稿、圖像和地圖等多模態(tài)材料，并結(jié)合歷史知識(shí)輔助推理，幫助研究者梳理線索、整合信息、形成學(xué)術(shù)判斷。

　　與GPT-4o、DeepSeek、Grok等通用大模型相比，HistAgent針對(duì)性更強(qiáng)。主流模型雖擅長(zhǎng)公式和代碼，卻難以處理古希臘碑文、敦煌殘卷、滿文檔案等歷史材料，更缺乏嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)推理能力。

　　HistAgent 的設(shè)計(jì)理念正是要填充AI在歷史研究領(lǐng)域的空白，是一套包含多個(gè)子模塊的多智能體協(xié)作系統(tǒng)，能夠模擬歷史研究的流程，將復(fù)雜任務(wù)拆解為不同的子任務(wù)，并根據(jù)每個(gè)子任務(wù)的需求調(diào)用最合適的工具，完成多模態(tài)、多語(yǔ)言和跨學(xué)科的指令。

　　通過這樣的設(shè)計(jì)架構(gòu)，HistAgent不僅能檢索學(xué)術(shù)信息和處理歷史材料，更能深入問題、形成推理、得出答案，成為歷史研究者得力的助手。

　　HistAgent的「多智能體協(xié)作系統(tǒng)」

　　HistAgent的架構(gòu)由以下幾個(gè)核心模塊組成：

　　文本搜索模塊：支持多步網(wǎng)頁(yè)搜索與頁(yè)面解析，可檢索學(xué)術(shù)網(wǎng)站和歷史資料，提供權(quán)威背景信息和證據(jù)支持。

　　OCR模塊：支持識(shí)別手稿、碑銘和古地圖等文檔。其中針對(duì)字母文字材料，專門引入了 Transkribus 平臺(tái)——?dú)v史學(xué)界公認(rèn)的一流手稿識(shí)別服務(wù)平臺(tái)，能顯著提高識(shí)別的準(zhǔn)確率與排版轉(zhuǎn)錄質(zhì)量。

　　翻譯模塊：支持多種語(yǔ)言互譯，包括古典語(yǔ)言與小眾語(yǔ)言。HistAgent不僅能翻譯文本的表面意思，還能結(jié)合語(yǔ)境優(yōu)化譯文，提供流暢準(zhǔn)確的片段。

　　圖像分析模塊：支持圖片反向搜索、文物識(shí)別等任務(wù)。能夠?yàn)闅v史圖像材料尋找出處、補(bǔ)充背景、解析含義。

　　音頻處理模塊：支持處理歷史演講和訪談?dòng)涗浀纫纛l材料。

　　視頻分析模塊：支持處理各類影像視頻材料，能從中抽幀、分析場(chǎng)景、輔助理解歷史事件。

　　文獻(xiàn)搜索模塊：支持解析 PDF、DOCX、XLSX、PPTX 等多種格式，便于處理研究資料。

　　文件處理模塊：支持PDF、DOCX、XLSX、PPTX等文檔解析，方便處理多格式的歷史材料和研究文件。

　　這一切的背后，離不開一個(gè)中央調(diào)度模塊（Manager Agent）的有機(jī)協(xié)調(diào)：

　　HistAgent會(huì)根據(jù)任務(wù)需求，智能判斷調(diào)用子模塊的范圍和順序、并整合多模態(tài)結(jié)果，從而最終輸出符合歷史學(xué)科規(guī)范的完整回答。

　　當(dāng)需要OCR時(shí)，就會(huì)調(diào)用OCR Agent，當(dāng)需要查論文時(shí)，就會(huì)調(diào)用文獻(xiàn)搜索Agent，當(dāng)需要多語(yǔ)言處理時(shí)，就會(huì)調(diào)用翻譯Agent。

　　正如一場(chǎng)舞臺(tái)劇，多個(gè)「演員」各司其職，共同完成復(fù)雜的歷史研究任務(wù)。

　　HistAgent如何破解「歷史迷宮」？

　　為了全面評(píng)估 HistAgent 的能力，團(tuán)隊(duì)設(shè)計(jì)了一輪系統(tǒng)測(cè)試，選用了三個(gè)評(píng)測(cè)集，涵蓋不同類型的任務(wù)：HistBench、HLE 歷史子集，以及GAIA通用任務(wù)。這三個(gè)評(píng)測(cè)集共同構(gòu)成了對(duì)歷史推理能力和通用任務(wù)適應(yīng)能力的全方位檢驗(yàn)。

　　實(shí)驗(yàn)結(jié)果顯示，HistAgent在各項(xiàng)測(cè)試中均表現(xiàn)出顯著優(yōu)勢(shì)。

　　在HistBench上，GPT-4o（帶網(wǎng)絡(luò)搜索）的準(zhǔn)確率為18.60%，而HistAgent pass@2達(dá)到了36.47%，提升幅度接近一倍。

　　在HLE歷史子集中，HistAgent的pass@1為28.57%，遠(yuǎn)高于GPT-4o（8.9%）和ODR-smolagents（17.9%）；pass@3更是達(dá)到42.86%

　　即便在GAIA這類綜合性多模態(tài)任務(wù)上，HistAgent也保持了60.00%的pass@1成績(jī)，超過baseline模型ODR-smolagents 5個(gè)百分點(diǎn)，展現(xiàn)出良好的通用性。

　　這些結(jié)果表明，HistAgent能夠有效處理復(fù)雜的歷史任務(wù)，同時(shí)具備一定的通用任務(wù)能力，驗(yàn)證了其作為多模態(tài)歷史推理助手的適用性和優(yōu)勢(shì)。

　　AI與歷史的對(duì)話，才剛剛開始

　　HistBench和HistAgent的發(fā)布，是AI歷史推理領(lǐng)域的重要突破。

　　它們不僅為AI處理復(fù)雜歷史問題提供了系統(tǒng)性基準(zhǔn)與工具框架，也為評(píng)估和提升AI在人文學(xué)科中的能力開辟了新路徑。

　　HistBench與HistAgent的發(fā)布只是起點(diǎn)，團(tuán)隊(duì)計(jì)劃將繼續(xù)擴(kuò)展題庫(kù)，吸納更多來自全球史學(xué)專家的真實(shí)研究問題，并根據(jù)用戶反饋和研究需求，不斷升級(jí)HistAgent的各模塊能力。

　　研究人員的目標(biāo)是打造一個(gè)始終與史學(xué)前沿并行進(jìn)化的AI助手，讓它真正成為歷史學(xué)家可信賴的研究伙伴。

　　AI是否能真正成為歷史學(xué)家？

　　至少在今天，還遠(yuǎn)未達(dá)到這種程度。但通過HistBench的測(cè)試與HistAgent的嘗試，至少擁有了一把探索歷史的新鑰匙，不僅是AI技術(shù)的發(fā)展，更是一次AI與人文學(xué)科共塑認(rèn)知邊界的嘗試。

　　這只是一個(gè)開始，AI與歷史的故事，仍在繼續(xù)。

　　HistBench和HistAgent的意義絕不僅是提供一個(gè)正確的回答本身，而是回應(yīng)了科技與人文的關(guān)系這一宏大而深遠(yuǎn)的議題，勾勒出了AI如何走入和參與人類的文明記憶構(gòu)建的無限可能。

　　參考資料：

　　http://arxiv.org/abs/2505.20246

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.