99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

全球首個(gè)歷史基準(zhǔn)!普林復(fù)旦打造AI歷史助手,AI破圈人文學(xué)科

0
分享至

  

  新智元報(bào)道

  編輯:LRST

  【新智元導(dǎo)讀】普林斯頓大學(xué)AI實(shí)驗(yàn)室與復(fù)旦大學(xué)歷史學(xué)系聯(lián)手推出了全球首個(gè)聚焦歷史研究能力的AI評(píng)測(cè)基準(zhǔn)——HistBench,并同步開發(fā)了深度嵌入歷史研究場(chǎng)景的AI助手——HistAgent。這一成果不僅填補(bǔ)了人文學(xué)科AI測(cè)試的空白,更為復(fù)雜史料處理與多模態(tài)理解建立了系統(tǒng)工具框架。

  歷史是關(guān)于時(shí)間中的人的科學(xué)。

  ——馬克·布洛赫

  人工智能已在諸多自然科學(xué)領(lǐng)域成為有力的研究助手,然而面對(duì)承載著文化意涵與歷史記憶的人文學(xué)科,卻仍舊表現(xiàn)得捉襟見肘。

  究其原因,AI當(dāng)前最缺乏的并非工具性能力,而是對(duì)人類智慧與文化的理解能力——這正是人文學(xué)科探究的核心。

  在眾多人文學(xué)科中,歷史學(xué)因其海量的數(shù)據(jù)規(guī)模、多元的史料類型以及復(fù)雜的跨文化、跨時(shí)空特性,成為檢驗(yàn)AI深度認(rèn)知能力的理想試驗(yàn)場(chǎng)。

  因此,AI不僅需要強(qiáng)大的識(shí)記能力,更需要深刻理解、精準(zhǔn)判斷與嚴(yán)謹(jǐn)推理的能力,才能夠處理紛繁復(fù)雜的文獻(xiàn)材料。

  為此,普林斯頓大學(xué)AI實(shí)驗(yàn)室與復(fù)旦大學(xué)歷史學(xué)系聯(lián)合打造了HistBench與HistAgent,拉開了歷史研究的AI時(shí)代的序幕。

  

  論文地址:http://arxiv.org/abs/2505.20246

  代碼鏈接: https://github.com/CharlesQ9/HistAgent

  HistBench作為全球首個(gè)歷史領(lǐng)域評(píng)測(cè)基準(zhǔn),涵蓋414道歷史學(xué)者撰寫的研究問題,橫跨29種古今語(yǔ)言,覆蓋全球多文明的歷史演化脈絡(luò)。

  測(cè)試顯示,主流大模型HistBench上準(zhǔn)確率不足20%,暴露了通用AI在歷史領(lǐng)域的認(rèn)知短板。

  而專為歷史研究打造的HistAgent,集成文獻(xiàn)檢索、OCR識(shí)別、多語(yǔ)言翻譯、檔案檢索與圖像解譯等核心工具,首次實(shí)現(xiàn)AI智能體在歷史研究領(lǐng)域的深度定制與優(yōu)化,在HistBench測(cè)試中準(zhǔn)確率遠(yuǎn)超現(xiàn)有模型,并在GAIA通用基準(zhǔn)斬獲60%成績(jī),充分證明專業(yè)定制與通用能力可兼得!

  HistBench:AI與歷史的極限挑戰(zhàn)

  HistBench數(shù)據(jù)集共收錄414道高質(zhì)量歷史問題,最初面向全球征集數(shù)千道題目,經(jīng)由三輪篩選流程層層遴選而來:首先是初篩與標(biāo)準(zhǔn)化;其次由大模型初步預(yù)判以剔除低難度問題;最后由歷史學(xué)專家進(jìn)行復(fù)核校正,確保問題具備足夠的研究?jī)r(jià)值與挑戰(zhàn)強(qiáng)度。

  參與出題與審核的專家層級(jí)涵蓋面廣,從歷史學(xué)本科生、研究型碩博生,到海內(nèi)外高校青年教師和資深教授,構(gòu)成了一支多維度、跨年齡段的知識(shí)共同體,使題目既有理論深度,也具實(shí)踐張力。

  與傳統(tǒng)知識(shí)問答不同,HistBench 強(qiáng)調(diào)方法論挑戰(zhàn)與推理深度,特別注重AI在處理史料中的表現(xiàn),如破損手稿、殘缺碑銘、古地圖、模糊音頻等復(fù)雜材料。

  長(zhǎng)期以來,AI 評(píng)測(cè)體系主要由理工科主導(dǎo),人文學(xué)科缺席,評(píng)估內(nèi)容缺乏語(yǔ)言、模態(tài)與領(lǐng)域的多樣性,也缺乏針對(duì)史學(xué)特點(diǎn)的精細(xì)化設(shè)計(jì)。

  HistBench 正是在這一背景下誕生,旨在填補(bǔ)這一空白,推動(dòng)AI在人文領(lǐng)域的系統(tǒng)性測(cè)試與能力突破。

  全面覆蓋歷史研究的廣度與深度

  多語(yǔ)言覆蓋打破英語(yǔ)中心主義,覆蓋29種語(yǔ)言,體現(xiàn)人文學(xué)科全球視野。

  多模態(tài)史料涵蓋手稿、圖像、音視頻、歷史文物等多種史料,真實(shí)模擬歷史研究情境。

  精細(xì)分級(jí)問題從基礎(chǔ)史料讀取到跨學(xué)科深度分析均清晰分層,讓模型表現(xiàn)一目了然。

  

  HistBench覆蓋20多個(gè)歷史區(qū)域、36個(gè)子領(lǐng)域。這些子領(lǐng)域包括但不限于:

  古典時(shí)代研究,涵蓋古希臘、古羅馬、中原漢唐、印度吠陀、兩河與尼羅河流域等多個(gè)文明軸心區(qū)域的語(yǔ)言學(xué)、歷史學(xué)與哲學(xué)文獻(xiàn)傳統(tǒng)

  史學(xué)史與史學(xué)理論,歷史學(xué)科的發(fā)展演變、范式更替與方法論革新;

  全球史,包括人口遷徙、跨洋貿(mào)易、知識(shí)傳播等;

  傳統(tǒng)史學(xué)研究,政治史、經(jīng)濟(jì)史和思想史,包括改革與革命、產(chǎn)業(yè)發(fā)展和觀念流變等;

  新文化史,包括性別史、城市史、日常生活史和物質(zhì)文化研究等;

  藝術(shù)史,包括圖像史、雕塑史、電影史和音樂史等;

  環(huán)境史,包括環(huán)保運(yùn)動(dòng)、生態(tài)思想和能源與資源管理等;

  科學(xué)技術(shù)與醫(yī)學(xué)史,包括早期科學(xué)機(jī)構(gòu)、東西方科技交流、生物學(xué)、天文學(xué)、疫病史、衛(wèi)生建制、醫(yī)療社會(huì)史等;

  交叉學(xué)科:考古學(xué)、文學(xué)史、哲學(xué)史、新聞史、翻譯史和歷史地理學(xué)。

  難度分層

  

  HistBench精心設(shè)計(jì)三類難度等級(jí),模擬真實(shí)歷史研究挑戰(zhàn):

  Level 1(基礎(chǔ)):166題,原則上由歷史背景助理設(shè)計(jì),聚焦基本信息檢索和提取。

  Level 2(進(jìn)階):172題,原則上由研究生撰寫,要求在材料處理或邏輯推理上構(gòu)成一定難度。

  Level 3(挑戰(zhàn)):76題,原則上由資深學(xué)者設(shè)計(jì),涉及小/死語(yǔ)言語(yǔ)言讀取、多模態(tài)史料處理和跨學(xué)科分析。

  HistAgent:AI歷史研究助手

  在歷史學(xué)研究中,提出問題只是一個(gè)開始,真正重要的是如何處理材料并找到答案。

  為此,團(tuán)隊(duì)研發(fā)了專為歷史學(xué)研究服務(wù)的智能系統(tǒng)——HistAgent,它不是通用型AI的「人文拓展版」,而是從底層結(jié)構(gòu)就面向史學(xué)研究進(jìn)行功能搭建與優(yōu)化的專業(yè)助手,從任務(wù)分解到工具集成,完全嵌入歷史學(xué)者的工作流程。

  HistAgent能夠檢索文獻(xiàn)和史料,處理手稿、圖像和地圖等多模態(tài)材料,并結(jié)合歷史知識(shí)輔助推理,幫助研究者梳理線索、整合信息、形成學(xué)術(shù)判斷。

  

  與GPT-4o、DeepSeek、Grok等通用大模型相比,HistAgent針對(duì)性更強(qiáng)。主流模型雖擅長(zhǎng)公式和代碼,卻難以處理古希臘碑文、敦煌殘卷、滿文檔案等歷史材料,更缺乏嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)推理能力。

  HistAgent 的設(shè)計(jì)理念正是要填充AI在歷史研究領(lǐng)域的空白,是一套包含多個(gè)子模塊的多智能體協(xié)作系統(tǒng),能夠模擬歷史研究的流程,將復(fù)雜任務(wù)拆解為不同的子任務(wù),并根據(jù)每個(gè)子任務(wù)的需求調(diào)用最合適的工具,完成多模態(tài)、多語(yǔ)言和跨學(xué)科的指令。

  通過這樣的設(shè)計(jì)架構(gòu),HistAgent不僅能檢索學(xué)術(shù)信息和處理歷史材料,更能深入問題、形成推理、得出答案,成為歷史研究者得力的助手。

  HistAgent的「多智能體協(xié)作系統(tǒng)」

  HistAgent的架構(gòu)由以下幾個(gè)核心模塊組成:

  文本搜索模塊:支持多步網(wǎng)頁(yè)搜索與頁(yè)面解析,可檢索學(xué)術(shù)網(wǎng)站和歷史資料,提供權(quán)威背景信息和證據(jù)支持。

  OCR模塊:支持識(shí)別手稿、碑銘和古地圖等文檔。其中針對(duì)字母文字材料,專門引入了 Transkribus 平臺(tái)——?dú)v史學(xué)界公認(rèn)的一流手稿識(shí)別服務(wù)平臺(tái),能顯著提高識(shí)別的準(zhǔn)確率與排版轉(zhuǎn)錄質(zhì)量。

  翻譯模塊:支持多種語(yǔ)言互譯,包括古典語(yǔ)言與小眾語(yǔ)言。HistAgent不僅能翻譯文本的表面意思,還能結(jié)合語(yǔ)境優(yōu)化譯文,提供流暢準(zhǔn)確的片段。

  圖像分析模塊:支持圖片反向搜索、文物識(shí)別等任務(wù)。能夠?yàn)闅v史圖像材料尋找出處、補(bǔ)充背景、解析含義。

  音頻處理模塊:支持處理歷史演講和訪談?dòng)涗浀纫纛l材料。

  視頻分析模塊:支持處理各類影像視頻材料,能從中抽幀、分析場(chǎng)景、輔助理解歷史事件。

  文獻(xiàn)搜索模塊:支持解析 PDF、DOCX、XLSX、PPTX 等多種格式,便于處理研究資料。

  文件處理模塊:支持PDF、DOCX、XLSX、PPTX等文檔解析,方便處理多格式的歷史材料和研究文件。

  

  這一切的背后,離不開一個(gè)中央調(diào)度模塊(Manager Agent)的有機(jī)協(xié)調(diào):

  HistAgent會(huì)根據(jù)任務(wù)需求,智能判斷調(diào)用子模塊的范圍和順序、并整合多模態(tài)結(jié)果,從而最終輸出符合歷史學(xué)科規(guī)范的完整回答。

  當(dāng)需要OCR時(shí),就會(huì)調(diào)用OCR Agent,當(dāng)需要查論文時(shí),就會(huì)調(diào)用文獻(xiàn)搜索Agent,當(dāng)需要多語(yǔ)言處理時(shí),就會(huì)調(diào)用翻譯Agent。

  正如一場(chǎng)舞臺(tái)劇,多個(gè)「演員」各司其職,共同完成復(fù)雜的歷史研究任務(wù)。

  HistAgent如何破解「歷史迷宮」?

  為了全面評(píng)估 HistAgent 的能力,團(tuán)隊(duì)設(shè)計(jì)了一輪系統(tǒng)測(cè)試,選用了三個(gè)評(píng)測(cè)集,涵蓋不同類型的任務(wù):HistBench、HLE 歷史子集,以及GAIA通用任務(wù)。這三個(gè)評(píng)測(cè)集共同構(gòu)成了對(duì)歷史推理能力和通用任務(wù)適應(yīng)能力的全方位檢驗(yàn)。

  實(shí)驗(yàn)結(jié)果顯示,HistAgent在各項(xiàng)測(cè)試中均表現(xiàn)出顯著優(yōu)勢(shì)。

  在HistBench上,GPT-4o(帶網(wǎng)絡(luò)搜索)的準(zhǔn)確率為18.60%,而HistAgent pass@2達(dá)到了36.47%,提升幅度接近一倍。

  在HLE歷史子集中,HistAgent的pass@1為28.57%,遠(yuǎn)高于GPT-4o(8.9%)和ODR-smolagents(17.9%);pass@3更是達(dá)到42.86%

  

  即便在GAIA這類綜合性多模態(tài)任務(wù)上,HistAgent也保持了60.00%的pass@1成績(jī),超過baseline模型ODR-smolagents 5個(gè)百分點(diǎn),展現(xiàn)出良好的通用性。

  

  這些結(jié)果表明,HistAgent能夠有效處理復(fù)雜的歷史任務(wù),同時(shí)具備一定的通用任務(wù)能力,驗(yàn)證了其作為多模態(tài)歷史推理助手的適用性和優(yōu)勢(shì)。

  AI與歷史的對(duì)話,才剛剛開始

  HistBench和HistAgent的發(fā)布,是AI歷史推理領(lǐng)域的重要突破。

  它們不僅為AI處理復(fù)雜歷史問題提供了系統(tǒng)性基準(zhǔn)與工具框架,也為評(píng)估和提升AI在人文學(xué)科中的能力開辟了新路徑。

  HistBench與HistAgent的發(fā)布只是起點(diǎn),團(tuán)隊(duì)計(jì)劃將繼續(xù)擴(kuò)展題庫(kù),吸納更多來自全球史學(xué)專家的真實(shí)研究問題,并根據(jù)用戶反饋和研究需求,不斷升級(jí)HistAgent的各模塊能力。

  研究人員的目標(biāo)是打造一個(gè)始終與史學(xué)前沿并行進(jìn)化的AI助手,讓它真正成為歷史學(xué)家可信賴的研究伙伴。

  AI是否能真正成為歷史學(xué)家?

  至少在今天,還遠(yuǎn)未達(dá)到這種程度。但通過HistBench的測(cè)試與HistAgent的嘗試,至少擁有了一把探索歷史的新鑰匙,不僅是AI技術(shù)的發(fā)展,更是一次AI與人文學(xué)科共塑認(rèn)知邊界的嘗試。

  這只是一個(gè)開始,AI與歷史的故事,仍在繼續(xù)。

  HistBench和HistAgent的意義絕不僅是提供一個(gè)正確的回答本身,而是回應(yīng)了科技與人文的關(guān)系這一宏大而深遠(yuǎn)的議題,勾勒出了AI如何走入和參與人類的文明記憶構(gòu)建的無限可能。

  參考資料:

  http://arxiv.org/abs/2505.20246

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2006年,十幾名刑警狂毆四名交警,全市交警列隊(duì)討公道,結(jié)局如何

2006年,十幾名刑警狂毆四名交警,全市交警列隊(duì)討公道,結(jié)局如何

阿胡
2024-01-08 17:03:39
蘋果新機(jī)突然官宣,新配色來了!

蘋果新機(jī)突然官宣,新配色來了!

Q科技基地
2025-06-22 12:56:44
伊朗要?jiǎng)?chuàng)造人類歷史?連續(xù)擊落4架F-35,卻連以軍導(dǎo)彈都攔截不了

伊朗要?jiǎng)?chuàng)造人類歷史?連續(xù)擊落4架F-35,卻連以軍導(dǎo)彈都攔截不了

阿芒娛樂說
2025-06-22 23:55:11
新華社快訊:敘利亞首都大馬士革一座教堂發(fā)生爆炸25人喪生

新華社快訊:敘利亞首都大馬士革一座教堂發(fā)生爆炸25人喪生

新華社
2025-06-23 00:23:01
內(nèi)賈德及其家人突傳死訊

內(nèi)賈德及其家人突傳死訊

高博新視野
2025-06-19 16:30:07
官宣!G7票價(jià)創(chuàng)紀(jì)錄,哈利伯頓傷情更新,亞歷山大把話挑明

官宣!G7票價(jià)創(chuàng)紀(jì)錄,哈利伯頓傷情更新,亞歷山大把話挑明

世界體育圈
2025-06-22 10:37:52
朗尼克:花5000萬簽28或30歲球員沒意義,比如拜仁應(yīng)簽20歲的凱恩

朗尼克:花5000萬簽28或30歲球員沒意義,比如拜仁應(yīng)簽20歲的凱恩

直播吧
2025-06-22 16:40:16
分析:凱文·杜蘭特重磅交易后,火箭隊(duì)和太陽(yáng)隊(duì)的NBA排名

分析:凱文·杜蘭特重磅交易后,火箭隊(duì)和太陽(yáng)隊(duì)的NBA排名

好火子
2025-06-23 02:07:25
女網(wǎng)紅曬豪宅曝一年電費(fèi)40萬,驚動(dòng)電力局后底細(xì)被扒她老公職業(yè)值得細(xì)品…

女網(wǎng)紅曬豪宅曝一年電費(fèi)40萬,驚動(dòng)電力局后底細(xì)被扒她老公職業(yè)值得細(xì)品…

浪花媽媽
2025-06-21 23:14:14
滕帥大手筆!3500萬歐寬薩成隊(duì)史標(biāo)王,藥廠已花6000萬&賣人近2億

滕帥大手筆!3500萬歐寬薩成隊(duì)史標(biāo)王,藥廠已花6000萬&賣人近2億

直播吧
2025-06-22 18:47:15
小因扎吉:所有頂級(jí)俱樂部齊聚于世俱杯,唯獨(dú)缺了巴薩

小因扎吉:所有頂級(jí)俱樂部齊聚于世俱杯,唯獨(dú)缺了巴薩

懂球帝
2025-06-22 14:43:16
降幅高達(dá)50%左右!全國(guó)醫(yī)院檢查費(fèi)用大幅下調(diào),放射類首當(dāng)其沖…

降幅高達(dá)50%左右!全國(guó)醫(yī)院檢查費(fèi)用大幅下調(diào),放射類首當(dāng)其沖…

火山詩(shī)話
2025-06-22 17:53:28
大雨、暴雨,局部大暴雨!河南新一輪降雨要來了

大雨、暴雨,局部大暴雨!河南新一輪降雨要來了

魯中晨報(bào)
2025-06-22 17:33:28
亞軍沒盤子!王欣瑜僅獲項(xiàng)鏈+鮮花,冠軍選手:連拿獎(jiǎng)杯手表香檳

亞軍沒盤子!王欣瑜僅獲項(xiàng)鏈+鮮花,冠軍選手:連拿獎(jiǎng)杯手表香檳

侃球熊弟
2025-06-22 21:22:22
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
以為他們退出歌壇,其實(shí)早已悄然離逝,再也見不到的4位歌星

以為他們退出歌壇,其實(shí)早已悄然離逝,再也見不到的4位歌星

TVB的四小花
2025-06-14 00:38:15
中國(guó)一旦發(fā)生戰(zhàn)爭(zhēng),要記得第一時(shí)間要帶好這5樣?xùn)|西,才能保命

中國(guó)一旦發(fā)生戰(zhàn)爭(zhēng),要記得第一時(shí)間要帶好這5樣?xùn)|西,才能保命

阿策聊實(shí)事
2025-04-27 17:15:00
美記:火箭送出的次輪簽最晚延伸到了2032年 這筆交易沒有第三隊(duì)

美記:火箭送出的次輪簽最晚延伸到了2032年 這筆交易沒有第三隊(duì)

直播吧
2025-06-23 01:35:17
Shams:杜蘭特 8 換 1 被太陽(yáng)交易至火箭!

Shams:杜蘭特 8 換 1 被太陽(yáng)交易至火箭!

貴圈真亂
2025-06-23 01:21:02
央媒發(fā)聲!四天狂掠60萬,承包商血本無歸,紀(jì)委終于介入!

央媒發(fā)聲!四天狂掠60萬,承包商血本無歸,紀(jì)委終于介入!

朗威談星座
2025-06-21 12:12:54
2025-06-23 02:52:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12929文章數(shù) 66077關(guān)注度
往期回顧 全部

科技要聞

"你應(yīng)該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項(xiàng)目遭摧毀 哈梅內(nèi)伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項(xiàng)目遭摧毀 哈梅內(nèi)伊面臨抉擇

體育要聞

中國(guó)女排0-3意大利 香港站3勝1負(fù)收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭(zhēng)議

財(cái)經(jīng)要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預(yù)售 嵐圖FREE+正式下線

態(tài)度原創(chuàng)

手機(jī)
房產(chǎn)
教育
本地
健康

手機(jī)要聞

華為鴻蒙 HarmonyOS 5.0.1.130 版本游戲場(chǎng)景新增“高性能”模式

房產(chǎn)要聞

坑慘2000多人!恒大財(cái)富海南高管被曝非吸12.6億元!

教育要聞

2026qs排名完整名單公布后,申請(qǐng)難度會(huì)暴漲的幾所英國(guó)大學(xué)!

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 苏尼特右旗| 黑河市| 大城县| 兰溪市| 高密市| 丰台区| 衡阳市| 南溪县| 色达县| 新津县| 定边县| 井陉县| 海淀区| 五莲县| 阳谷县| 龙游县| 东城区| 新丰县| 浦北县| 太康县| 浮梁县| 扎赉特旗| 临清市| 潞城市| 英吉沙县| 盐城市| 阿勒泰市| 琼中| 古丈县| 东莞市| 邵东县| 高尔夫| 定陶县| 临夏市| 津市市| 托里县| 平江县| 民勤县| 辉县市| 泾阳县| 诸城市|