99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型轉(zhuǎn)行土木工程!首個「打灰人」評估基準(zhǔn):檢驗讀、改工程圖紙能力

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】首個工程自動化任務(wù)評估基準(zhǔn)DrafterBench,可用于測試大語言模型在土木工程圖紙修改任務(wù)中的表現(xiàn)。通過模擬真實工程命令,全面考察模型的結(jié)構(gòu)化數(shù)據(jù)理解、工具調(diào)用、指令跟隨和批判性推理能力,研究結(jié)果發(fā)現(xiàn)當(dāng)前主流大模型雖有一定能力,但整體水平仍不足以滿足工程一線需求。

在AI競速的今天,大語言模型(LLM)早已不滿足只在象牙塔里「背書解題」。

當(dāng)GPT-4o刷題通過物理奧賽、DeepSeek熟練搭建網(wǎng)站之后,LLM必須直面一個更現(xiàn)實的問題:

這些號稱「專家級」的大模型,能不能真的下工地?能不能幫工程打工人減負(fù)?在鋼筋水泥的圖紙世界里,它們是得力助手,還是紙上談兵?

答案尚未揭曉,但DrafterBench邁出了評估的第一步。

來自加拿大麥吉爾大學(xué)AIS實驗室的研究團(tuán)隊與加州大學(xué)圣芭芭拉分校(UCSB)合作,正式推出面向工程自動化任務(wù)的大模型評估基準(zhǔn)——DrafterBench

這是首個針對「一線工程圖紙修改任務(wù)」設(shè)計的大規(guī)模評測套件,旨在驗證和揭示現(xiàn)有LLMs能否勝任土木工程等領(lǐng)域中真實的「打工任務(wù)」。


論文鏈接:https://arxiv.org/abs/2507.11527

代碼鏈接:https://github.com/Eason-Li-AIS/DrafterBench

數(shù)據(jù)鏈接:https://huggingface.co/datasets/Eason666/DrafterBench

為什么需要DrafterBench?

工程圖紙修改,是土木工程、建筑設(shè)計等領(lǐng)域最耗時間、最高頻的任務(wù)之一,也是自動化改造迫切程度極高的一環(huán)。

每天成千上萬的一線工程師、制圖員在重復(fù)地處理「改一根梁的位置」「把這根管道直徑加粗一點」「為這個構(gòu)件增加標(biāo)注」這類十分瑣碎但又關(guān)系重大的任務(wù)。


這類工作往往工作量大、標(biāo)準(zhǔn)高、容錯低,但技術(shù)門檻不高,對工作者在「任務(wù)理解、細(xì)節(jié)處理、任務(wù)鏈配合」方面的綜合執(zhí)行力要求極強(qiáng)。

于是研究團(tuán)隊提出問題:

如果大模型能讀懂圖紙指令,調(diào)用工具鏈,精確修改圖元,它就不只是「寫PPT的高手」,更是「工程打工人福音」

DrafterBench怎么做的?

DrafterBench以圖紙修改為核心任務(wù),在20個真實項目中收集并設(shè)計了1920個高質(zhì)量任務(wù),涵蓋12類指令類型,模擬了各種難度、不同風(fēng)格的真實工程命令


DrafterBench不僅讓模型「按部就班」,而是全面考察以下四大任務(wù)能力維度。

結(jié)構(gòu)化數(shù)據(jù)理解能力:模型是否能從不同風(fēng)格語句中準(zhǔn)確提取出關(guān)鍵細(xì)節(jié);

工具調(diào)用能力:模型能否組合多個工具形成有效的操作鏈,并正確調(diào)用順序與參數(shù);

指令跟隨能力:面對一條包含多個修改目標(biāo)的長指令,是否能做到任務(wù)不漏項、執(zhí)行不斷鏈;

批判性推理能力:模型能否識別指令中的信息缺失、不合理內(nèi)容,并嘗試補(bǔ)全模糊的細(xì)節(jié)、完成修正。

這不是紙面作文,是工程實戰(zhàn)。


DrafterBench如何評估模型?

在DrafterBench中,模型要以「代碼調(diào)用工具」的方式完成任務(wù)。

這些工具涵蓋圖元編輯、標(biāo)注調(diào)整、繪圖邏輯等,彼此之間還有輸入輸出依賴,形成一個「工程任務(wù)鏈」。

但問題來了:

工具調(diào)用是否正確?是否合理組合?

中間步驟是否成功傳遞?是否使用了冗余或錯誤命令?

直接看圖紙輸出無法判斷。因此DrafterBench設(shè)計了一整套對偶工具系統(tǒng)(Dual function system)。

所有工具都有一份「替身」,不實際修改圖紙,但記錄調(diào)用順序、參數(shù)值、變量狀態(tài),并以結(jié)構(gòu)化JSON形式輸出,清晰還原模型「行動路徑」。

DrafterBench不只看模型有沒有答對,而是看它「為什么答錯,哪一步出錯,錯在哪里」。

模型表現(xiàn)如何? 喜憂參半!

DrafterBench評測了主流SOTA大語言模型,分別為:OpenAI GPT-4o / o1系列、Claude 3.5 Sonnet、Deepseek-V3-685B、Qwen2.5-72B-Instruct、以及LLaMA3-70B-Instruct。


綜合來看,這些模型表現(xiàn)都達(dá)到一定水準(zhǔn),得分普遍超過65分

其中,OpenAI o1以79.9的綜合分領(lǐng)跑,Claude3.5 Sonnet和Deepseek-V3-685B表現(xiàn)也非常接近,分別為73.79和73.09。

這說明當(dāng)前主流大模型具備一定的工程任務(wù)處理能力,尤其在簡單指令執(zhí)行上表現(xiàn)穩(wěn)定。

但與此同時,模型整體水平仍遠(yuǎn)未達(dá)到工業(yè)一線對執(zhí)行精度、流程完整性的實際要求。

更重要的是,不同模型在四大能力維度上呈現(xiàn)出顯著差異。


比如,在結(jié)構(gòu)化數(shù)據(jù)理解任務(wù)中,模型整體表現(xiàn)穩(wěn)定,對語言風(fēng)格的魯棒性較強(qiáng)。

但在工具調(diào)用方面,準(zhǔn)確率波動明顯,平均可達(dá)9個百分點。對于指令跟隨能力,部分模型表現(xiàn)出較強(qiáng)的任務(wù)承載能力,如OpenAI o1和Claude3.5 Sonnet抗噪聲能力較好,能保持基本的任務(wù)完整性。

而在批判性推理任務(wù)中,模型間能力分化尤為顯著。

OpenAI o1在識別指令中信息缺失、篩選關(guān)鍵信息方面表現(xiàn)突出,而Qwen2.5則在細(xì)節(jié)補(bǔ)充上更具優(yōu)勢。

其余模型則在這兩個維度中存在大幅度波動,表現(xiàn)不一。

研究團(tuán)隊進(jìn)一步使用自動化錯誤分析工具,對每一個任務(wù)的失敗原因進(jìn)行結(jié)構(gòu)化溯源。

結(jié)果表明,模型常見錯誤類型包括參數(shù)定義不清、變量傳遞失敗、函數(shù)調(diào)用結(jié)構(gòu)錯亂、工具選擇偏差以及多工具組合邏輯混亂。

更關(guān)鍵的是,即便多個步驟執(zhí)行正確,只要某一關(guān)鍵環(huán)節(jié)出現(xiàn)偏差,就會導(dǎo)致最終圖紙修改失敗。

這也解釋了為何多數(shù)模型的單項能力準(zhǔn)確率維持在60%左右,但整體目標(biāo)修改完成度卻顯著偏低,僅在40%左右。

結(jié)論與展望

這些評估結(jié)果說明,盡管當(dāng)前的大模型已有一定能力拆解復(fù)雜任務(wù)結(jié)構(gòu)、調(diào)用工程工具,但它們?nèi)?strong>難以穩(wěn)健掌握完整任務(wù)鏈的所有細(xì)節(jié),對實際場景的適應(yīng)能力尚不足以支撐工程一線需求。

如果說過去的大模型評測多數(shù)還停留在「會不會」,那么DrafterBench的貢獻(xiàn)在于首次讓模型接受了「干不干得好」的落地考核。

工程現(xiàn)場需要的是高容錯、強(qiáng)判斷、懂規(guī)則、能執(zhí)行的助手,而DrafterBench正是在為這一目標(biāo)提供數(shù)據(jù)支持與路徑驗證。

接下來,研究團(tuán)隊還將擴(kuò)展任務(wù)類型至圖紙校審、規(guī)范檢測、施工日志智能生成等更多工程應(yīng)用場景,持續(xù)拓展模型能力邊界。

你有模型,DrafterBench有任務(wù)。

看看你的模型,能不能真在圖紙上動真格。

參考資料:


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
快船官宣比爾加盟后!繼續(xù)猛追保羅,四大控衛(wèi)登場,卻被名嘴看衰

快船官宣比爾加盟后!繼續(xù)猛追保羅,四大控衛(wèi)登場,卻被名嘴看衰

阿旺視角
2025-07-19 09:22:42
英偉達(dá)黃仁勛:理想汽車大得像帶輪子的客廳,蔚來和小鵬非常豪華!小米、比亞迪的車都非常好,可惜美國買不到小米汽車

英偉達(dá)黃仁勛:理想汽車大得像帶輪子的客廳,蔚來和小鵬非常豪華!小米、比亞迪的車都非常好,可惜美國買不到小米汽車

和訊網(wǎng)
2025-07-16 18:28:38
美國大使放下狠話:只要中國不聽話不低頭,就讓十四億人挨餓受窮

美國大使放下狠話:只要中國不聽話不低頭,就讓十四億人挨餓受窮

趣知史館
2025-07-18 10:00:03
絕地反殺!宗慶后私生子申請鑒定,宗馥莉一舉動表態(tài)度,勝券在握

絕地反殺!宗慶后私生子申請鑒定,宗馥莉一舉動表態(tài)度,勝券在握

洲洲影視娛評
2025-07-15 18:03:37
車禍傷「查梅毒」,醫(yī)院遭家屬舉報

車禍傷「查梅毒」,醫(yī)院遭家屬舉報

醫(yī)眼觀察
2025-07-17 09:24:55
中美俄衛(wèi)星定位精度差距太大!美0.1米,俄1.5米,中國北斗是多少

中美俄衛(wèi)星定位精度差距太大!美0.1米,俄1.5米,中國北斗是多少

慎獨贏
2025-06-11 12:35:48
宗慶后遺產(chǎn)案再爆猛料:三房保姆很彪悍,孩子給二房,她拿錢出國

宗慶后遺產(chǎn)案再爆猛料:三房保姆很彪悍,孩子給二房,她拿錢出國

苗苗情感說
2025-07-17 17:25:19
我,70后武漢人,45歲國企退休,投資移民美國,如今在紐約賣家電

我,70后武漢人,45歲國企退休,投資移民美國,如今在紐約賣家電

真實人物采訪
2025-06-09 09:10:02
林彪打印度有多狠?30分鐘吃掉印軍三個師,直言讓印度從此消失

林彪打印度有多狠?30分鐘吃掉印軍三個師,直言讓印度從此消失

魅力老照片
2025-05-12 19:18:26
圍堵中國使館,中國正式發(fā)函韓國,這一次,中方動真格了!

圍堵中國使館,中國正式發(fā)函韓國,這一次,中方動真格了!

探史
2025-07-19 09:12:54
機(jī)場偶遇53歲張惠妹,個子不高穿厚底鞋,也沒網(wǎng)上傳的那么胖

機(jī)場偶遇53歲張惠妹,個子不高穿厚底鞋,也沒網(wǎng)上傳的那么胖

TVB的四小花
2025-07-19 00:59:18
詹姆斯生涯終章來了?三個選擇全是死局,從湖人退役是唯一體面選擇

詹姆斯生涯終章來了?三個選擇全是死局,從湖人退役是唯一體面選擇

海闊山遙YAO
2025-07-15 08:47:49
1935年瞿秋白從容就義,建國后毛主席卻對他評價出:以后少紀(jì)念他

1935年瞿秋白從容就義,建國后毛主席卻對他評價出:以后少紀(jì)念他

紀(jì)實文錄
2025-07-15 09:41:18
高溫+強(qiáng)對流!中到大雨、大到暴雨,陜西降雨今夜就到!

高溫+強(qiáng)對流!中到大雨、大到暴雨,陜西降雨今夜就到!

魯中晨報
2025-07-18 16:16:20
中國巨貪之子出逃22年,搖身一變成外籍富商!還把女兒送入政壇?

中國巨貪之子出逃22年,搖身一變成外籍富商!還把女兒送入政壇?

諾言卿史錄
2025-07-16 15:17:00
黃楊鈿甜媽媽收藏贗品耳環(huán)近10年,并讓女兒在成人禮佩戴,誰信啊

黃楊鈿甜媽媽收藏贗品耳環(huán)近10年,并讓女兒在成人禮佩戴,誰信啊

芊手若
2025-07-17 00:49:21
康納斯痛批阿卡溫網(wǎng)決賽沒有B計劃;德國舞娘怒斥決賽是一場敗筆

康納斯痛批阿卡溫網(wǎng)決賽沒有B計劃;德國舞娘怒斥決賽是一場敗筆

網(wǎng)球之家
2025-07-19 00:00:35
最美郭襄:2次拒絕黎明,被疾病折磨20年,現(xiàn)55歲近照憔悴不敢認(rèn)

最美郭襄:2次拒絕黎明,被疾病折磨20年,現(xiàn)55歲近照憔悴不敢認(rèn)

東方不敗然多多
2025-07-19 05:40:10
哈特:全聯(lián)盟不惜代價規(guī)避第二土豪線,第二土豪線也關(guān)乎著球員的處境

哈特:全聯(lián)盟不惜代價規(guī)避第二土豪線,第二土豪線也關(guān)乎著球員的處境

雷速體育
2025-07-18 12:20:14
廢掉一個退休老人最簡單的方式:就是讓他沉迷于過“二手生活”

廢掉一個退休老人最簡單的方式:就是讓他沉迷于過“二手生活”

聞心品閣
2025-07-13 22:04:30
2025-07-19 10:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13094文章數(shù) 66099關(guān)注度
往期回顧 全部

科技要聞

凌晨,OpenAI重磅更新,Manus們算白忙活嗎

頭條要聞

牛彈琴:點起的火燒到自己身上 特朗普的最大麻煩來了

頭條要聞

牛彈琴:點起的火燒到自己身上 特朗普的最大麻煩來了

體育要聞

夏聯(lián)-楊瀚森8+8+5+3帽 開拓者大勝火箭

娛樂要聞

王琳自曝被兒子打,承認(rèn)自己水性楊花

財經(jīng)要聞

娃哈哈爭產(chǎn)大戰(zhàn):杜建英的進(jìn)擊

汽車要聞

售30萬?方程豹鈦7高配版有激光雷達(dá)/車載無人機(jī)

態(tài)度原創(chuàng)

時尚
數(shù)碼
手機(jī)
家居
軍事航空

15件甜撩系睡衣!純欲又少女,根本頂不住!

數(shù)碼要聞

華碩 8 月發(fā)售 32 英寸6K ProArt PA32QCV顯示器

手機(jī)要聞

一加13、REDMI K80 Pro、iQOO 13銷量比比看

家居要聞

簡構(gòu)智居 現(xiàn)代功能美學(xué)

軍事要聞

美國稱不支持以色列近期在敘利亞的行動

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 星子县| 沁源县| 旌德县| 德州市| 电白县| 洪洞县| 金山区| 通河县| 花莲市| 祁连县| 颍上县| 修文县| 长沙县| 勐海县| 漾濞| 万年县| 长顺县| 广灵县| 济南市| 揭东县| 都匀市| 武功县| 谢通门县| 丹江口市| 张北县| 土默特右旗| 晋江市| 莱州市| 靖宇县| 通河县| 栾川县| 进贤县| 山西省| 天峻县| 屯门区| 小金县| 成武县| 右玉县| 龙泉市| 台东市| 云南省|