網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Talk預(yù)告 | UT-Austin王開聞：SpinBench-LLM規(guī)劃與社交能力的關(guān)鍵短板？

2025-05-13 08:29:00　來源: 將門創(chuàng)投

北京舉報

分享至

本期為TechBeat人工智能社區(qū)第683期線上Talk。

北京時間5月14日(周三)20:00，得克薩斯大學(xué)奧斯汀分校博士生王開聞的Talk將準(zhǔn)時在TechBeat人工智能社區(qū)開播！

他與大家分享的主題是:“SpinBench-LLM規(guī)劃與社交能力的關(guān)鍵短板？”，屆時他將評估SPIN-Bench在策略規(guī)劃與社交推理方面的表現(xiàn)，并探討導(dǎo)致這些不足的潛在原因。

Talk·信息

主題：SpinBench-LLM規(guī)劃與社交能力的關(guān)鍵短板？

嘉賓：得克薩斯大學(xué)奧斯汀分校 · 博士生 - 王開聞

時間：北京時間5月14日(周三)20:00

地點：TechBeat人工智能社區(qū)

http://www.techbeat.net/

Talk·介紹

隨著學(xué)術(shù)界與工業(yè)界對多智能體LLM的高度關(guān)注，我們不禁思考：現(xiàn)有模型能否真正勝任復(fù)雜任務(wù)并實現(xiàn)高效協(xié)作？為此，SPIN-Bench設(shè)計并集成了21個單智能體環(huán)境、3個純競爭環(huán)境、1個完全合作環(huán)境以及1個競合混合環(huán)境，系統(tǒng)評估模型在策略規(guī)劃與社交推理方面的表現(xiàn)。結(jié)果表明，當(dāng)前LLM在長時序規(guī)劃與多方交互協(xié)作中仍面臨顯著挑戰(zhàn)，本次報告還將探討導(dǎo)致這些不足的潛在原因。

Talk大綱

1. SpinBench 環(huán)境的例子

2. SpinBench 環(huán)境簡介以及評估方式

3. 當(dāng)前LLM 在規(guī)劃上的不足

4. LLM在社交能力上的不足

Talk·預(yù)習(xí)資料

論文鏈接： https://arxiv.org/abs/2503.12349 代碼和數(shù)據(jù)： https://github.com/spinbench/spinbench/tree/main 項目主頁： https://spinbench.github.io/

Talk·提問交流

在Talk界面下的【交流區(qū)】參與互動！留下你的打call和問題，和更多小伙伴們共同討論，被講者直接翻牌解答！

你的每一次貢獻，我們都會給予你相應(yīng)的i豆積分，還會有驚喜獎勵哦！

Talk·嘉賓介紹

王開聞???????????

得克薩斯大學(xué)奧斯汀分校 · 博士生???

王開聞，得克薩斯大學(xué)奧斯汀分校博士生。科研領(lǐng)域包括大語言模型，多智能體協(xié)作及三維計算機視覺。至今，他已在CVPR、TPAMI、ICML、NeurIPS等頂級會議發(fā)表多篇論文：其中，LightGaussian 入選Neurips 2025 Spotlight. 多個項目在github 上累計獲得2K+ starts。

個人主頁: https://www.techbeat.net/grzytrkj?id=44720 ????

-The End-

如果你也想成為講者

自薦 / 推薦

單人Talk | 團隊專場 | 錄播or直播 | 閉門交流

多種方式任你選擇！

推薦講者成功也有獎勵哦~

關(guān)于TechBeat人工智能社區(qū)

TechBeat(www.techbeat.net)隸屬于將門創(chuàng)投，是一個薈聚全球華人AI精英的成長社區(qū)。

我們希望為AI人才打造更專業(yè)的服務(wù)和體驗，加速并陪伴其學(xué)習(xí)成長。

期待這里可以成為你學(xué)習(xí)AI前沿知識的高地，分享自己最新工作的沃土，在AI進階之路上的升級打怪的根據(jù)地！

更多詳細介紹>>

預(yù)約本期Talk

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.