網易首頁 > 網易號 > 正文申請入駐

Talk預告｜中國科學院大學伍星：構建可擴展的長文本大模型訓練數據

2025-03-18 08:36:56　來源: 將門創投

北京舉報

分享至

本期為TechBeat人工智能社區第669期線上Talk。

北京時間3月19日(周三)20:00，中國科學院大學博士生伍星的Talk將準時在TechBeat人工智能社區開播！

他與大家分享的主題是:“構建可擴展的長文本大模型訓練數據”，屆時他將介紹Quest和NExtLong這兩種前沿長文本數據合成方法。

Talk·信息

主題：構建可擴展的長文本大模型訓練數據

嘉賓：中國科學院大學 · 博士生 - 伍星

時間：北京時間3月19日(周三)20:00

地點：TechBeat人工智能社區

http://www.techbeat.net/

Talk·介紹

長文本大模型的重要性日益凸顯，但高質量長文本數據稀缺且分布不均，成為制約模型訓練效果的瓶頸。本次報告將介紹兩種前沿長文本數據合成方法： Quest方法以查詢為中心，將相關且冗余度低的文檔聚合成長上下文； NExtLong方法通過負例文檔擴展，增強模型對長距離依賴的建模能力。

實驗結果表明，兩種方法在長文本基準測試中均取得顯著成果，為構建更強大的長文本大模型提供了有效途徑。

Talk大綱

1. 背景 - 長文本模型因其在復雜任務中的優越表現而備受關注，但高質量的長文本數據仍然稀缺。

2. 動機與問題 - 傳統方法在處理長文本時面臨數據分布傾斜、缺乏長距離依賴機制以及容易受到無關信息干擾等問題。

3. 解決方案：

（1）Quest通過模擬搜索引擎的方式，以查詢為中心聚合相關文檔，從而合成長文本數據。

（2）NExtLong則受對比學習啟發，通過引入困難負樣本來擴展長文本，從而增強模型對長距離依賴關系的建模能力。

4.總結

Talk·預習資料

論文鏈接： https://arxiv.org/abs/2405.19846

論文鏈接： https://arxiv.org/abs/2501.12766

Talk·提問交流

在Talk界面下的【交流區】參與互動！留下你的打call和問題，和更多小伙伴們共同討論，被講者直接翻牌解答！

你的每一次貢獻，我們都會給予你相應的i豆積分，還會有驚喜獎勵哦！

Talk·嘉賓介紹

伍星???????????

中國科學院大學 · 博士生???

伍星，小紅書大模型算法研究員，研究方向為長文本擴展 & 代碼推理。博士就讀于中國科學院信息工程研究所，導師為虎嵩林研究員。

個人主頁: https://www.techbeat.net/grzytrkj?id=1512????

-The End-

如果你也想成為講者

自薦 / 推薦

單人Talk | 團隊專場 | 錄播or直播 | 閉門交流

多種方式任你選擇！

推薦講者成功也有獎勵哦~

關于TechBeat人工智能社區

TechBeat(www.techbeat.net)隸屬于將門創投，是一個薈聚全球華人AI精英的成長社區。

我們希望為AI人才打造更專業的服務和體驗，加速并陪伴其學習成長。

期待這里可以成為你學習AI前沿知識的高地，分享自己最新工作的沃土，在AI進階之路上的升級打怪的根據地！

更多詳細介紹>>

預約本期Talk

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

每經專訪360集團創始人、董事長兼CEO周鴻祎：智能體賦予大模型“手和腳”，依靠“類人”數字員工，個人創業者能成超級個體

每日經濟新聞 2025-06-25 19:54:22
0 跟貼 0
上海AI獨角獸，連放大招

財天COVER 2025-06-25 16:31:20
0 跟貼 0

對話簡道云：在SaaS行業虧損時盈利，在大模型熱潮中謹慎

鈦媒體APP 2025-06-25 16:53:24
0 跟貼 0

人類創造力的核心機制，AI已經開始掌握了 | 北大CogSci 2025

量子位 2025-06-25 14:44:36
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0

宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0

研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
提示詞工程、RAG之后，LangChain：上下文工程開始火了！

機器之心Pro 2025-06-25 14:18:39
1 跟貼 1

巧用DeepSeek構建多元資產配置框架！“最會用AI做研究的策略首席”王開教你”新套路”

華爾街見聞官方 2025-06-25 20:28:08
0 跟貼 0
你給豆包打的這通視頻背后，藏著AI實時交互的體驗密碼

智東西 2025-06-25 20:04:47
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
對話智識神工楚慶：AI必須創造新生產力，否則就是一場昂貴的幻覺

通信世界 2025-06-25 20:14:37
0 跟貼 0
3mm超薄「隨身AI大腦」來了！全球首個Agentic神器讓打工人瘋狂種草

新智元 2025-06-25 20:11:19
0 跟貼 0
國科大專業17人全部跑路，轉入的一人享福了：年年第一，獎金手軟

熙熙說教 2025-06-23 21:03:38
7 跟貼 7
「淺對齊」到「深思熟慮」，清華牽頭搭起大模型安全的下一級階梯

機器之心Pro 2025-06-25 17:14:12
0 跟貼 0
中國航母訓練數據曝光，日本夸贊背后藏玄機，美日同盟暗流涌動

勇志歌 2025-06-25 08:59:24
1 跟貼 1
中國科學院大學答疑：招生計劃+創新培養模式

小e教育 2025-06-22 14:46:13
0 跟貼 0
一句話讓國科大的教授淚流滿面，憑一己之力，打破美國的芯片壟斷

豆豆的搞笑 2025-06-25 18:10:12
1 跟貼 1
高招宣講專家支招！“大象新聞新高考課堂”走進安陽

大象新聞 2025-06-23 11:46:15
0 跟貼 0
中國科學院大學羊山中學青少年科學素養培育基地揭牌成立?

時代報告 2025-06-23 23:33:03
0 跟貼 0
清華大學畢業典禮上，博士生身穿紅袍入場

CQTV新視界 2025-06-23 16:48:47
29 跟貼 29
伊朗總統：伊方已準備在談判桌上進行對話

央視新聞客戶端 2025-06-24 21:16:38
13929 跟貼 13929
笑麻了！《異種危機》巨型BOSS杵著不動，純純大冤種建模！

大狼Game 2025-06-23 19:57:53
17 跟貼 17
夢幻西游：武神壇驚現超級武僧，群秒暴擊1萬4，算不算法系一哥？

浩仔說夢 2025-06-22 08:00:00
0 跟貼 0
陳丹琦團隊如何「抓住」關鍵緩存，解放LLM內存？

機器之心Pro 2025-06-24 22:35:45
0 跟貼 0
武契奇宣布獲得"絕密"武器裝備目前只有5人知曉

參考消息 2025-06-25 09:26:57
4441 跟貼 4441
"蘇超"40000多張票一出來就秒沒網友：全在閑魚上

火山詩話 2025-06-25 06:27:02
2753 跟貼 2753
一個模型搞懂黑洞形成原理

小糖發財 2025-06-22 05:34:00
0 跟貼 0
中央督察組點名淄博后，省長赴現場督導整改，市委書記開會表態

新京報政事兒 2025-06-25 12:44:39
91 跟貼 91
招行對保交樓項目資金監管不力被通報

中國新聞周刊 2025-06-25 11:46:31
344 跟貼 344
遼寧錦州市區為何沒有共享單車入駐？當地這樣回應

極目新聞 2025-06-24 21:23:17
411 跟貼 411
王虹到中科院開講座依舊座無虛席，旁聽學生稱非常幸運見到學術頂流

極目新聞 2025-06-25 16:43:54
2 跟貼 2
中國科學院大學博士詳解招生政策圓夢“國科大”

8099999街頭巷尾 2025-06-23 20:03:28
0 跟貼 0
港大等開源GoT-R1：強化學習解鎖視覺生成推理新范式

機器之心Pro 2025-06-25 17:49:23
0 跟貼 0
“人類戰爭千萬次，領導先走第一次”：戰爭邏輯的革命性轉變？

高博新視野 2025-06-24 23:34:30
241 跟貼 241
歐文本可簽下5年均薪6000萬長約，如今大幅降薪均薪不到4000萬

懂球帝 2025-06-25 10:04:34
42 跟貼 42
男生查成績看不到分數滿臉疑惑原來是湖北省前二十被屏蔽！

每日趣事兒 2025-06-25 10:04:10
915 跟貼 915
為什么不直接把貴妃運到嶺南？

中國新聞周刊 2025-06-24 21:35:38
901 跟貼 901
突發，香港鄭氏家族暴雷，急需875億救命

販財局 2025-06-25 10:23:29
0 跟貼 0
大樂透第071期今日精選5+2一注推薦

愁緒編織相思 2025-06-25 08:20:00
0 跟貼 0

手機 / 數碼

房產 / 家居

Talk預告｜中國科學院大學伍星：構建可擴展的長文本大模型訓練數據

小米YU7已下線500輛展車 26日前運往全國

與汪峰節目牽手引猜測 寧靜談擇偶標準：他不是我的菜

與汪峰節目牽手引猜測 寧靜談擇偶標準：他不是我的菜

山西太原大媽，在NBA闖出一片天

向佐接機郭碧婷，全程無交流像陌生人

免除蘇寧易購5億債務的神秘人是誰？

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

三亞頂豪！內部資料曝光！

打開京東搜“小米新品0626” 有機會搶先體驗小米AI眼鏡

呼吸科專家破解呼吸道九大謠言！

終于見面啦！！！！原創dy：@辣炒年糕

木質簡約 空間極致利用

與汪峰節目牽手引猜測寧靜談擇偶標準：他不是我的菜

與汪峰節目牽手引猜測寧靜談擇偶標準：他不是我的菜

售14.99萬/限量200臺別克昂科威S新增丹霞紅內飾

木質簡約空間極致利用