本期為TechBeat人工智能社區第669期線上Talk。
北京時間3月19日(周三)20:00,中國科學院大學博士生伍星的Talk將準時在TechBeat人工智能社區開播!
他與大家分享的主題是:“構建可擴展的長文本大模型訓練數據”,屆時他將介紹Quest和NExtLong這兩種前沿長文本數據合成方法。
Talk·信息
主題:構建可擴展的長文本大模型訓練數據
嘉賓:中國科學院大學 · 博士生 - 伍星
時間:北京時間3月19日(周三)20:00
地點:TechBeat人工智能社區
http://www.techbeat.net/
Talk·介紹
長文本大模型的重要性日益凸顯,但高質量長文本數據稀缺且分布不均,成為制約模型訓練效果的瓶頸。本次報告將介紹兩種前沿長文本數據合成方法: Quest方法以查詢為中心,將相關且冗 余度低的文檔聚合成長上下文; NExtLong方法通過負例文檔擴展,增強模型對長距離依賴的建模能力。
實驗結果 表明,兩種方法在長文本基準測試中均取得顯著成果,為構建更強大的長文本大模型提供了有效途徑。
Talk大綱
1. 背景 - 長文本模型因其在復雜任務中的優越表現而備受關注,但高質量的長文本數據仍然稀缺。
2. 動機與問題 - 傳統方法在處理長文本時面臨數據分布傾斜、缺乏長距離依賴機制以及容易受到無關信息干擾等問題。
3. 解決方案:
(1)Quest通過模擬搜索引擎的方式,以查詢為中心聚合相關文檔,從而合成長文本數據。
(2)NExtLong則受對比學習啟發,通過引入困難負樣本來擴展長文本,從而增強模型對長距離依賴關系的建模能力。
4.總結
Talk·預習資料
論文鏈接: https://arxiv.org/abs/2405.19846
論文鏈接: https://arxiv.org/abs/2501.12766
Talk·提問交流
在Talk界面下的【交流區】參與互動!留下你的打call和問題,和更多小伙伴們共同討論,被講者直接翻牌解答!
你的每一次貢獻,我們都會給予你相應的i豆積分,還會有驚喜獎勵哦!
Talk·嘉賓介紹
伍星???????????
中國科學院大學 · 博士生???
伍星,小紅書大模型算法研究員,研究方向為長文本擴展 & 代碼推理。博士就讀于中國科學院信息工程研究所,導師為虎嵩林研究員。
個人主頁: https://www.techbeat.net/grzytrkj?id=1512????
-The End-
如果你也想成為講者
自薦 / 推薦
單人Talk | 團隊專場 | 錄播or直播 | 閉門交流
多種方式任你選擇!
推薦講者成功也有獎勵哦~
關于TechBeat人工智能社區
TechBeat(www.techbeat.net)隸屬于將門創投,是一個薈聚全球華人AI精英的成長社區。
我們希望為AI人才打造更專業的服務和體驗,加速并陪伴其學習成長。
期待這里可以成為你學習AI前沿知識的高地,分享自己最新工作的沃土,在AI進階之路上的升級打怪的根據地!
更多詳細介紹>>
預約本期Talk
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.