導語
自從GPT-o1問世以來,大語言模型的發展進入了嶄新的階段——從以預訓練+微調的模式,逐漸向以思維鏈誘導推理,乃至通過結合蒙特卡洛樹搜索以及強化學習相結合的復雜推理模式方向發展。第一期分享于2024年12月7日晚19:30正式開始,北京師范大學系統科學學院教授、集智俱樂部創始人張江老師將帶來「大語言模型2.0——從推斷到自指」的分享。
分享內容簡介
越來越多的研究文獻指出,賦予大語言模型自我校準、自我評估,以及自我反思的能力將能夠大大提高大語言模型在復雜推理任務上的表現。本次分享將站在復雜系統的角度回顧大語言模型的發展歷史,并結合多種規模法則(Scaling Law)系統性地梳理大語言模型的幾個發展階段。最終,通過結合馮諾依曼的復雜度閾值以及自復制自動機理論,指出大模型下一步的演化將朝向自我反思與自我意識的方向而發展。
分享內容大綱
歷史回顧
神經語言模型
詞向量
預訓練語言模型
規模法則(Scaling laws)與涌現能力
從訓練到測試
上下文學習
思維鏈
推理能力邊界
復雜度閾值
搜索與推斷
自我學習
自我評估
思維樹
AlphaGo
類AlphaZero樹搜索
新的Scaling Law
Self-x AI
自我改進
自我一致性
自我對齊
自我精煉
自我反思
通向自我意識
主講人介紹
張江,北京師范大學系統科學學院教授,集智俱樂部、集智學園創始人,集智科學研究中心理事長,曾任騰訊研究院、華為戰略研究院等特聘顧問。主要研究領域包括因果涌現、復雜系統分析與建模、規模理論等。
主要涉及到的參考文獻
? F.Sun et al.: Learning Word Representations by Jointly Modeling Syntagmatic and Paradigmatic Relations (slides)
http://www.bigdatalab.ac.cn/~lanyanyan/slides/2015/ACL2015-sun.pdf
? Mikolov, T., Chen, K., Corrado, G., & Dean, J. Efficient Estimation of Word Representations in Vector Space[C]//International Conference on Learning Representations. 2013.
https://arxiv.org/abs/1301.3781
? Qiu, R., Zhou, D., Qian, W., et al. Ask, and it shall be given: Turing completeness of prompting[R]. 2024.
https://arxiv.org/pdf/2411.01992
? Zhou, D., Zhang, S., Gheini, M., et al. Least-to-Most Prompting Enables Complex Reasoning in Large Language Models[J]. ArXiv, abs/2205.10625, 2022: n. pag.
https://arxiv.org/abs/2205.10625
? Pérez, J., Martinez, F., & Barcelo, P. On the Turing Completeness of Modern Neural Network Architectures[J]. ArXiv, abs/1901.03429, 2019: n. pag.
? Siegelmann, H. T., & Sontag, E. D. On the Computational Power of Neural Nets[J]. Journal of Computer and System Sciences, 1995, 50(1): 132–150.
http://binds.cs.umass.edu/papers/1992_Siegelmann_COLT.pdf
https://arxiv.org/abs/1901.03429
? Wei, J., Wang, X., Schuurmans, D., et al. Chain of Thought Prompting Elicits Reasoning in Large Language Models[J]. ArXiv, abs/2201.11903, 2022: n. pag.
https://arxiv.org/abs/2201.11903
? Chen, Q., Wu, X., Wang, Z., et al. Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought[J]. ArXiv, abs/2410.05695, 2024: n. pag.
https://arxiv.org/abs/2410.05695
? Kumar, T., Zhang, Y., & He, C. Scaling Laws for Precision[R]. 2024.
https://arxiv.org/abs/2411.04330
? Wu, Y., Ma, Z., & Li, B. Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models[R]. 2024.
https://arxiv.org/abs/2408.00724
? Huang, J., Wang, X., Wei, J., et al. Large Language Models Can Self-Improve[J]. ArXiv, abs/2210.11610, 2022: n. pag.
https://arxiv.org/abs/2210.11610
? Wang, X., Wei, J., Schuurmans, D., et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models[J]. ArXiv, abs/2203.11171, 2022: n. pag.
https://arxiv.org/abs/2203.11171
? Li, X., Wang, X., Gao, J., et al. Self-Alignment with Instruction Backtranslation[J]. ArXiv, abs/2308.06259, 2023: n. pag.
https://arxiv.org/abs/2308.06259
? Madaan, A., Touvron, H., Lample, G., et al. Self-Refine: Iterative Refinement with Self-Feedback[J]. ArXiv, abs/2303.17651, 2023: n. pag.
https://arxiv.org/pdf/2303.17651
? Shinn, N., Labash, A., & Ahn, S. Reflexion: language agents with verbal reinforcement learning[C]//Neural Information Processing Systems. 2023.
https://arxiv.org/pdf/2303.11366
? Tao, Z., Wang, X., & Wei, J. A Survey on Self-Evolution of Large Language Models[J]. ArXiv, abs/2404.14387, 2024: n. pag.
https://arxiv.org/pdf/2404.14387
直播信息
時間:
2024年12月7日(本周六)晚上19:30-21:30
掃碼參與,加入群聊,獲取系列讀書會回看權限,成為人工智能社區的種子用戶,與社區的一線科研工作者與企業實踐者溝通交流,共同推動人工智能社區的發展。
報名成為主講人
讀書會成員均可以在讀書會期間申請成為主講人。主講人作為讀書會成員,均遵循內容共創共享機制,可以獲得報名費退款,并共享本讀書會產生的所有內容資源。詳情請見:
大模型2.0讀書會啟動
o1模型代表大語言模型融合學習與推理的新范式。集智俱樂部聯合北京師范大學系統科學學院教授張江、Google DeepMind研究科學家馮熙棟、阿里巴巴強化學習研究員王維塤和中科院信工所張杰共同發起,本次讀書會將關注大模型推理范式的演進、基于搜索與蒙特卡洛樹的推理優化、基于強化學習的大模型優化、思維鏈方法與內化機制、自我改進與推理驗證。希望通過讀書會探索o1具體實現的技術路徑,幫助我們更好的理解機器推理和人工智能的本質。
從2024年12月7日開始,預計每周六進行一次,持續時間預計 6-8 周左右。歡迎感興趣的朋友報名參加,激發更多的思維火花!
詳情請見:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.