99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

《AI×SCIENCE十大前沿觀察》9:合成數據和數據基礎設施

0
分享至


導語

上海科學智能研究院、集智科學研究中心和阿里云聯合發布了《AI × Science十大前沿觀察》,梳理出35個研究前沿,來推動科學發展的黃金時代到來。本篇為前沿觀察9,掃描下方二維碼,可獲得完整版下載、快速鏈接論文原文。

掃描二維碼 下載完整報告

合成數據和數據基礎設施

背景介紹

在AI大模型時代,數據作為關鍵戰略資源,既是模型訓練的基礎要素,也是制約性能提升的核心瓶頸,其質量與規模直接決定智能系統的能力邊界。科學智能的發展同樣面臨著諸多數據挑戰,其中最為關鍵的是數據稀缺問題[1]。一方面,在某些科學領域,往往難以獲取大規模、高質量的標注數據[2];另一方面,某些數據資源豐富的領域(如醫療)往往涉及隱私或法律限制[3]。此外,跨學科多源數據整合也面臨巨大障礙,數據格式、標準和結構的差異,導致AI模型難以跨越多個領域進行通用學習,進一步加劇了數據稀缺問題。

合成數據(Synthetic Data)與數據基礎設施建設是解決以上挑戰的兩個重要手段。在合成數據中,最基礎也最關鍵的是數據生成(Data Generation)問題。與傳統提示工程不同[13][14],即通過提示對部署的LLMs輸入文本數據 X 進行預測以生成標簽 Y,合成數據生成則要求LLMs根據條件化的標簽 Y 提示生成文本數據 X,以此適配多樣化的下游任務的數據需求。


LLMs在生成特定標簽的合成數據(a)與提示詞預測生成標簽(b)之間的比較 [13]|圖片來源:Xu Guo&Yiqiang Chen.(2024) "Generative AI for Synthetic Data Generation: Methods,Challenges and the Future"

然而,若直接將有限標簽和任務信息嵌入到提示中,LLMs生成的數據可能與任務無關,缺乏多樣性,規模也很有限。因此需要更先進的提示技術:如屬性控制提示(Attribute-controlled prompt),通過指定一組屬性、并在提示模板中進行屬性混合,以此定義任務獲取合成數據的混合軟提示方法 [15],或從LLMs中直接提取特定屬性的提示,并查詢生成特定數據的AttrPrompt [16];如詞匯化技術(Verbalizer),通過將作為條件的屬性類擴展為一組語義相似的提示來促進多樣化數據生成,例如 MetaPrompt [17]首先從LLMs獲取擴展提示,然后利用豐富的提示進一步提示LLMs生成數據。


LLMs生成特定屬性任務訓練數據的方法。同上[13]。

當然,以上合成數據生成方法,主要直接針對于文本數據等結構化的、序列化的數據,對于要保持全局一致性的復雜數據(如合成醫學影像和3D圖形),這些技術需要進行遷移和擴展。

除了數據生成,合成數據另外兩個重要子領域是科學數據表示(Scientific Data Representation)和模型自我改進方向(Model Self-Improvement)的探索。前者重點研究如何有效地編碼和組織合成數據,后者探索如何讓模型通過合成數據來提升自身性能。高效的數據表征方法通過提取關鍵特征提升生成數據的保真度,而模型的自迭代優化機制則能持續擴展數據覆蓋范圍,二者的協同作用實現了高質量與規模化數據生成的同步突破。

下文中將重點介紹關于合成數據的數據生成、科學數據表示、模型自我改進三個領域的最新進展和代表性工作,以及科學數據基礎設施建設的π-HuB項目。

研究進展

進展目錄 合成數據生成:從序列數據到復雜數據 科學數據表示:從圖神經網絡到多模態數據表征 模型自我改進:通過合成數據提升AI系統性能 數據基礎設施:人體蛋白質組計劃
合成數據生成:從序列數據到復雜數據

推薦理由:合成數據的核心優勢不僅在于可大規模生成數據,而且可以根據特定需求進行定制。通過引入可控的變化確保不同類別數據的平衡表示,增強模型的魯棒性。在這個領域中,從簡單的序列數據到復雜的多模態數據,都出現了一些突破性的研究成果。

在眾多創新工作中,英偉達于2023年開發的 MimicGen系統展現出了特別的價值[4]。這個系統展示了如何從有限的人類示范中構建大規模訓練數據集的有效方法。通過僅使用約200個人類演示樣本,MimicGen成功生成了包含超過5萬個示范的大規模數據集。這些數據涵蓋了18種不同任務,并在多種場景配置、對象實例和機器人手臂操作中展現出良好的多樣性。


MimicGen合成數據生成示意圖|圖片來源:Mandlekar et al.(2023) "Mimicgen: A data generation system for scalable robot learning using human demonstrations."

MimicGen的工作流程中,系統首先對源數據集中的演示進行精細化解析,將每個演示分解為多個以對象為中心的子任務單元(圖2左)。在生成新數據時,系統會選擇合適的參考段,并將其智能地轉換到新場景中,通過調整對象位姿來適應不同環境。最終,系統使用末端執行器控制器來實現這些轉換后的目標位姿序列(圖2右),確保生成數據的實用性和可靠性。


MimicGen 系統流程|圖片來源:Mandlekar et al.(2023) "Mimicgen: A data generation system for scalable robot learning using human demonstrations."

在實際應用中,這些技術可以進行跨模態整合,將文本領域的控制機制與視覺生成相結合,通過屬性控制提示定義視覺目標,再利用詞匯化技術擴展視覺表達,最終由視覺生成模型完成具體生成任務。這種技術遷移不僅擴展了原有技術的應用范圍,也為復雜數據的生成提供了更精確的控制機制。

這種方法不僅顯著提高了數據生成的效率,更重要的是保證了生成數據的質量和多樣性。通過這種方式,MimicGen為解決人工智能領域中的數據瓶頸問題提供了一個可行的解決方案,同時也為未來合成數據生成技術的發展指明了方向。

科學數據表示:從圖神經網絡到多模態數據表征

推薦理由:科學數據表示是一個致力于開發和優化用于表示、處理和分析科學數據的方法和技術的研究領域。這一領域的核心目標是找到有效方式來捕捉和表達復雜科學數據中的本質特征和關系,使這些數據能夠被機器學習模型更好地理解和利用。

科學數據表示早期的研究主要集中在傳統的數據結構和統計方法上,隨著深度學習和大語言模型興起,這個領域開始向更復雜和強大的表示方法發展。圖神經網絡、圖卷積網絡等開創性地將深度學習與圖結構數據處理結合,變分自編碼器在生物學和物理學領域展現出強大的建模能力,自然語言處理技術的進步也為科學文獻的表示和理解帶來了新的可能性。特別是2023年提出的圖文本聯合表示方法,成功地將文本語義和引用關系結構統一起來,為科學知識的表示開辟了新途徑。

此外,科學數據表示領域面臨的主要挑戰包括如何處理多模態科學數據、如何確保表示的可解釋性,以及如何在保持數據完整性的同時實現高效的壓縮表示等。在這方面,南洋理工大學、北京郵電大學和字節跳動合作訓練的 LLaVA-Video模型[5],通過生成跨模態的合成數據,幫助模型學習不同模態間的關聯關系,大幅提升了多模態表征能力。

LLaVA-Video研究團隊開發了一個創新的視頻理解系統,其核心是基于大規模跨模態合成數據集LLaVA-Video-178K[5]。這個數據集包含了178K個視頻樣本和1.3M個指令跟隨樣本,涵蓋了視頻描述、開放式問答和多項選擇問答等多種任務形式。

研究團隊采用了一種基于GPT-4的三層級遞歸生成架構來構建視頻內容的層級表示(如圖 3 所示)。這種架構通過時序嵌入(Temporal Embedding)和跨模態注意力機制(Cross-modal Attention)來實現視覺和文本信息的有效整合。具體來說,對當前層級的時間點 t,以及最后的時間點 T。系統的三個層級分別承擔不同的表示任務:

(a) 在第一級,為時間點 t 生成字幕時,參考了當前時間點的幀畫面、前一個時間點的字幕,以及(如果適用)最近的第二級總結描述。(b) 在第二級,為時間點 t 生成字幕時,基于前一個第二區間的字幕和最近三個第一區間的字幕。(c) 在第三級,為最終時間點 T 生成整體字幕時,參考了最近的第二區間字幕和當前的第一區間字幕,生成對整個視頻內容的全局語義表示。


LLaVA-Video-178K視頻詳細描述生成流程|圖片來源:Zhang et al. (2024) "Video Instruction Tuning With Synthetic Data."

這種多層級表示方法的創新之處在于它不僅解決了視頻內容的時序依賴問題,還實現了視覺和語言模態的深度融合。通過遞進式的多層級表示來捕捉視頻內容的不同粒度特征,從而實現從局部細節到全局語義的完整表示框架。這種方法不僅提高了模型的性能,也為未來的多模態內容理解研究提供了新的思路。

隨著新技術的不斷涌現和交叉學科的深入融合,科學數據表示領域有望在推動科學發現和促進學科發展方面發揮更加重要的作用。

模型自我改進:通過合成數據提升AI系統性能

推薦理由:在人工智能研究領域中,模型自我改進代表了一個極具前景的發展方向。這種方法讓AI系統能夠通過生成和利用合成數據來增強自身能力,無需過度依賴外部數據源或更強大的教師模型。這一技術不僅降低了對高質量訓練數據的依賴,更開創了AI系統自主學習和進化的新范式。隨著大語言模型的發展,這種自我改進機制展現出越來越重要的價值。

模型自我改進的研究聚焦于通過合成數據增強模型性能。這個領域的一個代表性工作是自訓練(Self-training)方法,模型首先在有限的標注數據上訓練,然后生成新的訓練樣本來改進自身。另一個創新性的研究是模型蒸餾(Model Distillation)與合成數據的結合,通過生成特定的訓練樣本來優化知識遷移過程。這些方法展示了如何通過合成數據來實現模型能力的持續提升。

在這一領域的最新突破中,卡內基梅隆大學和清華大學研究團隊開發的SELF-GUIDE方法[6]展示了顯著成果。這種創新方法通過設計高效的多階段生成機制,使語言模型能夠自主生成任務特定的訓練數據。系統通過逐步生成“輸入-輸出”數據對,并經過嚴格的篩選過程,確保生成數據的質量和相關性。這些自生成的數據隨后被用于模型的進一步微調,形成一個良性的自我提升循環。


SELF-GUIDE 針對生成任務的流程|圖片來源:Zhao et al. (2024) "Self-guide: Better task-specific instruction following via self-synthetic finetuning."

研究結果令人振奮:SELF-GUIDE在多個任務上都取得了顯著的性能提升。在分類任務中,模型性能獲得了約15%的絕對提升;在生成任務中,提升幅度更是達到了約18%。這些數據充分證明了該方法在提升模型能力方面的有效性。

SELF-GUIDE的成功不僅證明了模型自我改進策略的可行性,也為未來AI系統的發展提供了新的思路。這種自主學習和改進的能力,可能會帶來更智能、適應性更強的AI系統,推動整個領域向著更高水平發展。通過持續的自我改進,AI系統有望在更多復雜任務中展現出更強的性能和適應能力

數據基礎設施:人體蛋白質組計劃

推薦理由:首次提出構建人體蛋白質組的精確“導航系統”[18],不僅將徹底改變我們對人體生命活動的認識,隨著單細胞蛋白質組學等技術[19]的快速發展,更有望推動醫學范式從被動治療向主動預防和精確醫療轉變。

在生命科學研究中,基因組告訴我們生命的可能性,蛋白質組則展示了生命的現實狀態。人體內約37萬億個細胞雖然共享相同的基因組,卻能展現出豐富多樣的形態和功能。這種神奇的分化和調控過程,正是由蛋白質的精確表達和調控網絡所主導。然而,目前我們對人體蛋白質組的認識仍然十分有限,這極大地制約了精準醫療的發展。


π-HuB項目的總體目標|圖片來源:He, F., Aebersold, R., Baker, M.S. et al. π-HuB: the proteomic navigator of the human body. Nature636, 322–331 (2024)."

π-HuB項目提出了三個突破性的研究目標:首先是揭示人體的構建原理,通過最新的單細胞蛋白質組學技術,繪制不同類型細胞中蛋白質的精確組成及其調控網絡;其次是建立“元人類” (Meta Homo Sapiens) 計算模型,追蹤記錄人體蛋白質組在不同生命階段的動態變化規律;最后是開發π-HuB導航系統,將蛋白質組學數據轉化為疾病預防、診斷和治療的精確指導。

在技術路線上,該項目采用了多層次、多維度的研究策略。在細胞水平,運用最新的單細胞蛋白質組學技術,實現對人體主要器官細胞類型的精確分析;在群體水平,通過大規模隊列研究[20],揭示生活方式、環境因素等對蛋白質組的影響;在臨床應用層面,通過建立標準化的生物樣本庫和數據分析平臺,推動蛋白質組學在精準醫療中的轉化應用。

研究成果的應用前景令人振奮。在第一階段(2024-2033年),項目將重點實現三個突破:完成人體主要器官的細胞類型蛋白質圖譜;建立基于蛋白質組學的健康評估體系;開發新的疾病早期診斷標志物和治療靶點。這些成果將為實現更具有實踐智慧的精準醫學奠定堅實基礎,推動醫學模式從被動治療向主動預防轉變。

π-HuB項目的創新性不僅體現在其科學目標上,也體現在其組織模式上。項目采用開放科學的理念,建立了國際化的研究團隊網絡,并承諾將研究數據和分析工具向全球科研界開放共享。這種協作模式將大大加速蛋白質組學研究的進展。π-HuB項目的啟動,標志著人類探索生命奧秘和追求健康的征程又邁出了重要一步。

挑戰與展望

雖然 OpenAI的CEO Sam Altman 預見AI最終將能產生足夠優質的合成數據來訓練自身,但有研究表明[21],劣質信息和不當的訓練方法仍可能導致LLMs“模型崩潰”。因此合成數據雖然潛力巨大,但在實際應用中仍面臨著諸多挑戰。

數據質量與保真度問題至關重要。合成數據的質量直接影響模型性能。基于虛假、幻覺或有偏差的數據訓練的模型不僅可能在現實場景中表現不佳,缺乏泛化能力[22],如果設計和驗證不當,還可能會放大已有偏差或引入新的偏差[23]。去污染評估(decontamination evaluation)難度問題仍需進一步探索。由于合成數據可能包含重述的基準數據版本,傳統的詞級別去污染方法可能會失效[24],導致無法有效區分模型是真正理解和學習了新知識,還是僅僅在記憶和重復訓練數據中的內容。隱私與倫理問題也依然嚴峻。盡管合成數據提供了一些不損害個人隱私的途徑[25],但在敏感領域中使用合成數據時仍存在倫理問題。有研究[26]表明可以從訓練數據集中提取特定信息,這意味著合成數據可能會在無意中暴露基礎訓練數據的某些敏感信息和隱私內容[27]。

當然,在面對挑戰的同時,合成數據未來同樣有下面幾個具有前景的研究發展方向值得期待。

數據質量與多樣性提升。合成數據未來研究應專注于開發基于GANs和擴散模型等的新技術,并結合領域特定知識,通過RAG等方法確保數據質量和多樣性,拓展到包括醫療、金融和社會科學等應用領域。

數據質量監管機制研究。隨著AI復雜性提升,傳統數據評估方法已不足以應對挑戰。需要建立更系統化的監管框架,實現合成數據的全面質量評估、自動化篩查和多場景驗證。

探索合成數據的規模效應。鑒于一些經過精心訓練的小型語言模型,能超出Chinchilla定律(模型性能與訓練數據規模和模型參數量呈正比)的預測,未來研究需要探索合成數據規模的“質量-數量”權衡機制,以找到提升模型性能的最優數據策略。

自我改進能力的涌現研究。最新研究顯示出積極進展,但仍需深入探索其理論基礎、局限性和潛在風險,從而推動更具適應性和自主性的AI學習過程。

多源數據融合基礎設施建設。需要解決數據標準化和語義對齊問題,特別是在處理跨組織、跨領域的敏感數據時,如何在促進數據共享的同時確保數據安全與隱私問題。近期,Anthropic 開源的「模型上下文協議」MCP(Model Context Protocol)[28] 已經邁出了重要一步。

總之,雖然目前仍面臨諸多挑戰,但正如許多研究者所預見的,合成數據不僅是解決當前AI發展瓶頸的工具,更可能成為開啟下一代人工智能革命的鑰匙。特別是在自我改進能力方面的研究,能幫助我們實現從狹義AI到通用人工智能的跨越,推動人類和AI向更智能、更加美好的未來邁進。

參考文獻

[1] Villalobos,Pablo,et al. "Will we run out of data? an analysis of the limits of scaling datasets in machine learning." arXiv preprint arXiv:2211.04325 (2022)

推薦理由:深入分析機器學習數據集擴展的極限問題,對當前大模型發展中的數據瓶頸提供了重要見解。

[2] Gilardi,Fabrizio,Meysam Alizadeh,and Ma?l Kubli. "ChatGPT outperforms crowd workers for text-annotation tasks." Proceedings of the National Academy of Sciences 120.30 (2023): e2305016120.

推薦理由:首次系統性地證明ChatGPT在文本標注任務上優于人工眾包,為AI輔助數據標注提供了實證研究支持。

[3] Abay,Nazmiye Ceren,et al. "Privacy preserving synthetic data release using deep learning." Machine Learning and Knowledge Discovery in Databases: European Conference,ECML PKDD 2018,Dublin,Ireland,September 10–14,2018,Proceedings,Part I 18. Springer International Publishing,2019.

推薦理由:提出了基于深度學習的隱私保護合成數據生成方法,在數據隱私和效用之間取得了良好平衡。

[4] Mandlekar,Ajay,et al. "Mimicgen: A data generation system for scalable robot learning using human demonstrations." arXiv preprint arXiv:2310.17596 (2023).

推薦理由:創新性地提出了基于人類示范的機器人學習數據生成系統,為解決機器人學習中的數據瓶頸提供了新思路。

[5] Zhang,Yuanhan,et al. "Video Instruction Tuning With Synthetic Data." arXiv preprint arXiv:2410.02713 (2024).

推薦理由:探索了視頻指令微調的合成數據生成方法,為多模態大模型的訓練提供了新的視角。

[6] Zhao,Chenyang,et al. "Self-guide: Better task-specific instruction following via self-synthetic finetuning." arXiv preprint arXiv:2407.12874 (2024).

推薦理由:提出了自生成式指令微調方法,顯著提升了模型對特定任務的理解能力。

[7] Chen,Zixiang,et al. "Self-play fine-tuning converts weak language models to strong language models." arXiv preprint arXiv:2401.01335 (2024).

推薦理由:創新性地提出了自對弈式微調方法,證明了弱模型可以通過自我提升變強。

[8] Wu,Tianhao,et al. "Meta-rewarding language models: Self-improving alignment with llm-as-a-meta-judge." arXiv preprint arXiv:2407.19594 (2024).

推薦理由:提出了創新的元獎勵機制來改進語言模型對齊,為模型自我提升提供了新框架。

[9] Liang,Yiming,et al. "I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm." arXiv preprint arXiv:2408.08072 (2024).

推薦理由:提出了從零開始的LLM自對齊迭代增強范式,為模型對齊提供了全新思路。

[10] Van Breugel,Boris,Zhaozhi Qian,and Mihaela Van Der Schaar. "Synthetic data,real errors: how (not) to publish and use synthetic data." International Conference on Machine Learning. PMLR,2023.

推薦理由:深入分析了合成數據使用中的常見錯誤,提供了實用的合成數據發布和使用指南。

[11] Barbierato,Enrico,et al. "A methodology for controlling bias and fairness in synthetic data generation." Applied Sciences 12.9 (2022): 4619.

推薦理由:提出了一種在合成數據生成中控制偏差和公平性的方法,旨在提高數據的公正性,該方法在減少算法偏差和促進公平性方面具有重要意義,特別是在敏感應用領域。

[12] Mattern,Justus,et al. "Membership inference attacks against language models via neighbourhood comparison." arXiv preprint arXiv:2305.18462 (2023).

推薦理由:這項研究提出了基于鄰域比較的創新成員推理攻擊方法,有效揭示了語言模型在訓練數據隱私保護方面的潛在漏洞。

[13] Xu Guo&Yiqiang Chen.(2024) "Generative AI for Synthetic Data Generation: Methods,Challenges and the Future"

推薦理由:全面梳理了生成式AI在合成數據生成領域的最新進展和技術挑戰,為研究者提供了完整的領域發展全貌。

[14] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial networks,”2014

推薦理由:這是GAN領域的開山之作,開創了生成對抗網絡的研究方向并奠定了理論基礎。

[15] D. Chen, C. Lee, Y. Lu, D. Rosati, and Z. Yu, “Mixture of soft prompts for controllable data generation,” in Findings of the Association for Computational Linguistics: EMNLP 2023, H. Bouamor, J. Pino, and K. Bali, Eds.

Singapore: Association for Computational Linguistics, Dec. 2023, pp. 14 815–14 833. [Online]. Available: https://aclanthology.org/2023.findings-emnlp.988

推薦理由:在EMNLP發表的研究創新性地提出了混合軟提示方法來實現可控的數據生成,為提示工程提供了新思路。

[16] Y. Yu, Y. Zhuang, J. Zhang, Y. Meng, A. Ratner, R. Krishna, J. Shen, and C. Zhang, “Large language model as attributed training data generator: A tale of diversity and bias,” in Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track, 2023.

[Online]. Available: https://openreview.net/forum?id=6hZIfAY9GD

推薦理由:深入探討了大語言模型在訓練數據生成過程中的多樣性和偏見問題,為提升AI系統的公平性提供了重要參考。

[17] L. Reynolds and K. McDonell, “Prompt programming for large language models: Beyond the few-shot paradigm,” 2021.

推薦理由:突破性地探索了超越少樣本范式的提示編程方法,為大語言模型的提示工程開辟了新方向。

[18] He, F., Aebersold, R., Baker, M.S. et al. π-HuB: the proteomic navigator of the human body. Nature636, 322–331 (2024). https://doi.org/10.1038/s41586-024-08280-5

推薦理由:這篇Nature文章介紹了突破性的人體蛋白質組導航器 π-HuB平臺,為理解人體生理機制和疾病發展提供了新視角。

[19] Kelly, R.T. Single-cell proteomics: progress and prospects. Mol. Cell. Proteomics 19, 1739–1748 (2020).

推薦理由:系統總結了單細胞蛋白質組學的技術進展和應用前景,為該領域研究者提供了重要參考。

[20] Eldjarn, G.H. et al. Large-scale plasma proteomics comparisons through genetics and disease associations. Nature 622, 348–358 (2023).

推薦理由:提 在Nature發表的大規模血漿蛋白質組學研究,通過與遺傳學和疾病關聯分析揭示了重要的生物學機制。

[21] Shumailov,I.,Shumaylov,Z.,Zhao,Y. et al. AI models collapse when trained on recursively generated data. Nature 631,755–759 (2024). https://doi.org/10.1038/s41586-024-07566-y

推薦理由:Nature上發表的重要研究,揭示了AI模型在遞歸生成數據訓練時的崩潰現象,對當前生成式AI的局限性提供了關鍵洞察。

[22] Y. Zhu, R. Kiros, R. Zemel, R. Salakhutdinov, R. Urtasun, A. Torralba, and S. Fidler, “Aligning books and movies: Towards story-like visual explanations by watching movies and reading books,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 19–27

推薦理由:開創性地探索了電影和圖書內容的跨模態對齊問題,為視覺敘事理解提供了重要的研究基礎,是多模態學習領域的經典文獻。

[23] C. Peng, X. Yang, A. Chen, K. E. Smith, N. PourNejatian, A. B.

Costa, C. Martin, M. G. Flores, Y. Zhang, T. Magoc et al., “A study of generative large language model for medical research and healthcare,”arXiv preprint arXiv:2305.13523, 2023.

推薦理由:系統研究了大語言模型在醫療研究和健康護理領域的應用前景,深入分析了其潛力和局限性。

[24] S. Moore, R. Tong, A. Singh, Z. Liu, X. Hu, Y. Lu, J. Liang, C. Cao, H. Khosravi, P. Denny et al., “Empowering education with llms-the next-gen interface and content generation,” in International Conference on Artificial Intelligence in Education. Springer, 2023, pp. 32–37.

推薦理由:探討了大語言模型在教育領域的創新應用,特別關注了接口設計和內容生成方面的突破。

[25] N. Rane, “Role and challenges of chatgpt and similar generative artificial intelligence in business management,” Available at SSRN 4603227, 2023.

推薦理由:Rane (2023) 詳細分析了ChatGPT等生成式AI在商業管理中的角色定位和面臨的挑戰,為企業應用提供了實用的參考框架。

[26] Y. Cao, S. Li, Y. Liu, Z. Yan, Y. Dai, P. S. Yu, and L. Sun, “A comprehensive survey of ai-generated content (aigc): A history of generative ai from gan to chatgpt,” arXiv preprint arXiv:2303.04226, 2023.

推薦理由:全面回顧了AI生成內容(AIGC)的發展歷程,從GAN到ChatGPT的技術演進,是理解生成式AI發展的重要綜述。

[27] A. Bauer, S. Trapp, M. Stenger, R. Leppich, S. Kounev, M. Leznik, K. Chard, and I. Foster, “Comprehensive exploration of synthetic data generation: A survey,” arXiv preprint arXiv:2401.02524, 2024

推薦理由:全面綜述了合成數據生成的各種方法和應用,為研究者提供了系統性的參考框架。

[28] https://www.anthropic.com/news/model-context-protocol

推薦理由:通過MCP協議為大語言模型在長文本處理能力上的突破性進展,為大模型架構優化提供了新思路。

出品:漆遠、吳力波、張江 運營:孟晉宇、王婷 撰稿:張江、楊燕青、王婷、王朝會、十三維、周莉、梁金、袁冰、江千月、劉志毅 鳴謝(按姓氏拼音順序,排名不分先后): 曹風雷 、陳小楊 、程遠、杜沅豈 、段郁、方榯楷 、付彥偉、 高悅、黃柯鑫、李昊、劉圣超、譚偉敏、吳泰霖、吳艷玲、向紅軍、張驥、張艷、朱思語

AI+Science 讀書會

詳情請見:

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
重大事件!俄軍遭重創后勤生命線遭烏軍炸斷,布良斯克州橋梁坍塌

重大事件!俄軍遭重創后勤生命線遭烏軍炸斷,布良斯克州橋梁坍塌

國際情爆猿
2025-06-01 08:13:41
解放軍少將:不接受對中方的無端指責!

解放軍少將:不接受對中方的無端指責!

魯中晨報
2025-05-31 22:49:13
突然爆雷,總部被封!有人全家被套超1200萬元,前員工哭訴“所有錢都投進去了”

突然爆雷,總部被封!有人全家被套超1200萬元,前員工哭訴“所有錢都投進去了”

21世紀經濟報道
2025-05-31 22:53:18
美國貿易代表辦公室延長對中國301條款關稅的部分豁免

美國貿易代表辦公室延長對中國301條款關稅的部分豁免

財聯社
2025-06-01 11:24:25
上海發布最新通告!200多位區長、街道辦主任、鎮長名單集中公示,值班電話公開

上海發布最新通告!200多位區長、街道辦主任、鎮長名單集中公示,值班電話公開

上觀新聞
2025-06-01 11:20:54
廣東人救屈原式劃龍舟,網友:全國唯一無法被資本左右的比賽哈哈

廣東人救屈原式劃龍舟,網友:全國唯一無法被資本左右的比賽哈哈

新東方
2025-05-31 09:56:56
烏克蘭襲擊海參崴:俄軍第155海軍陸戰旅駐地被炸

烏克蘭襲擊海參崴:俄軍第155海軍陸戰旅駐地被炸

鷹眼Defence
2025-05-31 17:11:29
法網創20年新紀錄!鄭欽文再遭冷落,WTA你失去了尊重

法網創20年新紀錄!鄭欽文再遭冷落,WTA你失去了尊重

體育就你秀
2025-06-01 09:29:45
廣州市中心“堵船”了!獵德村上演十年最大規模招景,150多條龍船穿越CBD,比過年還熱鬧

廣州市中心“堵船”了!獵德村上演十年最大規模招景,150多條龍船穿越CBD,比過年還熱鬧

極目新聞
2025-06-01 08:52:53
八路軍喝上了蒸餾水?說是“緊急可飲水”!

八路軍喝上了蒸餾水?說是“緊急可飲水”!

深度報
2025-05-31 22:49:09
步行者4-2尼克斯 進總決賽!哈利伯頓21+6+13 西卡31+5獲東決MVP

步行者4-2尼克斯 進總決賽!哈利伯頓21+6+13 西卡31+5獲東決MVP

老王大話體育
2025-06-01 10:50:47
數據不會騙人!2025年高考會是未來10年最容易考上的一年!

數據不會騙人!2025年高考會是未來10年最容易考上的一年!

特特農村生活
2025-05-31 12:38:52
恩里克談姆巴佩:我們擁有圍繞球隊運轉的球星,而不是反過來

恩里克談姆巴佩:我們擁有圍繞球隊運轉的球星,而不是反過來

直播吧
2025-06-01 06:13:14
懂事!多納魯馬從登貝萊手里奪過獎杯給納賽爾,球迷:太想進步了

懂事!多納魯馬從登貝萊手里奪過獎杯給納賽爾,球迷:太想進步了

側身凌空斬
2025-06-01 06:16:58
208萬托布登全美熱搜:詹皇都被印媒調侃 湖人兩舊將相遇總決賽

208萬托布登全美熱搜:詹皇都被印媒調侃 湖人兩舊將相遇總決賽

顏小白的籃球夢
2025-06-01 11:19:04
17分大勝晉級總決賽!步行者超級大逆襲,總決賽具體賽程公布

17分大勝晉級總決賽!步行者超級大逆襲,總決賽具體賽程公布

體壇小李
2025-06-01 10:38:51
太卷了!疑似四川某頭部醫院的內部通知曝光,批評診療量增長過少

太卷了!疑似四川某頭部醫院的內部通知曝光,批評診療量增長過少

火山詩話
2025-06-01 08:37:45
寧可被開除也不愿當告密者的中學生

寧可被開除也不愿當告密者的中學生

景來律師
2025-06-01 07:05:47
中方不見美防長,不到24小時,美方報復來了,對華發起新一輪攻勢

中方不見美防長,不到24小時,美方報復來了,對華發起新一輪攻勢

任紀煙
2025-05-31 23:09:22
李金羽:感謝現場37589名球迷的支持,這一夜我終生難忘

李金羽:感謝現場37589名球迷的支持,這一夜我終生難忘

懂球帝
2025-05-31 22:49:48
2025-06-01 12:28:49
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關知識技能
5132文章數 4634關注度
往期回顧 全部

科技要聞

特朗普突然炒掉NASA準局長,嫌他不"忠誠"?

頭條要聞

玩滑翔傘被“吸”至8000米高空 當事人親述逃生細節

頭條要聞

玩滑翔傘被“吸”至8000米高空 當事人親述逃生細節

體育要聞

亞錦賽女子200米:16歲陳妤頡22秒97奪金

娛樂要聞

張若昀夫婦國外遛娃 男方推平價兒童車

財經要聞

油價繼續下跌?歐佩克宣布將再度增產

汽車要聞

零跑汽車5月交付量達45,067臺 穩居新勢力前三

態度原創

健康
手機
本地
公開課
軍事航空

唇皰疹和口腔潰瘍是"同伙"嗎?

手機要聞

vivo S20、OPPO Reno13銷量大比拼,結果很意外

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美防長在香會大肆渲染中國威脅 中方回應

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 曲阜市| 桃园县| 台前县| 宁蒗| 高邑县| 盐源县| 长沙市| 兰州市| 基隆市| 偃师市| 贵定县| 包头市| 杭州市| 徐闻县| 河曲县| 隆德县| 太原市| 绥芬河市| 镇平县| 洞头县| 通许县| 吉林市| 岳西县| 宁安市| 福鼎市| 泽普县| 清镇市| 天门市| 平南县| 大化| 广安市| 大渡口区| 罗田县| 津市市| 尉犁县| 内黄县| 峨山| 镇平县| 镇宁| 宝丰县| 都匀市|