開發專業領域的大模型成為當前生成式人工智能應用發展的一個重要方向,教育是其中重要的一個領域。例如,Open AI公司近期宣部將推出ChatGPT Edu版本,該版本專為大學打造,旨在負責任地向學生、教職員工、研究人員和校園運營部署AI。據介紹,在GPT-4o的支持下,ChatGPT Edu可以跨文本和視覺進行推理,并使用數據分析等高級工具。[1]國內目前也有不少教育大語言模型的開發,如華東師范大學的“EduChat”“ChemGPT 1.0”[2]等。
谷歌最近也宣部推出學習大模型“LearnLM”,預計2024年9月正式發布。該模型基于谷歌大語言模型Gemini開發,是一款人工智能驅動的工具集,旨在徹底改變課堂管理和教學,可以激勵積極學習、管理認知負荷、適應學習者、激發好奇心、深化元認知。[3]
針對“LearnLM”,谷歌還發布了技術報告《面向教育生成式人工智能的負責任開發:一種評估驅動的方法》[4],該報告介紹了谷歌改進教育生成式人工智能的方法,并強調了如何與人工智能和教育技術共同體合作,負責任地最大限度地發揮其積極影響和潛力。
報告首先指出,世界面臨的一個主要挑戰是提供公平和普遍的優質教育機會。人工智能(Gen AI)的最新進展使人們對新技術的潛力感到興奮,這些新技術可以為每個學習者提供私人導師,為每個教師提供教學助手。然而,這一夢想的全部范圍尚未實現,主要是由于將教學直覺描述為生成式人工智能提示語的困難,以及缺乏良好的評估實踐,而定義優秀教學法的挑戰又加強了這一點。
該報告具體描述了谷歌團隊為教育用例優化生成式人工智能目前所做的工作。該團隊聚焦教育教學中的一對一對話輔導,并提出了一個全面的評估協議。
報告指出,研究團隊之所以聚焦于對話輔導,是因為他們相信它是最有影響力和最普遍的用例之一,因為它需要將許多重要的教育能力集成到一個系統中。優秀的對話式人工智能導師有可能增強學習者(通過為他們提供即時反饋并適應他們的個人需求)和教師(通過增加他們的影響力并減輕他們的工作量)的教育體驗。
而之所以關注評估框架,是因為目前在學習科學、教育技術和教育人工智能之間(甚至內部)缺乏一個共享框架,而這樣的框架可能比任何單一產品都更能推動進步。此外,有效的教學成功衡量標準是優化人工智能解決方案的先決條件,而人工智能解決方案需要這樣的“導航”信號。
在此項工作中,谷歌組建了包括人工智能科學家、工程師、教學專家、安全研究人員和認知科學家組成的多學科研究團隊,在方法上以參與為起點和終點,包括研討會、共同設計練習、半結構化訪談、用戶研究等。
其中通過與教育工作者的對話,研究團隊提出了同時適用于人類導師和AI導師的原則:
——不要過早給出解決方案。鼓勵學習者想出解決方案。
——讓解釋容易理解,例如通過與現實世界的聯系。
——鼓勵學習者。贊美學習者的進步,把錯誤當作學習的機會。
——當學習者遇到困難時,要意識到,并主動與他們聯系。
——通過提問來確定學習者的理解和誤解。
——逐步解釋,解構并教授思維過程。
同時研究團隊還提出了僅適用于AI導師的原則:
——講得通(正確誠實,不編造虛假信息或使用陰謀論)。
——不要偏離輔導和學習的主題,以及正在輔導的特定科目。
——切題,易于接受。
——不要逐字重復自己的話。
——不要聲稱自己是具身的或人類。
——不要聲稱自己是化身或人類。
——不要聲稱在現實世界中采取任何行動(或其他不可能的行動)。相反,用信任來表達或鼓勵學習者去查資料。
——是有幫助的。
——不要回避。
——是無害的。
另外,在開發LearnLM過程中,研究團隊借鑒了別的項目(ShiffBot)提出的開發原則:
——不要直接給出答案。相反,幫助學習者自己發現答案。然后幫助他們邁出下一步。
——以返回適當的可信資源為目標。
——為犯錯提供安全空間。
——了解學生看到的內容:屏幕、代碼和錯誤信息。
——機器人并不總是對的。我們應該從錯誤中吸取教訓。
報告指出,在開發生成式人工智能教育模型應用時,還面臨著一些挑戰,例如:
——缺乏普遍的最佳教學實踐。
報告指出,雖然學習和教學策略已經在許多學科中進行了研究,但定義(并隨后量化)普遍的教學原則仍然是一個挑戰。教育研究落后于許多現代科學,以至于在“21世紀初,教育研究終于進入了20世紀”。
很難建立一套通用的推薦教學實踐的原因之一是許多學科的教育研究分散。即使在同一學科內,許多研究也強調不同的干預措施或策略,幾乎沒有重疊。由此產生的理論往往基于不確定的證據,而且它們轉化為實踐往往很困難或不清楚。此外,大多數認知和學習科學研究往往在小規模同質人群中開展,局限于特定的狹隘教育背景,如學科領域、難度水平或學習者先前知識,并且通常在WEIRD(西方、受教育程度高、工業化、富裕等)國家進行,這使得研究結果很難推廣。所研究的干預措施還帶有可變的實施參數,并且可以以不同的方式組合,從而導致可能的組合爆炸式增長,這些策略通常依賴于情境,很難手動探索,更無法衡量。
——缺乏透明度和共同的評價實踐。
報告指出,從最早的機械教學機,到第一個數字計算機輔助教學系統以及更現代的智能輔導系統,教育一直是最新計算技術的重要應用。從最早的實例開始,這些系統往往遵循相似的藍圖。它們假設學習者在沒有任何真人教師的幫助下與輔導系統進行交互,輔導系統通過一組預定義的學習材料指導學習者,并在一定程度上適應學習者的進度,并提供一定程度的及時反饋。
在背后,智能輔導系統往往是基于規則的專家系統,這是20世紀70年代至80年代的主流人工智能范式。盡管專家系統有許多優點,但近年來,由于這種范式固有的規模和通用性方面的困難,它們在很大程度上被深度學習所取代,專家系統的這些局限性也導致了對智能輔導系統最常見的批評。
盡管人們對智能輔導系統變革教育的潛力感到興奮,并被廣泛采用,但它們是否能對教學產生有意義的影響仍不清楚:其有效性的證據好壞參半,其底層評估協議也受到了批評。事實上,目前還沒有關于教育技術(包括智能輔導系統)最佳評估實踐的指導。現有的評估協議往往成本高昂、耗時長且存在缺陷,因此經常被忽視。此外,促成該技術創造的研究也缺乏透明度。總之,這些情況都給教育工作者帶來了過度負擔,他們已經工作過度,而且往往缺乏必要的數字技能,因此不得不在非正式的基礎上評估教育技術解決方案的優勢和局限性。雖然人工智能素養計劃是幫助教育工作者就新技術的價值做出更明智決策的重要一步,但教育技術需要更好的評估實踐,以彌合技術創造者和用戶之間的差距。
研究團隊因此提出了一套實用的7種不同的教育基準,涵蓋定量、定性、自動和人工評估,具體包括單回合教學評估、學習者主觀反饋、整體對話教學評估等。
參考文獻:
[1]Open AI. Introducing ChatGPT Edu An affordable offering for universities to responsibly bring AI to campus. 2024-05-30. https://openai.com/index/introducing-chatgpt-edu/
[2] 華東師范大學微信公眾號.華東師大,數智躍升!2024-01-30. https://mp.weixin.qq.com/s/vVVcz9saZ1Gvv_vkNWCkoQ
[3] How generative AI expands curiosity and understanding with LearnLM. 2024-05-14. https://blog.google/outreach-initiatives/education/google-learnlm-gemini-generative-ai/
[4]Google DeepMind. Towards Responsible Development of Generative AI for Education: An Evaluation-Driven Approach.2024-05-14. https://goo.gle/LearnLM
[本文為近期擬將推送的“教育國際前沿2024年第6期”之一內容,由“教育國際前沿課題組”(IFRGE)成員整理,課題組負責人張永軍,編輯劉強。點擊左下角“閱讀原文”可從官網下載該報告]
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.