北京商報訊(記者 趙述評)6月12日,夸克發布國內首個為高考志愿填報場景開發的高考志愿大模型,并同步上線"高考深度搜索"、"志愿報告"、"智能選志愿"三大核心功能。該模型具備專家級決策能力,能夠為每位考生提供精準、個性化的志愿填報服務。
據了解,高考志愿大模型驅動的夸克"志愿報告"以Agent方式運行,目前已開放試用。基于"任務規劃—執行—檢查—反思"的鏈式推理流程,夸克志愿報告會自動輸出涵蓋沖穩保策略、志愿表、院校專業推薦等內容的完整報告。
每輪執行結果模型經過自動檢查,會判斷是否存在邏輯沖突、數據缺漏、排序異常等問題,并將結果反饋至"反思"模塊。通過評估結果與需求的差異不斷優化后續策略,從而實現動態修正與智能迭代。
例如,當考生傾向選擇省內且要求985院校時,模型在執行任務后,面對省內985院校較少的情況,會像志愿專家一樣嘗試推薦適合的外省985高校。
以通義千問為基座,夸克高考志愿大模型基于領域數據優勢,通過專項訓練具備對復雜規則與用戶需求的理解與推理能力,讓模型真正"像志愿專家一樣思考與決策"。
夸克高考志愿大模型通過一個多階段、高復雜度的訓練范式構建流程,融合了自監督語義建模、監督式對齊調優、由專家判別價值引導的策略精化機制。
在指令微調階段,夸克高考志愿大模型將數百名資深高考志愿規劃師的溝通、決策過程進行結構化。圍繞他們與考生或家長的多輪真實對話,提取出完整分析路徑與語言風格。通過將上萬條真實專家"推理鏈"轉化為高質量監督數據,夸克高考志愿大模型得以深度學習人類專家的分析過程。
夸克高考志愿大模型還在復雜推理任務中生成了中間可驗證結構,顯著降低幻覺率、增強跨模態演繹能力,并實現分布外泛化魯棒性,解決各種需要專業知識的復雜問題。
最后通過基于人類偏好強化學習(RLHF)精化策略層,夸克高考志愿大模型構建了一個閉環優化機制,將"模擬填報→專家反饋→策略評分"引入到模型迭代過程中。
模型會基于模擬的考生檔案生成志愿填報方案,隨后這些方案將被提交給多位高考志愿專家進行評估。評估標準包括:專業建議是否準確易懂、排序邏輯是否貼合考生特征、是否兼顧分數與興趣、是否充分提示風險并給出可行應對策略等。
夸克團隊已完成對數千份志愿報告的專家標注與打分,通過"人類挑刺+模型修正"的方式,使模型輸出在專業度與匹配度上持續逼近專家的真實判斷標準。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.