該應用將改變以往傳統典籍、年鑒報告、歷史檔案等文化資源缺少保護或被束之高閣的情況,也讓嶺南文化大模型能夠進一步“讀懂”和建立嶺南文化知識圖譜,致力于讓沉睡的文化資源真正“活”在當下、煥發新生。
面向文化和科技融合的未來,嶺南文化大模型已堅定喊出“ready”。
嶺南文化大模型文博會首秀。羊城晚報記者 宋金峪 攝
文化典籍和檔案都能無障礙“讀懂”
當前,我國雖然擁有極為豐富的文化資源,但普遍面臨數字化率低、應用范圍受限等問題。作為嶺南文化的重要發祥地,廣東擁有豐富的非遺資源,但文化數字化資源呈碎片化,限制了文化資源數據的流動共享、產業鏈的協同合作。
以古籍為例,其數字化進展十分緩慢。我國從20世紀80年代就開始嘗試古籍數字化,但受技術、資金等因素限制,海量文獻中實現數字化的不超過八萬種,而且許多書只是完成了初步的影像掃描,真正實現文本數字化的不足四萬種。
其中的重要原因是,傳統典籍、年鑒報告、歷史檔案等文化資源多以非結構化格式存在,其版式復雜、圖文混排、元數據缺失等特點,成為數字化道路上的“攔路虎”。
此次發布的“PDF結構化提取助手”,能夠依托多模態視覺內容塊推理與深度學習算法,精準識別文檔邏輯結構。無論何種排版、何種字體,還是表格、圖片、數學公式、批注、印章等非標準元素,均能無障礙“讀懂”,將其化為數字養料,哺育大模型的智能體應用。
文化資源的數字化,嚴謹準確是基本要求。
嶺南文化大模型實驗室主任鄧立邦表示:“面對海量的嶺南地方志、非遺名錄和學術論文,傳統的人工錄入和排版耗時且易出錯,‘PDF結構化提取助手’能夠在數分鐘內完成批量文檔的標準化轉化,并結合知識庫進行事實性校驗,確保抽取內容的準確性和完整性。”
基于嶺南文化大模型的知識圖譜,還能為提取內容添加語義標簽,并結合知識庫進行事實性校驗,確保抽取內容的準確性和完整性,構建可檢索的數字資產庫。
深耕嶺南文化68載,羊城晚報立足文化強省建設,以“文史”“文脈”品牌為抓手,持續加大優質文化內容供給。隨著這一工具的應用,筆尖力量將化為數字動能,讓見諸報端的文字、照片“活”起來,成為嶺南文化大模型理解和傳播嶺南文化的數字養料。
嶺南文化大模型文博會首秀。羊城晚報記者 宋金峪 攝
AI數智化工具包助推“政策包”落地
在AI驅動產業變革的今天,數據就緒度成為制約文化領域智能化轉型的關鍵。
Fivetran發布的一項最新研究指出,80%的AI項目失敗源于數據準備不足,而文化資源因其非結構化特性,數據治理難度更高。
嶺南文化大模型此次推出的AI-Ready Data助手系列,正是對這一痛點的精準回應。通過“PDF結構化提取助手”等工具,大模型能將散落的文化資源轉化為AI及大模型可理解的“標準語言”,為后續的智能解析、知識圖譜構建、創意生成等環節奠定基礎。
例如,該工具可廣泛適用于政府基層數據普查與檔案數字化整理,也可服務于科研機構的大規模文獻匯總和數據驅動分析。
在博物館數字展陳中,“PDF結構化提取助手”還可自動提取展品介紹及相關考證材料,便于在線展示和后臺管理;對于文創企業,它還能將文獻圖片與文字一并抽取,助力編輯團隊快速生成深度游記、文化圖鑒與交互式電子書等。
這一工具鏈的意義還不止于此,能推動嶺南文化資源從“靜態保存”向“活態傳承”轉變。當結構化數據與大模型的多模態能力結合,普通人可通過自然語言與文化資源互動,讓典籍檔案的墨香古韻、鑊耳屋的磚瓦風情、粵劇水袖的飄逸靈動,在數字世界中煥發新生。
5月22日,第二十一屆文博會開幕首日,廣東重磅發布推動文化產業高質量發展“政策包”,提出一攬子87條政策措施,覆蓋影視、演藝市場、動漫影視、網絡游戲、電子競技、網絡視聽六大領域,全力激活廣東文化產業市場潛力、投資熱力。
當前,文化和科技融合潮流已勢不可擋,AI更是其中最為關鍵的因素。
作為廣東實施“人工智能+文化”行動的新基建,嶺南文化大模型此次推出的“AI-Ready Data助手”系列工具鏈應用,形成配合“政策包”落地的數智化工具包,將助力廣東文化產業加快與AI深度融合,推動嶺南文化傳承創新。
文 | 記者 黃婷
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.