本章節(jié)擁有一個配套的示例知識庫,歡迎訪問《結構化知識庫教程示例:文學作品管理》(https://www.ditushu.com/book/375/)查看全部示例數(shù)據(jù)和結構圖。
結構化數(shù)據(jù)庫
如果你是缺乏技術背景的人文社科專業(yè)用戶,可能首先需要了解一個概念:什么是結構化知識數(shù)據(jù)庫?如果你已經(jīng)具備相關知識,可以跳過這一部分。
Excel 是人文社科用戶最常用的數(shù)據(jù)管理軟件,它主要使用電子表格的形式管理數(shù)據(jù)。表格是一種久遠且常見的數(shù)據(jù)管理形式。以管理詩詞數(shù)據(jù)為例,通常我們需要設置多個填寫同一類型數(shù)據(jù)的列,如編號、作品名稱、作者名稱、朝代、時間、地點、標簽等,然后再按行填寫數(shù)據(jù)。下面是一個示例數(shù)據(jù)表:
A
B
C
D
E
F
1
編號
名稱
作者
時間
地點
2
1
俠客行
李白
731
西安
3
2
蜀相
杜甫
760
詩,諸葛亮,武侯祠
4
3
茅屋為秋風所破歌
杜甫
761
詩,杜甫草堂
5
4
望岳
杜甫
736
泰安
詩,泰山
6
5
念奴嬌·赤壁懷古
蘇軾
1082
黃岡
詞,赤壁之戰(zhàn)
一個表由多個具有順序,具有名稱的列組成(也可以叫做字段或者鍵),列通常有不同的數(shù)據(jù)類型,如數(shù)字、文字、年份、時間等。作品編號通常放在最前面,它是唯一且不重復的,用來根據(jù)編號查找具體的作品條目,那么這個編號就是表格的主列(也可以叫做主字段或者主鍵)。那么這些列信息,如列的編號、名稱、數(shù)據(jù)類型、是否為主列等,就是表格的結構。表格的結構也可以用一個表格來表示:
編號
名稱
類型
是否主列
A
編號
數(shù)字
B
名稱
字符
C
作者
字符
D
時間
年份
E
地點
字符
F
字符
使用 Excel 管理數(shù)據(jù)非常方便,但它有一個缺點,就是表格內(nèi)通常存在大量的重復信息。如相同的作者、地點、標簽等,如果還要管理作者的出生日期、死亡日期、地點的今名、古名和坐標等則更為麻煩,出現(xiàn)更多重復信息。而且數(shù)據(jù)的類型往往不規(guī)范,比如時間,有些填年,有些填年月日,標簽有些用逗號分隔,有些用空格分隔等。
為了解決這一問題,還有一個辦法就是把一個表格拆分成多個互相關聯(lián)的表格,如把上面這個表拆分成作者、地點、標簽和作品四個表,并管理更多信息。其結構如下:
表名稱
字段名稱
字段類型
是否主鍵
是否唯一
關聯(lián)到
作者
編號
數(shù)字
姓名
字符
出生
數(shù)字
死亡
數(shù)字
地點
編號
數(shù)字
名稱
字符
行政區(qū)劃
數(shù)字
坐標
編號
數(shù)字
名稱
字符
作品
編號
數(shù)字
名稱
字符
作者
一對多關系
作者表
時間
數(shù)字
地點
一對多關系
地點表
多對多關系
標簽表
由多個結構明確互相關聯(lián)的表組成的一套數(shù)據(jù),就是一個關系型結構化數(shù)據(jù)庫了。
這里需要理解一個非常重要的概念,就是關系字段類型,通常有“一對多關系”和“多對多關系”。作品表的作者和地點字段,就是一對多關系,表示一個作者或者一個地點,可以擁有多個相關聯(lián)的作品,但一個作品卻只有一個作者和一個地點。分類標簽是多對多關系,表示一個一個標簽可擁有多個相關聯(lián)的作品,而一個作品也可以擁有多個相關聯(lián)的標簽。作品表里的作者和地點,將只填寫作者和地點表中,對應數(shù)據(jù)條目的主鍵,也就是編號。
為了減少使用編號關聯(lián)數(shù)據(jù)的難度,數(shù)據(jù)庫系統(tǒng)支持自動生成編號,避免用戶手動編號。
結構化數(shù)據(jù)庫中各數(shù)據(jù)表的關系,也可以用一個關系圖來表示。
知識庫自動生成數(shù)據(jù)表關系圖
作品表、作者表和標簽表的數(shù)據(jù)如下:
作者表
編號
姓名
出生
死亡
1
李白
701
762
2
杜甫
712
770
3
蘇軾
1037
1101
地點表
編號
城市
行政區(qū)劃
坐標
1
西安
108.95,34.26
2
104.06,30.65
3
泰安
117.08,36.20
4
黃岡
114.87,30.45
標簽表
編號
名稱
1
2
3
諸葛亮
4
武侯祠
5
杜甫草堂
6
泰山
7
赤壁之戰(zhàn)
那么作品表的實際數(shù)據(jù)就變成下表這樣,這里作者、地點、標簽都用編號表示:
編號
名稱
作者
時間
地點
分類標簽
1
俠客行
1
731
1
1
2
蜀相
2
760
2
1、3、4
3
茅屋為秋風所破歌
2
761
2
1、5
4
望岳
2
736
3
1、6
5
念奴嬌·赤壁懷古
3
1082
4
2、7
這個新的作品表看起來似乎不太好理解了?不用怕,數(shù)據(jù)庫管理軟件在實際顯示時,則會根據(jù)這些編號查找相應信息,自動變成原來的樣子,類似于我們?nèi)粘I钪校?jīng)常會填寫身份證號和手機號碼作為唯一標識,然后信息系統(tǒng)就可以通過這些標識自動查找個人信息一樣。
知識庫在實際顯示關聯(lián)信息時,會自動顯示為正確的標題
我們知道 Excel 的表其實是沒有強制要求你必須設計表結構的。你是否設置列頭,第一行是列頭還是標題,每一格是否按數(shù)據(jù)格式填寫等,默認都沒有限制。很多時候為了方便打印,還需要在末尾添加一些總計信息,導致它的數(shù)據(jù)非常不規(guī)范,更不方便多人一起填寫大量數(shù)據(jù)。
而使用關系型數(shù)據(jù)庫管理數(shù)據(jù)有幾個好處:數(shù)據(jù)庫要求必須先建立規(guī)范的結構,并強制檢查輸入是否符合結構要求;數(shù)據(jù)庫關系明確,消除單一表中大量冗余重復數(shù)據(jù),還可以進行復雜查詢;數(shù)據(jù)庫非常方便多人協(xié)作。
當然,Excel 其實也支持多表之間的關聯(lián),而數(shù)據(jù)庫的知識則比上面的介紹要復雜得多,它支撐了我們世界龐大的信息化產(chǎn)業(yè)。不過人文用戶只需要明白一些基本概念即可,地圖書知識庫已經(jīng)為你大大簡化了復雜操作。為了保證簡單易用,我們也沒有提供過于復雜的數(shù)據(jù)庫功能。
有了這些基礎知識,就可以開始創(chuàng)建屬于你自己的知識庫了。
模板創(chuàng)建
手動創(chuàng)建數(shù)據(jù)庫需要學習數(shù)據(jù)庫基礎知識,這對于沒有技術背景的用戶往往是困難的。為了方便用戶使用,地圖書知識庫支持通過模板創(chuàng)建知識庫。
雖然不同項目的具體應用場景各不相同,但很多應用場景是類似的,比如管理地理標注,管理老照片等。為此地圖書知識庫為用戶提供了數(shù)個基礎模板,用戶可以通過模板快速創(chuàng)建屬于自己的知識庫。用戶需要先注冊賬號并登錄,在頂部“協(xié)作”菜單中,點擊“我創(chuàng)建的”,找到自己創(chuàng)建的知識庫。點擊右上角的“創(chuàng)建新的知識庫”,輸入知識庫名稱,根據(jù)模板介紹和示例選擇模板,點擊“創(chuàng)建”即可。
不過這里的模板較少,你可以在地圖書平臺中,點擊頂部的“知識庫”菜單,任意瀏覽公開發(fā)布的知識庫,尋找和自己需求接近的知識庫。在知識庫發(fā)布頁頂端,有一個“更多”按鈕,點擊后選擇“作為模板新建知識庫”就可以通過模板創(chuàng)建了。
可以選擇任意公開知識庫作為模板新建知識庫
手動創(chuàng)建
如果沒有找到適合你的模板,或者一個模板并不完全符合自己的要求怎么辦?這個時候你可以通過手動創(chuàng)建,或者先通過模板復制創(chuàng)建,再手動修改已有結構,以滿足自己的使用要求。
完全手動創(chuàng)建一個知識庫的步驟和通過模板創(chuàng)建類似,只不過在選擇模板時,直接選擇“空白知識庫”,輸入知識庫名稱,點擊“創(chuàng)建” 即可。
創(chuàng)建完成后會自動跳轉(zhuǎn)打開新創(chuàng)建的知識庫。系統(tǒng)會提示你“地圖書必須創(chuàng)建表結構才能夠正常使用”。此時只需要點擊下方的“創(chuàng)建”按鈕,會自動跳轉(zhuǎn)到“知識庫設置/數(shù)據(jù)/數(shù)據(jù)表”。點擊下方的“新建”按鈕就可以創(chuàng)建一個數(shù)據(jù)表。
在手動創(chuàng)建前,建議認真規(guī)劃數(shù)據(jù)表結構。如果你還不具備相關知識,建議先閱讀學習“創(chuàng)建知識庫 / 結構化數(shù)據(jù)庫”章節(jié)。數(shù)據(jù)表設置頁面右側(cè)提供了一個示例數(shù)據(jù)庫結構。
表名
表ID
字段名稱
字段ID
字段類型
關聯(lián)到
zhou
名稱
title
字符
jun
名稱
title
字符
所屬州
zhou
一對多關聯(lián)
xian
名稱
title
字符
所屬郡
jun
一對多關聯(lián)
縣址
geometry
通過這個示例,可以引導用戶創(chuàng)建一個管理州郡縣三級行政區(qū)劃結構的歷史行政區(qū)劃數(shù)據(jù)庫。用戶需要點擊“新建”,在彈出框的表名稱中輸入“州”,系統(tǒng)會根據(jù)輸入的漢字名稱,自動生成對應的拼音作為表 ID,點擊“新建”按鈕,完成“州”表的創(chuàng)建。創(chuàng)建完成后,右側(cè)會自動跳轉(zhuǎn)到“字段設置”界面,進一步完成字段設置。系統(tǒng)默認會為你創(chuàng)建一個 ID 為“title”,名稱為“標題”的字符類型必填字段。
接著采用相同的步驟創(chuàng)建“郡”表。成功創(chuàng)建完成后,“郡”表也有一個名為“標題”的字段。然后點擊右側(cè)的“新建”按鈕,在彈出框中,在“字段名稱”中輸入“所屬州”,系統(tǒng)會自動生成拼音字段 ID。然后在“字段類型”選擇輸入框中,選擇“關聯(lián) / 一對多關聯(lián)”。然后在新增加的“關聯(lián)的表”選擇輸入框中,選擇“州”,點擊“新建”即可完成“郡”表的創(chuàng)建。
最后采用相同的步驟創(chuàng)建“縣”表,為這個表添加一個關聯(lián)到“郡”的一對多字段。然后再新建一個名稱為“縣址”,類型為“地理元素/點”的字段,這個數(shù)據(jù)庫就創(chuàng)建完成了。
創(chuàng)建完成后,還需要點擊左側(cè)的“保存表結構”才能生效。點擊后系統(tǒng)會更新表結構,并跳轉(zhuǎn)到數(shù)據(jù)表頁面,此時你就可以點擊數(shù)據(jù)表查看和新建數(shù)據(jù)了。
文檔原文:
https://www.ditushu.com/help/guide/82315481
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.