資料庫發展階段大致劃分為如下幾個階段
人工管理階段;
檔案系統階段;
資料庫系統階段;
高級資料庫階段。
當人們從不同的角度來描述這一概念時就有不同的定義(當然是描述性的)。例如,稱資料庫是一個“記錄保存系統”(該定義強調了資料庫是若干記錄的集合)。又如稱資料庫是“人們為解決特定的任務,以一定的組織方式存儲在一起的相關的數據的集合”(該定義側重於數據的組織)。更有甚者稱資料庫是“一個數據倉庫”。當然,這種說法雖然形象,但並不嚴謹。
嚴格地說,資料庫是“按照數據結構來組織、存儲和管理數據的倉庫”。在經濟管理的日常工作中,常常需要把某些相關的數據放進這樣“倉庫”,並根據管理的需要進行相應的處理。例如,企業或事業單位的人事部門常常要把本單位職工的基本情況(職工號、姓名、年齡、性別、籍貫、工資、簡歷等)存放在表中,這張表就可以看成是一個資料庫。有了這個"數據倉庫"我們就可以根據需要隨時查詢某職工的基本情況,也可以查詢工資在某個範圍內的職工人數等等。這些工作如果都能在計算機上自動進行,那我們的人事管理就可以達到極高的水平。此外,在財務管理、倉庫管理、生產管理中也需要建立眾多的這種"資料庫",使其可以利用計算機實現財務、倉庫、生產的自動化管理。
J.Martin給資料庫下了一個比較完整的定義:資料庫是存儲在一起的相關數據的集合,這些數據是結構化的,無有害的或不必要的冗餘,並為多種套用服務;數據的存儲獨立於使用它的程式;對資料庫插入新數據,修改和檢索原有數據均能按一種公用的和可控制的方式進行。當某個系統中存在結構上完全分開的若干個資料庫時,則該系統包含一個“資料庫集合”。
· 資料庫的優點
使用資料庫可以帶來許多好處:如減少了數據的冗餘度,從而大大地節省了數據的存儲空間;實現數據資源的充分共享等等。此外,資料庫技術還為用戶提供了非常簡便的使用手段使用戶易於編寫有關資料庫應用程式。特別是近年來推出的微型計算機關係資料庫管理系統dBASELL,操作直觀,使用靈活,編程方便,環境適應廣泛(一般的十六位機,如IBM/PC/XT,國產長城0520等均可運行種軟體),數據處理能力極強。資料庫在我國正得到愈來愈廣泛的套用,必將成為經濟管理的有力工具。
資料庫是通過資料庫管理系統(DBMS-data base MANAGEMENT SYSTEM)軟體來實現數據的存儲、管理與使用的dBASELL就是一種資料庫管理系統軟體。
· 資料庫結構與資料庫種類
資料庫通常分為層次式資料庫、網路式資料庫和關係式資料庫三種。而不同的資料庫是按不同的數據結構來聯繫和組織的。
數據結構模型
(1)數據結構
所謂數據結構是指數據的組織形式或數據之間的聯繫。如果用D表示數據,用R表示數據對象之間存在的關係集合,則將DS=(D,R)稱為數據結構。例如,設有一個電話號碼簿,它記錄了n個人的名字和相應的電話號碼。為了方便地查找某人的電話號碼,將人名和號碼按字典順序排列,並在名字的後面跟隨著對應的電話號碼。這樣,若要查找某人的電話號碼(假定他的名字的第一個字母是Y),那么只須查找以Y開頭的那些名字就可以了。該例中,數據的集合D就是人名和電話號碼,它們之間的聯繫R就是按字典順序的排列,其相應的數據結構就是DS=(D,R),即一個數組。
(2)數據結構種類
數據結構又分為數據的邏輯結構和數據的物理結構。數據的邏輯結構是從邏輯的角度(即數據間的聯繫和組織方式)來觀察數據,分析數據,與數據的存儲位置無關。數據的物理結構是指數據在計算機中存放的結構,即數據的邏輯結構在計算機中的實現形式,所以物理結構也被稱為存儲結構。本節只研究數據的邏輯結構,並將反映和實現數據聯繫的方法稱為數據模型。
目前,比較流行的數據模型有三種,即按圖論理論建立的層次結構模型和網狀結構模型以及按關係理論建立的關係結構模型。
層次結構模型
層次結構模型實質上是一種有根結點的定向有序樹(在數學中"樹"被定義為一個無回的連通圖)。例如圖20.6.4是一個高等學校的組織結構圖。這個組織結構圖像一棵樹,校部就是樹根(稱為根結點),各系、專業、教師、學生等為枝點(稱為結點),樹根與枝點之間的聯繫稱為邊,樹根與邊之比為1:N,即樹根只有一個,樹枝有N個。這種數據結構模型的一般結構見圖20.6.5所示。
圖20.6.4 高等學校的組織結構圖 圖20.6.5 層次結構模型
圖20.6.5中,Ri(i=1,2,…6)代表記錄(即數據的集合),其中R1就是根結點(如果Ri看成是一個家族,則R1就是祖先,它是R2、R3、R4的雙親,而R2、R3、R4互為兄弟),R5、R6也是兄弟,且其雙親為R3。R2、R4、R5、R6又被稱為葉結點(即無子女的結點)。這樣,Ri(i=1,2,…6)就組成了以R1為樹根的一棵樹,這就是一個層次數據結構模型。
按照層次模型建立的資料庫系統稱為層次模型資料庫系統。IMS(Information Manage-mentSystem)是其典型代表。
網狀結構模型
在圖20.6.6中,給出了某醫院醫生、病房和病人之間的聯繫。即每個醫生負責治療三個病人,每個病房可住一到四個病人。如果將醫生看成是一個數據集合,病人和病房分別是另外兩個數據集合,那么醫生、病人和病房的比例關係就是M:N:P(即M個醫生,N個病人,P間病房)。這種數據結構就是網狀數據結構,它的一般結構模型如圖20.6.7所示。在圖中,記錄Ri(i=1,2,8)滿足以下條件:
①可以有一個以上的結點無雙親(如R1、R2、R3)。
②至少有一個結點有多於一個以上的雙親。在"醫生、病人、病房"例中,"醫生集合有若干個結點(M個醫生結點)無"雙親",而"病房"集合有P個結點(即病房),並有一個以上的"雙親"(即病人)。
圖20.6.6 醫生、病房和病人之間的關係
圖20.6.7 網狀結構模型
按照網狀數據結構建立的資料庫系統稱為網狀資料庫系統,其典型代表是DBTG(Data Base Task Group)。用數學方法可將網狀數據結構轉化為層次數據結構。
關係結構模型
關係式數據結構把一些複雜的數據結構歸結為簡單的二元關係(即二維表格形式)。例如某單位的職工關係就是一個二元關係(見表20.6.8)。這個四行六列的表格的每一列稱為一個欄位(即屬性),欄位名相當於標題欄中的標題(屬性名稱);表的每一行是包含了六個屬性(工號、姓名、年齡、性別、職務、工資)的一個六元組,即一個人的記錄。這個表格清晰地反映出該單位職工的基本情況。
表20.6.8職工基本情況
通常一個m行、n列的二維表格的結構如表20.6.9所示。
表中每一行表示一個記錄值,每一列表示一個屬性(即欄位或數據項)。該表一共有m個記錄。每個記錄包含n個屬性。
作為一個關係的二維表,必須滿足以下條件:
(1)表中每一列必須是基本數據項(即不可再分解)。(2)表中每一列必須具有相同的數據類型(例如字元型或數值型)。(3)表中每一列的名字必須是唯一的。(4)表中不應有內容完全相同的行。(5)行的順序與列的順序不影響表格中所表示的信息的含義。
由關係數據結構組成的資料庫系統被稱為關係資料庫系統。
在關係資料庫中,對數據的操作幾乎全部建立在一個或多個關係表格上,通過對這些關係表格的分類、合併、連線或選取等運算來實現數據的管理。dBASEII就是這類資料庫管理系統的典型代表。對於一個實際的套用問題(如人事管理問題),有時需要多個關係才能實現。用dBASEII建立起來的一個關係稱為一個資料庫(或稱資料庫檔案),而把對應多個關係建立起來的多個資料庫稱為資料庫系統。dBASEII的另一個重要功能是通過建立命令檔案來實現對資料庫的使用和管理,對於一個資料庫系統相應的命令序列檔案,稱為該資料庫的套用系統。因此,可以概括地說,一個關係稱為一個資料庫,若干個資料庫可以構成一個資料庫系統。資料庫系統可以派生出各種不同類型的輔助檔案和建立它的套用系統。
· 資料庫的要求與特性
為了使各種類型的資料庫系統能夠充分發揮它們的優越性,必須對資料庫管理系統的使用提出一些明確的要求。
建立資料庫檔案的要求
(1)儘量減少數據的重複,使數據具有最小的冗餘度。計算機早期套用中的檔案管理系統,由於數據檔案是用戶各自建立的,幾個用戶即使有許多相同的數據也得放在各自的檔案中,因而造成存儲的數據大量重複,浪費存儲空間。資料庫技術正是為了克服這一缺點而出現的,所以在組織數據的存儲時應避免出現冗餘。
(2)提高數據的利用率,使眾多用戶都能共享數據資源。
(3)注意保持數據的完整性。這對某些需要歷史數據來進行預測、決策的部門(如統計局、銀行等)特別重要。
(4)注意同一數據描述方法的一致性,使數據操作不致發生混亂。如一個人的學歷在人事檔案中是大學畢業,而在科技檔案中卻是大學程度,這樣就容易造成混亂。
(5)對於某些需要保密的數據,必須增設保密措施。
(6)數據的查找率高,根據需要數據應能被及時維護。
資料庫檔案的特徵
無論使用哪一種資料庫管理系統,由它們所建立的資料庫檔案都可以看成是具有相同性質的記錄的集合,因而這些資料庫檔案都有相同的特性:
(1)檔案的記錄格式相同,長度相等。
(2)不同的行是不同的記錄,因而具有不同的內容。
(3)不同的列表示不同的欄位名,同一列中的數據的性質(屬性)相同。
(4)每一行各列的內容是不能分割的,但行的順序和列的順序不影響檔案內容的表達。
檔案的分類
對檔案引用最多的是主檔案和事物檔案。其他的檔案分類還包括表檔案、備份檔案、檔案的輸出檔案等。下面將講述這些檔案。
(1)主檔案。主檔案是某特定套用領域的永久性的數據資源。主檔案包含那些被定期存取以提供信息和經常更新以反映最新狀態的記錄。典型的主檔案有庫存檔案、職工主檔案和收帳主檔案等。
(2)事務檔案。事務檔案包含著作為一個信息系統的數據活動(事務)的那些記錄。這些事務被分批以構成事務檔案。例如,從每周工資卡上錄製下來的數分批存放在一個事務檔案上,然後對照工資清單檔案進行處理以便列印出工資支票和工資記錄簿。
(3)表檔案。表檔案是一些表格。之所以單獨建立表檔案而不把表設計在程式中是為了便於修改。例如,一個公用事業公司的稅率表或國內稅務局的稅率就可以存儲在表中檔案。
(4)備用檔案。備用檔案是現有生產性檔案的一個複製品。一旦生產性檔案受到破壞,利用備用檔案就可以重新建立生產性檔案。
(5)檔案檔案。檔案檔案不是提供當前處理使用的,而是保存起來作為歷史參照的。例如,國內稅務局(IRS)可能要求檢查某個人最近15年的歷史。實際上,檔案檔案恰恰是在給定時間內工作的一個"快照"。
(6)輸出檔案。輸出檔案包含將要列印在印表機上的、顯在螢幕上的或者繪製在繪圖儀上的那些信息的數值映象。輸出檔案可以是"假脫機的"(存儲在輔存設備上),當輸出設備可用時才進行實際的輸出。