簡介
實驗資料庫是指用於存儲實驗數據的資料庫或一些用於做實驗的資料庫。資料庫建立主要是為了數據的集成和共享,同時也便於對數據存儲和管理。共享是指資料庫中的一塊塊數據可為多個不同的用戶所共享,即多個不同的用戶,使用多種不同的語言,為了不同的套用目的,而同時存取資料庫,甚至同時存取同一塊數據。
優點
與數據檔案管理方式相比較,資料庫管理有許多優越性。這些優越性來自資料庫特有的數據結構和數據存儲方式。歸納起來,資料庫有如下優點。
(1)查詢迅速、準確,且有多種表達與傳輸方式。以一個大型倉庫管理為例:用手工操作,如要查找“某地區生產的商品的名稱、規格、數量”,就可能要先翻閱賬本,弄清分類目錄和分類形式,然後按地區或商品分類、商品名稱找到其他附帶的屬性,再抄寫下來。如果要查找的內容較多,則查找與抄寫既費時又費力。資料庫系統能根據給定的條件自動地按一定途徑以毫秒級速度進行掃描查找,可以在瞬間將符合要求的數據一一用表格或其他方式顯示出來,還可以自動地列印出來或通過網路傳輸到指定地址,而且不會出現錯誤。
(2)數據結構化且統一管理。在資料庫中,數據按邏輯結構組織起來,而按物理結構存放在磁介質中,並且由資料庫管理系統統一管理,既考慮了數據本身的特點,也考慮了數據之間以及檔案之間的聯繫,數據的查詢、檢索和處理很方便。在傳統的檔案系統中,儘管記錄內部存在某種結構,但記錄之間沒有聯繫,數據的查詢、檢索和處理十分煩瑣、困難。實現數據的整體結構化管理,是資料庫的主要特徵之一,也是資料庫系統與檔案系統的本質區別。
(3)數據冗餘度小。在檔案系統中,為了滿足一個應用程式對數據的需要,常常在不同地方重複存放同一個或同一組數據。這樣一來,如果一個多處存放的數據出現錯誤,就必須同時修改幾個地方,否則將造成數據之間的不一致性。在資料庫系統中,數據不僅可以面向某個局部套用而且可以面向整體套用,從而大大減少數據冗餘,節約了存儲空間,有效地避免了數據之間的不一致性。
(4)具有較高的數據獨立性。數據獨立性是指用戶應用程式與存儲在資料庫中數據的相互獨立性。當人們利用應用程式調用資料庫進行數據處理時,只涉及數據的邏輯結構,而不涉及其存儲方式和物理結構。而當數據的物理存儲方式和結構改變時,資料庫管理系統將自動處理這種改變,而應用程式不必改變。近期甚至發展到資料庫的邏輯結構改變了,用戶程式也可以不變。用戶程式不隨數據邏輯結構改變而改變的特性,可稱為數據的“邏輯獨立性”。數據獨立性(物理的和邏輯的)是資料庫的重要特徵和優點,它有利於在資料庫結構修改時保持應用程式的穩定性,可以大大減少應用程式員的軟體開發工作量。
(5)數據的共享性好。存放於資料庫中的數據的共享性包括系統內部共享性和外部共享性兩種,這是資料庫管理方式區別於手工管理和檔案管理方式的最本質的特徵和優點。
系統內部的共享性是指同一個(組)數據在一次處理中可以多次被調用的性能,而系統外部的共享性是指同一個(組)數據可以同時供多個用戶調用。這兩種共享性的原理是一致的,它使得多種作業、多種語言、多種用戶可以相互覆蓋地使用數據集合 。
內部共享性有效地降低了數據的冗餘度,系統很容易進行維護和擴充,而且能夠使應用程式的編寫更加方便。系統外部共享性能夠促進並實現信息社會化服務,可以充分發揮信息的價值。舉一個簡單的事例,在沒有使用資料庫技術時,火車票和飛機票發售的數據很難共享,常常出現有的售票處某線路車票或機票已售完,而另一售票處還有很多同一線路的車票或機票無人購買的情況。為了避免上述現象的出現,火車客運站和航空公司往往採取讓不同售票處出售不同路線車票和機票的做法,結果給乘客帶來許多不便。如今採用資料庫來管理車票和機票發售工作,各個售票處可以互通有無,乘客不但可以在一個城市的任何售票處方便地查詢併購買當地出發的某路線車票和機票,而且隨著網路技術的發展,人們甚至可以在全國任一城市查詢併購買異地出發的任一路線車票和機票。
中藥藥理實驗資料庫的構建
工作流程
我們在原有的藥理資料庫基礎上,針對繁雜數據,發現規律,設立欄位,建立表單,確立 ER 關係結構圖,建立資料庫表結構,搭建遠程加工平台,研製數據拆分與導入工具,最終實現共建共享。目前,結構型資料庫已經形成了非常嚴謹的工作流程,無論是對於相關文獻的篩選還是數據有效信息的抽取與加工,還是數據的審校與拆分導入,都進行了周密的考慮,這為保障資料庫構建質量奠定了良好的基礎。
中藥藥理實驗資料庫表結構的建立
資料庫的加工實際上就是對資料庫表中每一個欄位的加工,每個欄位的設立以及各個欄位構成的單表更是建庫的基礎,而各個加工表單相互關聯的關係更是最終共享展示的關鍵。因此,充分理解文獻思路,發現文獻共性,建立文獻包含信息之間的關係尤為重要。 中藥藥理實驗相關數據包含了文獻基本信息(包括題名、刊名、作者、雜誌、卷、期、頁等)、藥物信息(包括單味藥、 化學成分、 方劑)、 研究對象信息(包括疾病、 證候、症狀、病理生理等)、動物信息(包括動物種屬、品系等)和實驗檢測信息(包括效應部位、檢測指標等)等。這些相關欄位的設定都需要對文獻進行細緻分析,並對其進行歸類,形成相關信息組合的表單,而表結構的確立也要充分考慮到文獻的整體性聯繫,最大程度體現文獻相關信息分布的特點。基於表結構的中藥藥理實驗資料庫遠程加工平台。新版資料庫加工平台在原有資料庫加工平台基礎上,更加注重加工與審校人員操作的快速便捷,表單提交方便、明了,文獻篩選查詢以及原文圖片上傳刪除等功能都更進一步 。
輔助詞表的建設
每個資料庫的加工就是對資料庫表中每一個欄位的加工,每一個欄位的加工都是一種小型的數據匯交,只要涉及到數據的匯交,就不可避免地要制定數據匯交的標準,因為它關係到
資料庫的建庫質量,關係到資料庫查詢的準確性、完美性及可信性。目前,中藥藥理實驗資料庫輔助詞表掛接已經完成。此表是語言系統與未正式收錄詞聯合查詢在詞雀系統中的實現,內容是動態發展的。儘管如此,目前現有的輔助選詞量仍然無法滿足對海量信息進行加工時的選取需要,仍然有大量的辭彙需要進行篩選添加。此外,在使用詞雀系統增加輔助選詞的過程中,還應注意儘可能多的收錄一些入口詞,以便於加工人員查找使用。
數據分析
運用數理統計方法,對調查所獲的數據資料進行綜合處理,以揭示事物內在數量規律的過程。在輿論調查中,描述分析和統計推論是構成數據分析方法的兩大基本支柱。描述分析是對已經初步整理的數據資料加工概括,並用統計量對這些資料進行描述的一種方法。它的任務是簡縮數據,描述數據,其內容包括:編制次數分配表和繪製次數分配曲線,用以表現數據資料的概要;計算各種平均數(眾數、中位數、算術平均數等),用以測定和表現數據資料分布的集中趨勢;計算離差數(全距、平均差、均方差等),用以測定和表現數據資料的離中趨勢;測定次數分配不對稱或偏斜程度,即對一個次數分配中所包括的各個觀察值的排布,測定其是否對稱於中位值;測定次數分配曲線圖形的頂峰尖峭或平坦的程度等等。統計推論是在隨機抽樣的基礎上,根據樣本資料對總體進行推論的一種方法。它的目的是用一個觀察數值去推斷一個未知的理論數值;用一個樣本數值去推斷一個理論統計量(參數)。因此,如何抽取樣本,樣本的可靠程度,分析可靠程度的保證及進行假設檢驗等,都是統計推論需要研究的重要問題。統計推論的主要內容包括:樣本分配、參數估計、統計假設檢驗、方差分析及非參數統計等。
概念模型
概念模型是對客觀事物及其聯繫的抽象,用於信息世界的建模,它強調其語義表達能力,以及能夠較方便、直接地表達套用中各種語義知識。這類模型概念簡單、清晰、易於被用戶理解,是用戶和資料庫設計人員之間進行交流的語言。這種信息結構並不依賴於具體的計算機系統,不是某一個 DBMS 支持的數據模型,而是概念級的模型,然後再把概念模型轉換為計算機上某一 DBMS 支持的數據模型。概念模型的概念主要如下:
實體
客觀上存在且可區分的事物稱為實體。實體可以是人,也可以是物;可以指實際的對象,也可以指某些概念;可以指事物與事物間的聯繫。如學生是一個實體。
屬性
實體所具有的某一方面的特性。一個實體可以由若干個屬性來刻畫。如公司員工實體有員工編號、姓名、年齡、性別等屬性。再如學生實體有學號、姓名和性別等屬性。
關鍵字
實體的某一屬性或屬性組合,其取用的值能惟一標識出某一實體,稱為關鍵字,也稱碼。如學號是學生實體集的關鍵字,由於姓名有相同的可能,故不應作為關鍵字。
域
域是某(些)屬性的取值範圍。如姓名的域為字元串集合,性別的域為男、女等。
實體型
具有相同屬性的實體必須具有共同的特性。用實體名及其屬性名集合來抽象和刻畫同類實體,稱為實體型。例如,學生(學號,姓名,性別,班號)就是一個實體型。
實體集
同型實體的集合稱為實體集。如全體學生就是一個實體集。
聯繫
現實世界的事物之間總是存在某種聯繫,這種聯繫必然要在信息世界中加以反映。一般存在兩類聯繫:一是實體內部的聯繫,如組成實體的屬性之間的聯繫;二是實體之間的聯繫。