什麼是pureXML?
pureXML技術及混合型資料庫的出現,超越了關係型數據庫固有的局限性,為資料庫的套用及開發開闢了新的領域。其意義不僅僅是提供了一種存儲XML數據的更有效的方式,可用於使用XML數據的各類領域;同時,由於pureXML所代表的層次型數據組織方式,使得我們有了關係型和層次型兩種數據建模的方法,即使是對於傳統非XML的關係型數據,在某些情況下將傳統關係型的數據轉化為層次型存儲也將帶來巨大的業務價值。
從對現有XML數據管理的套用看,pureXML技術的價值是非常明顯的。如在書籍出版領域,W3C已經制定了各類數據的規範,今天很多這個領域的數據就是以XML的形式存在。但是如何提供有效的存儲方式,以及準確高效的數據查詢方式卻始終是對關係型資料庫的一個挑戰。
pureXML的特點?
? 以圖書為例,任何書籍的信息有部分結構化的成分,但是書籍內容的差異性太大,很難用一種統一的結構化的體系進行描述。另一方面,基於各類書籍文章的結構,提供精確的信息查詢和搜尋具有重要的套用價值。傳統關係型資料庫很難對書籍XML數據建模,更難以提供準確的查詢和搜尋。往往只能用全文檢索的模式提供一些簡單的功能。而採用pureXML技術,任何書籍的XML信息可以直接存儲在資料庫中,無需複雜建模。由於XML的自描述能力,一旦數據以XML對象存儲,就可以提供精確的查詢和搜尋。舉個簡單例子,對於一本300頁的書,全文檢索只能返回其中是否有你查詢的內容,無法準確定位在哪一章、哪一節、哪一頁,其實用性很弱。而通過pureXML的Xquery進行查詢,可以準確定位到最細的粒度,而且可對指定範圍進行搜尋。在廣泛使用XML的信息交換領域,pureXML 能夠很大程度上降低數據模型設計的複雜性。無需將XML每個數據項的信息都映射到關係型表的欄位上,減少了很多不必要的加工處理過程。另外,XML所具有的擴展性和靈活性的優勢可得到充分的發揮。數據層的存儲模式不再與數據交換本身的內容是緊密耦合的關係。基於pureXML可設計相對通用的數據交換的存儲模式,而且可以方便地適應數據標準的調整和變化。這一點在很多監管類報表信息收集(如XBRL)上有重要的套用價值。
即使對於不涉及任何XML數據的套用,pureXML所代表的層次型數據結構和面向對象的設計方式,也可對關係型資料庫的設計方式提供重要的補充。比如對於複雜對象的結構的建模,層次型的模型比關係型有明顯的優勢。
在關係型的模型中對象與對象之間的嵌套關係比較難於描述,不對數據內在的順序關係進行維護,只能通過增加附加的屬性通過數據值進行管理。實體之間的差異性需要通過不同的表,這樣對於同類信息,也可能要建立很多不同的表。
在同一個表中,如果每條記錄的屬性差異性很大,則需要通枚舉的方式將各種可能出現的屬性都建成表上的欄位。如果採用pureXML技術則可大大方便對這類信息的管理。
以上僅是pureXML套用的簡單示例,隨著XML的標準在各個行業更為廣泛深入地套用,以及Web 2.0等新興技術領域的發展,我們相信這類技術將越來越多地套用到各類系統中。
pureXML前景?
資料庫的歷史經歷了40年的歷程,每一種技術都是隨挑戰應運而生。層次型資料庫和關係型資料庫在此過程中都曾為其發展起到重要的作用,而技術的發展在一次次潮流的循環往復中得到升華。為適應今天及未來的業務挑戰,由層次模型與傳統的關係型模型結合的混合資料庫技術,為資料庫的發展開闢了新的方向。IBM所推出的DB2 pureXML技術僅僅是新的變革的開始,正如關係型資料庫曾經為IT產業的發展做出了舉足輕重的貢獻,我們有理由對pureXML所代表的新一代混合資料庫技術充滿期待!