組成
知識倉庫是以多行業、多類別數據倉庫組成的一個集合,它涉及眾多行業、眾多層次的單位,在形式上包括文字、影像、圖形等以多媒體形式具體存在的表現形式,也應包括以某種理論、假想算法,推論存在的抽象的東西。其組成一個比較龐大的知識的綜合體,大可以指導一個國家,乃至一個世界發展的方向,小至指導一個企業的發展策略,甚至個人的發展前途。 知識倉庫在具體的組成形式上應包括以下幾部分:(1)完善而性能可靠的硬體體系:主要依靠現代電子技術,尤其是計算機技術和網路技術,二者構成知識倉庫最基本的部件。
(2)功能強大的軟體體系:傾向於專業的、分行業的將知識進行收集、整理統計、數據分析等工作的專業系統。
(3)主體為高素質的專業技術人員:完成與知識倉庫的遠程控制,使之有效的工作。
(4)廣泛的社會實踐者:將廣泛存在的知識以專門的形式整理、聚集,以不斷充實知識倉庫的素材來源,具體則表現以行業的不同而身份不同。
特點
知識倉庫利用其廣泛的數據知識資源,經過嚴密、科學的分析整理,根據條件的不同,可利用於各行各業,指導各行各業的單位實體或個人能夠沿正確的發展方向發展,能夠將最先進的理論、最新的技術運用到最實際的生產生活中去。總的來說,知識倉庫的套用有以下幾個方面的特點:(1)適用的行業多:知識倉庫來源於各行各業的最基層工作者經驗技術的總結加工,根據知識倉庫的分類匯總分析統計,形成的面向專業的知識決策支持系統,可完成相對應專業的知識支持功能。
(2)強大的知識支持輔助決策功能:知識倉庫利用其海量的數據、智慧型並行的知識處理能力,輔之計算機人工智慧的發展,可以完成對面向專業知識的支持,解決企事業單位在具體操作工作中面臨的知識缺乏的問題,提供理論知識、技術知識,輔以專家系統的知識倉庫更能在事件的決策中起到輔助決策的作用。
知識庫
知識庫是存放知識的集合,一般專用於智慧型系統中存放相關領域知識,在規模上比較小,知識的種類也比較單一。
數據倉庫是一個面向主題的、集成的、非易失的且隨時間變化的數據集合,用來支持管理人員的決策。最主要的特點是數據種類多和數量大,按照主題組織數據,支持決策。
知識管理面向的知識來源多、種類多、數量大,不僅包含大量的數據,更重要的是大量數據之後隱藏的知識。另外,知識管理涉及的人員複雜,不像是數據倉庫主要是滿足決策者的需要,知識管理系統需要滿足不同人員的需要。知識管理中用來存儲知識和數據的存儲體與資料庫、數據倉庫不同,但又相似的內容,所以提出知識倉庫的概念,實際上是兩者的有機結合。
因此,知識倉庫是面向主題的、對多種類型知識庫進行集成、滿足多種類型用戶的需要的數據和操作集合。數據倉庫應該具有很好的適應性、靈活性、可擴充性、健壯性、易用性、安全性。知識倉庫的整體結構可以參照數據倉庫,可以利用數據倉庫的一些思想來組織數據。
管理系統
Joseph M.Firestone(1999)認為,知識倉庫與知識管理系統實際上是同一概念,因為知識倉庫的管理對象也是知識。但是,在組織實施知識管理這樣一個背景下,區分知識倉庫和知識管理系統還是必要的。(1)它們的目標不同。知識管理系統應該支持組織知識管理的所有環節,而知識倉庫僅關注顯性知識的存儲。
(2)如果把知識戰略、知識組織、知識文化等環境要素也看作組織知識管理系統的組成部分,則組織知識管理系統的範圍就比知識倉庫大得多。
所以,知識倉庫是知識管理系統的重要組成部分。
首先,知識存儲是組織知識循環過程中的關鍵環節。如果沒有對顯性知識的系統化、集成化的存儲,知識的整理、傳遞、共享等都無從談起。
其次,在知識管理系統建設過程中,知識倉庫建設所涉及的工作最大,範圍最廣。知識倉庫建設不僅涉及到軟體的部署,最重要的還是對組織知識資源的調查、分析和分類組織。這項工作需要一個由計算機專家、領域專家和知識管理專家組成的小組來完成,關係到整個系統建設的成敗。
可以說,知識倉庫是組織知識管理系統的核心要素,是知識管理系統建設的硬體。
地位
知識可劃分為顯性知識(explicit knowledge)和隱性知識(tacit knowledge)兩類。其中,顯性知識是指能夠用語言、符號、規則、公式或對象等正式表達並能夠傳輸給他人的知識;隱性知識是深深根植於人腦中的信念、觀點、創意和智力模型,包括某人長期從事某項活動或職業而形成的主觀經驗、洞察力和直覺。二者緊密關聯,並與經濟活動融為一體,成為當代社會發展的主要推進力量。
知識管理是通過共享和抓住隱性知識並將其轉變為顯性知識,篩選、存儲、加工、檢索、傳遞和利用顯性知識,創新新的知識來增加社會價值的。這種實踐活動可用知識螺鏇(Knowledge Spiral)來描述。在每一個螺鏇中存在4個階段:共享隱性知識階段、隱性知識轉變為顯性知識階段、顯性知識轉變為新知識階段和通過學習產生新的隱性知識階段。每一次新的顯性知識和隱性知識的產生便是知識螺鏇的一次上升。
相對於知識管理,信息管理注重顯性知識或稱編碼型知識(Codified Knowledge)的蒐集、存儲、加工、檢索、分析和預測,這方面的研究成果主要表現為數據倉庫的開發和利用。數據倉庫使企業能抽取、篩選、存儲大量的數據,對用戶的檢索進行有效而準確的反應,並為決策活動提供了強大的基礎。然而,數據倉庫中僅僅存儲了決策者所需知識的一部分,企業絕大部分智力財富以隱性知識的方式存在於員工的大腦中,因此,數據倉庫不足以滿足對知識檢索的需求。為了滿足知識管理和知識決策的需求,可以對現存的企業數據倉庫進一步擴充,成為滿足知識管理需求的知識倉庫。知識倉庫能夠對不同類型的知識(顯性知識和隱性知識)和不同形式的知識(純文本、二進制對象、模型等)進行捕捉、存儲、編碼、組織和分析。另外,這些知識還包括元知識(關於知識的知識)和分析後產生的新知識。
功能
基於上述對企業知識倉庫概念的認識,我們認為一個企業知識倉庫應具備如下基本功能。
(1)知識獲取功能
獲取完整正確的企業知識是實現企業知識存貯和共享的前提。也是知識倉庫應具備的重要功能之一。獲取知識的方式有人工和自動獲取兩種形式。人工獲取往往由知識工程師與領域專家、用戶等相互協作和交流,對企業大量的知識資源進行抽取、歸納、整理等得到,然後通過知識倉庫的知識導入界面錄入知識倉庫。人工知識獲取不能從數量巨大的信息或知識資源中獲取潛在知識,也不能及時地從系統運作中獲取新知識。由於知識的時效性,為保證知識倉庫中知識的正確、完整,知識倉庫還需具備知識的自動獲取功能,它能與現有的企業知識庫、信息資源庫相連,運用數據挖掘技術、機器學習技術、基於案例的推理及神經網路技術等自動從大量知識資源中抽取有效知識,能從專家知識擁有者中自動獲取難以表述的經驗、動作、意念等隱性知識。
(2)知識導入功能
知識倉庫的知識不僅需要知識工程師錄入,而且允許各類普通用戶或其他系統以各種輸入手段將其知識信息及時導入,知識倉庫應具備知識導入功能,該功能能為各種類型的知識制定不同的知識交流界面,使用戶能按特定的知識描述格式輸入知識,同時對現有信息系統或外界系統導入的信息可藉助於智慧型代理技術實現對知識的自動抽取或載入。
(3)知識的分類
存貯和檢索功能。企業知識種類繁多,需要存儲的不只是知識條目,還需包括與之相關的事件、使用情況、來源線索等信息,這些信息可能以文本、聲音、圖像、表格、超文本等多種格式體現。知識倉庫應能根據不同的知識特徵進行分類,採用多種類型的資料庫進行分散式存儲,能對各種結構的知識進行統一集成。同時對存儲的知識應能方便地進行查詢和檢索。為此,知識倉庫還應提供強大的知識檢索功能,能以各種手段為知識工程師或普通用戶提供便捷的知識查詢,同時能在查詢中起到導航作用。
(4)知識維護功能
由於知識的時效性,知識倉庫中的知識是動態變化的,知識倉庫應在保證其中知識質量的同時,監督知識的使用情況,監督來自各種知識源的知識,不斷調整知識結構,及時刪除不正確、不完整的知識,對過時的知識進行更新。另外,由於企業知識對不同級別的人往往有不同的訪問權,知識倉庫的維護中應設立多級安全認證,對不同級別的維護者賦予不同的知識存取許可權,以此來保證知識的正確性和完整性。
(5)知識推送功能
為給用戶提供便捷的知識共享界面,使用戶所需知識能在恰當的時候及時展現在合適的用戶面前,知識倉庫應能按預定的知識描述格式提取關鍵字並與知識倉庫中相應問題的解決方案進行匹配,將用戶感興趣的知識自動、及時的推送到用戶界面。
設計
1.知識倉庫的體系結構設計
知識倉庫的體系結構不存在統一的模式,它的內容應該是活潑的,依組織的具體情況而定。然而這不是說知識倉庫的體系結構沒有模式可循,實際上,存在著多個合理的模式可供選擇。這裡提出一個基於智力動產價值提升理論的新的知識倉庫體系結構模型,此模型分為三層。
(1)知識庫和知識裝入代理組成的數據、信息層。
(2)知識引擎組成的知識層。
(3)分析工具、檢索工具等組成的激活層。
描述知識及其關聯背景的元數據作為共享資源貫穿各層。組織的數據、信息經過這三層的加工、處理,以活化的知識(即情報)的形式呈現給用戶,支持用戶的學習和決策。
數據、信息層負責知識的捕獲、組織與存儲,包括知識庫和知識裝入代理。知識庫可分為方法庫、模型庫、資料庫、文檔庫等,並可根據組織的知識構成情況加以增減。知識裝入代理可以是知識工人與智慧型代理程式組成的人機系統,它主動地掃描、分析組織的知識資源,發現知識單元及其相互之間的聯繫,對知識單元進行分類組織,裝入知識庫,同時把知識單元之間的聯繫裝入元數據。知識裝入代理也負責對知識庫的維護,發現並剔除過時的知識。
知識層負責知識單元的動態連線,即把知識與其背景一同呈現出來。知識層的主要部件是知識引擎,是一個利用了人工智慧技術的電腦程式。它接受來自激活層的訪問請求,然後分析元數據中對於相關知識單元之間聯繫的描述,將知識庫中的相關知識單元動態地連線起來,提交給激活層。它主要採用神經網路算法,將激活層的檢索請求與知識單元進行匹配,然後存儲匹配過程,並根據用戶的確認調整神經網路的內部權值。
激活層負責知識的表現,也可以叫做用戶接口層。它包括分析平台、檢索平台、重組平台、推送平台等,可根據實際需要加以增減。分析平台面向決策人員,需要採用多種人工智慧技術,包括神經網路、遺傳算法、基於事例的推理等。由於各種算法套用的範圍不同,因此,平台還需要具有根據環境調度各種算法的能力。檢索平台面向組織的知識參考需求,可採用自然語言檢索的方式,減輕用戶的智力負擔。重組平台主要面向組織的個性化學習需求,它可以根據學習主體的情況,將相關知識重新組合,生成個性化的教材。推送平台使用戶可以訂閱感興趣的信息或知識,通過各種終端(PC,PDA等)隨時隨地接收信息。
元數據是此模型中非常重要的一個部分。作為各層的共享資源,它記錄了知識庫中裝入數據的來源、描述以及知識單元之間的關聯。
2.知識倉庫的主題劃分
由於知識倉庫是面向主題的,因此知識倉庫設計的第一項要完成的任務就是對系統主題進行劃分。知識倉庫的分析主題應該涵蓋企業方方面面的知識,而且,不同企業需求不同,對知識倉庫主題的劃分的角度也有所不同,在這裡,本文僅從支撐經營運作的角度對知識進行劃分。3.知識倉庫的概念模型設計
概念模型是一種面向問題的數據模型,它描述了從用戶角度看到的知識倉庫的內容及其聯繫,是一種純粹的現實反應,而與存貯結構、存取方式等知識倉庫的具體實現內容無關。概念模型是聯繫主觀與客觀的橋樑,它是一個為一定的目標設計系統、收集信息而服務的概念型工具。具體到計算機系統中,概念模型是客觀世界到計算機世界的一個中間層次。
知識概念模型的設計需要給出一個知識倉庫的粗略藍本,以此為工具來判定設計者是否已經正確地了解知識倉庫最終用戶的信息需求。在概念模型設計階段,主要完成星型模型和雪花模型的設計。
4.知識倉庫的邏輯模型設計
邏輯模型亦可稱為中間層數據模型,它是對高層的細分。儘管套用星型模型和雪花模型可以在概念模型設計中建立數據倉庫的概念模型,但是無法直接依靠概念模型實現數據倉庫的物理模型,還要依靠邏輯模型作為概念模型到物理模型轉換的橋樑。
知識倉庫一般都建立在關係數據基礎上,因此,數據倉庫設計過程中所採用的邏輯模型主要是關係模型。但是,不同的機器系統又有許多不同的限制,提供不同的環境與工具。所以,在進行邏輯模型設計時一般要分三步進行。
(1)將概念模型轉化為一般的關係模型。一般情況下,我們都是由E-R圖轉換導出關係數據模型。由於關係模型的邏輯結構是一組關係模式的集合,而E-R圖則是由實體、實體的屬性和實體之間的聯繫三個要素組成的,所以將E-R圖轉化為關係模型實際就是要將實體、實體的屬性和實體之間的聯繫轉化為關係模式。
(2)將轉化的關係模型向特定的數據倉庫支持下的數據模型轉換。這一步轉化是依賴於機器的,沒有普遍的規則,轉換的主要依據是知識倉庫的功能及限制。
(3)對數據模型進行最佳化。由於知識倉庫的邏輯設計的結果不是唯一的。為了進一步提高知識倉庫的系統性能,還應當適當的修改、調整數據模型的結構,主要為:確定數據依賴,並對數據依賴進行最小化處理、消除冗餘關係等等。
管理技術
(1)、決策支持
決策支持工具是將知識倉庫與現實套用相互關係的工具,知識倉庫利用已有的知識,按照相應的條件約束,對某一問題可以作以輔導決策,這其中套用到人工智慧技術、專家系統技術、軟體工程技術,也是知識倉庫今後發展的主要利用方向[2]。其包括知識查詢工具、知識解釋工具、多維分析工具和知識控屬工具。知識查詢指以某種檢索條件為依據而提出的一般知識請求,知識解釋則是對知識處理和可視化知識的展現(如統計分析等)。
知識多維分析是指從業務角度對數據聚集的分析,又稱隨機分析處理(OLAP)。由於軟體技術和工具軟體的不斷改進,多維在線上可以更準確、更直接、更直觀的將知識所蘊含的內涵作用顯現出來。
(2)、知識發現
知識發現通常稱為數據挖掘,也叫信息發現,在一般的業務分析中,最終用戶頭腦中已經有了具體的問題,例如:"8月份某產品銷售了多少?"這一問題藉助決策支持工具可以方便的從知識倉庫查到相應的信息以及歷史情況曲線分析、可能存在或面臨的問題,目前的數據挖掘工具主要有數據關聯、順序狹義、分類器和聚類技術。知識發現的方法和實施過程:從技術上講,發掘的實施大體可以分為五個步驟:
選擇和準備發掘的數據;
預處理;
研究開發一種或多種數據知識挖掘工具;
發現未知知識;
運用已發現的知識於決策支持,達到特定目標。
(3)、WWW與知識倉庫的融合
WWW技術的飛速發展,對知識倉庫的發展產生很大影響。首先是基於Web的決策支持工具的出現,改變了用戶對知識倉庫的使用方式,不同局限於某一範圍獲得的知識,而是通過Internet/Intranet遠程訪問知識倉庫。其次用於訪問知識倉庫的信息目錄也可以通過Web瀏覽器來查詢和發布知識,這種方式極大程度上使知識倉庫技術通過WWW更能擴大其套用範圍。
標準化與安全性
通常說來,知識倉庫的標準化分為兩個方面:知識倉庫的標準化和軟體系統的標準化。知識倉庫是以數位化資源為基本素材,數位化資源的本身已經相對標準化,決定了其標準化的方向。 作為知識倉庫中的主要部分軟體系統,其標準化的程度在某種意義上更是重要,它負責知識倉庫與信息系統的知識接口問題,在建立的過程中,力求達到知識的通用接口,使知識倉庫的資源採集、加工、處理、輸出等接口都達到與信息系統的通用與兼容。
知識是構築一切的基礎,並非是無國界的,或者是公開的技術,對於我們的知識倉庫,存在一些非常嚴重的課題,就是安全性。現今的知識倉庫,CNKI都會受到外界的干擾、人為的惡意入侵與破壞:
計算機病毒;
晶片掏鬼活動;
高能非核電磁脈衝;
微米納米機器人和晶片細菌;
黑客。
對於知識倉庫技術安全性的問題,應有幾點考慮:
(1)對於病毒,防範是權宜之計,關鍵立足長遠,加強研究,積極迎接病毒對信息化社會的嚴重威脅和挑戰。
(2)統籌計畫,研究對抗技術。
(3)開展計算機病毒的專題研究