交易資料庫

交易資料庫(Transactional Database)是指實時的,面向套用的資料庫,回響及時性要求很高,只關注最近一段時間的資料庫,又稱事務資料庫。

交易資料庫

一般地說,交易資料庫由一個檔案組成,其中每個記錄代表一個事務.通常,一個事務包含一個唯一的事務標識號,和一個組成事務的項的列表(如,在商店購買的商品),交易資料庫可能有一些與之相關聯的附加表,包含關於銷售的其他信息,如事務的日期、顧客的ID號、銷售者的ID號、銷售分店等等。

如果我們想更深地挖掘數據,在商業營運中,問“哪些商品適合一起銷售?”這種“購物籃數據分析”使我們能夠將商品捆綁成組,作為一種擴大銷售的策略.例如,給定印表機與計算機經常一起銷售的知識,你可以向購買選定計算機的顧客提供對一種很貴的印表機打折銷售,希望銷售更多較貴的印表機。常規的數據檢索系統不能回答上面這種查詢.然而,通過識別頻繁地一起銷售的商品,事務數據的數據挖掘系統可以做到。在這裡我們主要是研究事務性資料庫的數據挖掘的統計方法。

交易資料庫和分析資料庫的區別

交易型資料庫主要是實時的,面向套用的資料庫,回響及時性要求很高,只關注最近一段時間的數據。就是平時搭建的服務都叫事務型資料庫。分析型資料庫主要是用於在大量數據中分析規律的,一般存儲的數據時間跨度長,數據量大,對實時性要求不高,通過查詢分析規律趨勢,用於產品決策等。

事務資料庫的屬性項壓縮

基於重要性的屬性壓縮

在研究問題時基於不同的目的,屬性具有不同的重要性,從統計學的角度看,這種重要性可在輔助信息的基礎上事先假設,並用“權數”表示.利用Rough集理論我們就可以對屬性項的重要性進行量度,這個量度是根據論域中樣例來得到的,不依賴於人的先驗的知識。如用症狀描述某醫院的患者時,有些症狀對患者的診斷有較大的影響。為了計算這些屬性的重要度,可以採取逐個屬性項被去掉後,檢測這個系統在作決策或數據分類時,是否會因為移掉了這個屬性而被改變?如果去掉了這個屬性後將改變作決策和分類,則說明該屬性的強度大,即重要性高;反之說明,該屬性的強度小,即重要性低。

基於相依性的屬性壓縮

上面的方法在屬性的壓縮中,進行了邏輯推理,並沒有考慮論域U中的事務項(樣例)的分布情況,再者該方法利用重要度μ(n)只描述了對B的方法分類個體的正區域的影響情況,對於決策的結果沒有直接考慮。

關聯規則問題的提出

數據採掘是當今資料庫技術和人工智慧研究中最富有活力的新興研究方向,其主要目標是從大型的資料庫中採掘出對用戶有價值的模式。一直以來,關聯規則的研究都是數據採掘研究領域中的一個重要的課題,1999年在北京召開的第三屆PAKDD-99數據採掘國際會議中就展示了近來對關聯規則研究所取得的一批豐碩成果、關聯規則採掘的一般對象是事務( Transactional )資料庫,這種資料庫的一個主要的套用是零售業(交易資料庫),譬如,超級市場的銷售管理,條碼技術的套用使得數據的收集更加容易和完整,因而存儲了大量的交易資料,關聯規則就是辯別這些項目(Item),指交易中的內容,如:牛奶、麵包等都是項目)之間是否存在某種關聯關係,

例如,關聯規則可以表示“購買了項目A,B的顧客有95%的人又買了c和w,從交易資料庫中採掘出大量的關聯規則可以用作商品的銷售目錄設計、商場布置、生產安排、針一對性的市場行銷。

交易資料庫中數據結構分析

在交易資料庫中通常都存在一張商品的銷售表,該表主要用於描述商場中商品的銷售情況,而關聯規則採掘的主要對象也就是商品銷售表,商品銷售表一般形式的數據結構是:

交易號商品數量價格單位銷售日期

當然,不同的系統中商品銷售表的內容可能不同,但是上述的基本信息是應該包含的。這種數據結構的特點是:資料庫(表)的每一行只描述了某次交易(交易號)中的一種商品(項目)的銷售情況,一次完整的交易通常由資料庫的多行記錄組成,這種數據結構將一次交易中的項目信息分散了,這是不利於關聯規則採掘吮因為,為了知道每次交易中的項目信息,我們需要多次訪問資料庫另外,關聯規則所描述的只是不同項目之間的關係,它只關注一次交易中有哪些項目(商品),對於價格、單位等信息沒有必要知道為了能夠提高關聯規則的效率,我們應該對交易資料庫中的數據事先進行處理使之能夠比較容易滿足關聯規則採掘的要求,我們稱這個過程為關聯規則採掘的預處理過程

注意到交易資料庫中關聯規則的本質上是要反映出各種項目(商品)之間的關聯關係,因而,我們可以將上述的數據結構轉換成如下結構形式:

交易號項目(商品)1項目2項目3

數據結構的特點

資料庫中的一行就是一次交易中的所有項目信息,並且去掉了一些不相關信息如數量等,這樣我們就能很容易知道每次交易中所包含的具體項目信息了。

實現步驟

我們利用PowerBuilder6. 0實現了上面的預處理過程具體的實現步驟如下:

(1)利用PB中的交叉報表格式,生成原事務資料庫的數據視窗d_ Source,選擇銷售表中的交易號、商品(項目工銷售數量,其中行是交易號,列是項目(商品),交叉值是銷售數量

(2)通過PB中的函式dw. SaveAs( file,sql, true),將上述的數據視窗d_ Source轉換為SQL語句,保存在檔案file中

(3)在程式中可以利用EXECUTE IMMEDIATE SQLStatement{U SIN G Transaction Object}執行上述生成的SQL語句,或者利用PB中的DB Administration工具(在DataBase畫板中)即可生成表2所示的資料庫。

舉例

下面我們通過一個實驗例子來說明上述預處理過程

例:假設有一副食品超級市場的銷售事務資料庫中存在如下的商品銷售記錄表:

表1商品銷售記錄
交易號商品數量價格單位銷售日期
1G1103.00瓶1999- 5- 1
1G252.00塊1999- 5- 1
1G324.00瓶1999- 5- 1
1G452.00斤1999- 5- 1
1G523.00斤1999- 5- 1
2G153.00瓶1999- 5- 1
2G2102.00塊1999- 5- 1
3G344.00瓶1999- 5- 1
3G442.00斤1999- 5- 1
4G442.00斤1999- 5- 1
4G522.00斤1999- 5- 1
4G 342.00斤1999- 5- 1
5G 523. 00斤1999- 5- 1
5G 354. 00瓶1999- 5- 1
5G442. 00斤1999- 5- 1

根據上面我們所提出的步驟可生成表2,由於篇幅有限步驟中所生成的數據視窗及SQL語句略。

表2按交易號統計表
交易號G1G 2G 3G 4G5
1105252
2510
344
4442
5542

從表2可以看出,轉換後的資料庫具有以下特點:

每一行就是一個交易,該行所對應的列即是該交易中所包含的項目,這樣,我們就很容易獲得某次交易中所包含的具體項目,減少了訪問資料庫的次數另外,預處理後的資料庫記錄個數比原交易資料庫中的記錄個數減少了很多,這對交易資料庫中關聯規則採掘的效率有一定的提高。

關聯規則模型

帶有空間性約束的關聯規則模型

交易資料庫中基本關聯規則具有以下特點:是一個邏輯蘊涵式X=>I、X,Y∈I,並且X∩Y=∅。因為項目集I中的項目其實就是商品,所以具有上述特點的關聯規則只是反映了整個交易資料庫中不同商品(項目)之間的關聯,它不能刻畫帶有不同時態性和空間性約束的商品之間的關聯。

基本關聯規則之所以存在上述不足是因為規則的邏輯蘊涵式X=>Y中沒有包含空間性的約束條件信息。基於這種考慮,將項目的空間性約束條件包含於關聯規則中,提出了帶有空間性約束的關聯規則模型

定義I:瑕設X,I∈ I,並且XnY=∅,I的定義同基本關聯規則,C,C是X,Y的空間約束,C,CC,C={C1,C2...Cn},C是空間性約束條件集合,如果交易中同時包含空間約束條件Cx中的x和空間約束C中的Y,稱X,Y具有空間性約束關聯,並將這種規則稱為交易資料庫中帶有空間性約柬的關聯規則考慮到在實際中X,Y可能存在於同一空間中,如:同一櫃檯可能出售不同的商品,所以Cx∩C,可以不為∅。

帶有空間性約束的關聯規則採掘

通過擴展Apriori算法實現了上述模型〕從上面的模型可以看出,帶有空間性約束的關聯規則中增加了一個項目的空間位置約束條件,因此,在產生侯選項集((Apriori-gen)掃描資料庫時除了要比較不同交易中項目是否相等外還要比較項目的約束位置是否相同。

帶有空間性約束關聯規則的存儲

由於關聯規則的表示中增加了空間位置約束條件,因此,使得規則所占存貯空間增大了,另外考慮到規則的條件和結論中所包含的項目及項目空間位置約束的個數是變化的,所以對採掘出的關聯規則用數據結構進行存放。

其中,主鍵是記錄的關鍵字,不同的規則通過規則編號來進行區分,同一規則中的條件和結論部分通過分割標誌來區分,條件或結論中包含的每個項目及項目約束對應一條記錄,這樣的數據結構有助於減少資料庫中的冗餘信息。

國產交易型資料庫

據新華社電(記者余曉潔程卓)由南大通用數據技術股份有限公司引進、研發的我國首款與世界技術同級的國產事務性通用資料庫系統GBase8t近日發布。工信部軟體服務業司司長陳偉出席發布會時說,南大通用在基礎軟體領域走出了一條引進、消化、吸收、結合本土需求再創新的發展路徑。而且與華為的整機、浪潮的天梭K1、基於國產CPU和作業系統的伺服器等進行了適配,初步形成了產業生態。

資料庫系統是現代信息系統中最複雜、最關鍵的基礎軟體之一,也是大數據時代的核心軟體,主要有數據分析型和事務型兩大類。南大通用首席技術官、“千人計畫”專家武新表示,GBase8t是國內第一款世界級的事務型數據系統,能在大規模線上交易環境中持續穩定地提供高性能、高可用、高可靠的密集事務處理能力。

武新表示,GBase8t用於金融、電信、安全、國防等領域的事務密集型核心業務系統。它的原型產品已在全球擁有1800多個合作夥伴和1萬多家直接客戶。在國內,建設銀行、浦發銀行、中國人壽、中國移動、中國電信、中興、華為、沃爾瑪等都是原型產品的使用單位。

相關詞條

熱門詞條

聯絡我們