商務數據處理

隨著計算機技術的發展和普及,各個行業都開始採用計算機及相應的信息技術進行管理,企業生成、收集、存儲及處理數據的能力大大提高,數據量與日俱增。在商業、電信、網際網路、科學研究等方面,大量豐富的數據使得採用傳統的數據分析手段很難從中得到知識,因而陷入了“數據豐富,知識缺乏”的困境,因此商務數據處理系統應運而生。這裡介紹一種電子商務數據處理的平台。

概述

商務智慧型將各種數據及時轉換成企業管理者感興趣的信息,並以各種方式呈現出來,幫助企業管理者進行科學決策,加強企業的競爭優勢。數據倉庫、在線上分析處理(OLAP)、數據挖掘是商務智慧型的技術基礎,而分類、聚類分析屬於數據挖掘的基本技術。

而電子商務的發展日新月異,極大地改變了人們的生活,而在電子商務網站運營的過程中積累了大量的數據,對於這些數據的套用是目前研究的熱點。計算機和網路經過多年的發展已經較為成熟,而不同的發展階段其研究的側重點也不同,從目前的情況看,對於大量數據進行採集、存儲、分析,並結合領域套用進行研究是發展方向,特別是大數據概念的提出,使數據處理的理論和方法都得到了較大的提高。

對於電子商務數據的處理,國內外的專家學者都進行了較為深入的研究,但大多數是針對於某一類電子商務數據,或者以某一套用為目標進行研究。不僅是在電子商務中,在普通企業中的ERP系統等,都需要對數據進行管理和分析。在電商市場競爭越來越激烈的今天,信息數據的分析可以說關係到電子商務企業是否能夠生存和發展。

這裡介紹一種基於電子商務數據處理的平台。

商務數據處理平台

概述

電子商務系統的定義主要包括以下幾個關鍵字,一是網路,計算機網路是電子商務的承載平台,所有的信息互動都基於網路實現,包括商品信息的發布、查詢、瀏覽,支付過程的實現等;二是電子化,改變了傳統行銷模式下以實物商品為主體的方式,將實體商品信息電子化以後,更易於數據的共享和處理等,從而提高行銷效率,而支付的電子化,更為推動了電子商務的跨越式發展;三是以商務為中心,將各類技術、手段、模式等進行組合套用,最終的目標是提高商業效益。電子商務按照其不同的模式,可以分為B2C模式,C2C模式,B2C模式等。

無論哪一種模式,在電子商務運營的過程中都會產生大量的數據。目前對於數據的套用已經引起了廣泛的關注。數據套用最為普遍的方式主要是排序、統計等,但這些套用已經無法滿足領域的套用需求。商務智慧型是通過對各種數據處理分析算法的套用,達到對商業過程進行分析的目的。目前已經出現了一些對電子商務數據進行處理和分析的系統和平台,這些系統雖然最終的套用目的不同,但基本上包括了以下幾個組成部分:一是數據定義功能,即對待處理的數據格式進行定義;二是數據映射功能,將原始數據轉換為符合定義的格式;三是ETL處理功能,即對數據進行抽取、過濾等預處理;四是環境配置功能,主要是配置各類數據處理參數;五是調度功能,主要是根據套用目標,構建數據處理方案,最終得到處理的結果。

但這些數據處理平台還存在著一些不足。目前在電子商務領域的數據處理方面存在的主要問題包括:電子商務數據分析的集成度較低;對於原始數據的預處理能力不強;數據處理效率較低,很多電子商務數據分析系統的可操作性和可理解性不佳。針對這些問題,設計了電子商務數據處理平台,該平台採用分層架構的模式,對電子商務原始數據進行處理,針對於用戶不同的套用目標,設計了各類算法模組對數據進行處理,並以直觀的方式向用戶展現。

電子商務數據處理理論

電子商務數據分析平台主要是通過對各類原始數據的集成和處理,實現不同的套用目標,最終達到提高電子商務運營效益的目的。平台構建過程中主要涉及到電子商務數據分析理論,以此為基礎,利用Hadoop技術和Map/Reduce技術具體構建系統架構,並利用數據挖掘技術、在線上分析處理技術等實現套用目標。

電子商務數據中包含著大量的信息,傳統的數據處理方式只能夠從統計的角度獲取有限的知識,而商務智慧型則可以從海量數據中挖掘對提高商業效益具有重要價值的信息內容。電子商務數據處理分析的過程中需要關注六個重要因素:商業敏感性對電子商務數據分析的重要影響作用;電子商務數據分析的最終目標是提高投資回報率子商務數據分析指標的設定;對指標異常情況的分析和報警;對顧客行為數據的分析是重點;對客戶關係的研究和管理是電子商務數據處理分析的重點。

關鍵技術

Hadoop技術

Hadoop技術中主要包括了分散式檔案系統和分散式存儲系統兩個部分,其主要的套用目標是對海量數據進行存儲和處理,由於其強大的可伸縮性,是雲計算研究中具有代表性的一項技術。傳統的數據處理平台一般只支持到TB級的數據處理,而隨著待處理數據量的增大,其處理性能急劇下降,而在Hadoop平台上,可以處理PB級甚至更多的數據,依靠其分散式數據處理能力和強大的並行運算能力,該技術在數據處理方面的套用越來越廣泛。

Hadoop平台對數據的處理具有以下幾個特點:一是分散式,將數據資源分布於不同的存儲源中,克服了傳統集中式數據管理方式的缺點,提高了處理效率;二是安全性,Hadoop對於工作中的數據複製了多個備份,並在不同的節點存儲,當部分節點失效時,可以對數據進行重新分配,從而保證了數據的安全性;三是快速性,Hadoop利用並行計算技術對海量數據進行處理,通過增加工作節點的方式擴展數據處理能力,能夠有效地提高處理速度;四是具有較強的彈性,可以處理不同數量級別規模的數據,Hadoop平台由多個組成部分構成,而其整個體系結構是分散式的,其最底層的組成單元是TaskTracker,負責分散式處理相關的數據。

HDFS是Hadoop的另一個核心部件,它是一個分散式的檔案管理系統,HDFS同樣採用了主/從結構進行配置,由一個名位元組點和多個數據節點構成,名位元組點的主要作用是記錄各數據節點的信息,它將數據劃分為多個固定大小的數據塊,分別存儲於不同的數據節點上,為了保證數據的安全性,數據塊具有一定的冗餘。所有關於檔案數據的操作都由名位元組點進行管理,同時,數據節點向名位元組點反饋自身狀態。數據節點根據名位元組點傳送的指令執行對檔案數據的操作。客戶端只有通過名位元組點才能夠實現對數據節點中檔案的各類操作。

Map/Reduce技術

針對於雲計算平台由多個計算處理單元組成的特點,谷歌公司研發了一種新的多任務並行處理編程模型,被稱為Map/Reduce編程模型。

Map/Reduce編程模型不同於以往的業界主流的編程模型,其思想主要借鑑函式式程式語言,此編程模型可將程式設計人員從繁雜的編程勞動中解放出來,減輕程式設計人員的不必要的工作量.與以往業界主流的編程方式的區別是,程式僅需關注業務相關的內容和輸入輸出。然而目前並不是所有的場合都適合Map/Reduce編程模型,一般情況下,Map/Reduce編程模型適合處理大規模數據集,或者大檔案。Map/R educe任務執行的總流程是-代碼編寫一作業配置一提交作業一M印任務的分配和執行一處理中間結果--*Reduce任務的分配和執行一作業處理完畢。在整個流程中,一般程式設計人員只需關注編寫業務處理緊密相關的Map/Reduce程式。在Map/Reduce編程模型中整個過程有3個主要步驟:首先是檔案的分割和拼接問題,這是影響到算法整體性能和複雜度的一個關鍵問題;其次是數據結構的問題,主要解決處理後的數據存放問題;最後是分別確定Mapper和Reduce的主要任務。MapReduee以函式方式提供了Map和Reduce來進行分散式計算。Map相對獨立且並行運行,對存儲系統中的檔案按行處理,並產生鍵值(key/value)對。Reduce以Map的輸出作為輸入,相同key的記錄匯聚到同一reduce,reduce對這組記錄進行操作,並產生新的數據集。所有Reduce任務的輸出組成最終結果。

數據挖掘技術

電子商務平台的不斷發展,積累了大量的用戶數據資料,為數據挖掘等智慧型處理方法的使用奠定基礎。數據挖掘在電子商務中的套用越來越廣泛,主要包括以下幾個方面。

(1)發現潛在用戶。通過對大量的用戶屬性及行為數據的分析,可以將訪問電子商務網站的用戶劃分為不同的活躍等級,代表不同程度的購買意願。劃分的依據是用戶的各類特徵屬性。對於老用戶的分類操作完成後,可以對新的用戶進行分類處理,從而根據其類別有針對性地推送相關的信息。

(2)增加用戶的瀏覽時間。用戶在電子商務網站上停留的時間往往與其最終的購買的意願成正比,通過對用戶在網站界面上停留的時間以及相關運算元據的分析,可以獲取到客戶的興趣點,並且根據所獲取到的信息對網站的界面進行調整,實現個性化的定製,增加用戶在企業電子商務網站上的停留時間。

(3)對電子商務網站的組織結構進行調整。電子商務網站給用戶的使用體驗也決定著用戶在該頁面上的停留時間,而通過對用戶瀏覽行為分析,企業可以對電子商務網站的結構進行調整,使頁面的布局更符合用戶的使用習慣,從而使用戶更容易地獲取到更多的感興趣的商品,提高商品的成交率。

(4)預測市場的動向。根據對當前用戶消費行為和消費記錄數據的研究,預測出下一階段有客戶有可能的消費意願,並提前做好相應的準備,既可以降低公司的運營成本,又可以指導公司的相關決策制定。

系統架構設計方案

電子商務數據分析平台的總體架構設計方案主要包括五個層次,從下到上分別為數據源層、運算元據層、數據集成層、數據處理層、數據套用層。其中數據源層由多個異構資料庫組成,分別存儲電子商務系統運營過程中產生的不同類型數據;運算元據層是對數據源層進行提取,主要是最近一個時期的“熱”數據,並可實現對數據細節的查詢;數據集成層是根據分析套用的需求,將運算元據層中的數據進行集成處理,主要是為數據的套用提供基礎;數據處理層是採用數據挖掘、數據在線上分析處理、數據統計等各類分析方法,對集成後的數據進行處理;數據套用層是根據用戶的業務需求構建數據處理套用,並調用各類數據分析方法,獲取分析結果。

電子商務數據分析平台總體上採用分層架構的模式,其優點是將數據分析處理業務流程中不同的操作功能模組分配到不同的層中,從而實現功能模組之間的解耦合,提高系統的可維護性和可擴展性。

數據源層是指分布於網路中的各類原始數據,這些數據存儲於不同類型的資料庫中,包括關係型資料庫管理系統、檔案資料庫管理系統等。目前在電子商務系統中本身存在著較多的管理信息系統,基本上每一個系統都有資料庫支持,保存和處理所獲取的數據,為了保護現有投資,數據分析處理平台通過Agent代理技術等對這些資料庫中的資源進行獲取。同時,針對於數據分析平台的具體套用,平台自身還需要開發相應的資料庫,用於存儲採集到的電子商務用戶靜態和動態信息。

運算元據層中保存的是可以被數據分析處理算法直接套用的數據對象。數據源層中的數據是原始數據,在存儲格式、數據表結構等方面不相同,同時也存在著較多的髒數據,必須要經過預處理才能夠用於分析。運算元據層具有數據預處理功能,包括數據的清洗、轉換、等,為數據的下一步處理提供基礎。

數據集成層具備數據倉庫的生成功能,可以按照用戶的需求對源數據進行預處理和組織,構建圍繞主題的數據倉庫。該層的主要功能是按照數據處理分析算法的需求,對運算元據層中的各類數據進行匯總和處理。運算元據層中各功能構件部署於各個節點,而數據集成層將分布於網路中不同位置的信息集成到一個節點進行處理。

數據處理層主要是根據數據分析套用的要求,選擇適合的數據分析算法,實現對數據的處理。該層中以Web服務構件的模式設計了數據統計算法模組、關聯分析數據挖掘模組、分類數據挖掘模組、在線上分析數據處理模組等功能模組,數據套用層中的各套用模組分別對應於數據處理層中的一個或者多個模組,從而實現對源數據對象的綜合處理。數據處理層中的各個算法模組所處理的數據對象位於兩個層次中,一是數據集成層,該層中的數據已經完成了數據的預處理和集成,主要是用於數據統計處理算法模組,以及在線上分析處理算法模組;二是位於不同數據源節點的運算元據層,這些數據已經完成了清洗等操作,主要用於數據挖掘算法的處理。

數據套用層是直接面向平台用戶的層次,主要包含了各種不同電子商務數據套用模組,如網路統計模組、流量趨勢分析模組、客戶分析模組、目標分析模組、交易分析模組等,這些模組功能的實現都將要使用到數據處理層中的一個或者多個數據處理構件。該層的主要功能是輸入處理參數以及指令,並展現數據分析的結果。

相關詞條

熱門詞條

聯絡我們