簡介
數據挖掘和分析是知識發現的一個過程,是在數據處理的過程中不斷發現問題,修正目標和方法,最終得出結論的過程。
隨著保險公司計算機系統套用的不斷推進,保險公司提出了對數據進行深入分析和套用的需求。傳統軟體開發的步驟簡單的說可以分為:用戶提出需求,設計人員設計方案,程式設計師編寫程式,不斷溝通、修改,最後交付用戶使用。在數據分析中,用戶很難清晰、完整的描述他的需求,或者根本不知道達到目標的方法。這也就是保險公司的程式套用中業務系統、財務系統等等可以順利實施,有關數據處理的程式失敗率很高,或者生命周期很短的一個重要原因。
保險數據處理,主要解決了保險公司數據分析中的信息孤島問題、程式可擴展性問題、程式開發周期過長問題以及將數據分析需要的專業知識整合進系統,減少對數據分析程式操作人員專業度要求。收集多平台,多來源的數據源,建立有效的清理與整合機制,在此基礎上構建為數據分析服務的統一的多維度的數據集市。提煉出一批可以套用在保險公司數據分析的算法,將比較複雜的精算模型,醫學知識等整合進分析算法模型中,使最終用戶不用熟知算法和一些背景專業知識就可以得到比較專業的分析結果。
經過多年來的業務發展和信息系統建設,保險公司積累了大量的歷史數據,如何充分利用這些數據,把它轉化成商機,一直是各家保險公司思考的問題。
國內外研究現狀
國外狀況
國外保險業的信息化工作已經完成了基礎建設的構建,並在新的領域進行有益的探索,據相關報導:
澳大利亞的AllianzElementar保險公司、SPANISHINSURER保險公司和BlueCrossandBlueShieldofFlorida保險公司利用數據挖掘工具對客戶忠誠度進行分析,用以減少客戶流失;
保險欺詐管理方面:據統計,美國的健康保險部門每年因欺詐損失約60億到250億美元,財產和意外傷害保險欺詐造成的年度虧損為約30億美元。美國的菲爾曼基金公司運用企業數據挖掘系統對付欺詐行為和代位追償進行分析,套用這個系統,預計每年減少欺詐行為造成的損失70萬美元,同時每年實現2百萬美元的代位追償收入。
中英人壽保險有限公司(Aviva)想利用客戶的生活方式數據的分析,如客戶愛好、常瀏覽的網站、常看的節目、收入估計等來推測其患高血壓、糖尿病和抑鬱症等等健康隱患的機率。目前客戶投保時保險公司往往需要客戶提供體檢報告,用來分析客戶的健康狀況。如果這種分析方法有效,客戶就不再需要在投保時提供給保險公司體檢報告。因為向客戶索要體檢報告是不太讓客戶感覺舒服的事情。英國保誠保險有限公司(Prudentia)和美國國際集團(AIG)也在探索類似的方法。
國內狀況
國內的外資保險公司目前普遍使用移植於國外母公司的軟體系統,這些系統在涉及境外的保險業務上有著自己獨到的優勢,但是與國內的保險市場匹配上還存在著一些問題,部分外資保險公司現在也在著手開發適合國內保險的信息系統。
國內保險業的信息化進程大致可以分為幾個階段:
●1949年,保險業在國內復業:業務處理幾乎全為手工化;
●1992年,產壽分業,各市、縣開發了大量單獨出單程式:以縣、市為中心的逐步電算化;
●2000年,全險種,全流程電子化:逐步開始數據大集中建設,建設全險種,全流程的核心業務系統,提倡以服務為核心;
●2006年,保險業大集中基本完成,在保險業競爭的驅動下逐漸開始挖掘業務價值,建立“全組織、全核算”的績效考核體系;
●2010年,IT業務融合、創新:多中心建設,新一代系統建設,創新靈活性IT架構支持快速變化、靈活變化並引導服務的創新;
●2013年,大數據理念開始被廣泛接受:通過數據解讀業務問題,基於大數據的預測和相關性研究。
研究難點
(1)數據的取得與清洗:保險公司數據分析需要的數據很多,取得的渠道也很多,可能來自業務系統、手工台帳、調查問卷等等,但是這些信息往往都是信息孤島。不僅僅公司內部與外部獲取的數據較難整合在一起,保險公司內部不同的業務系統中獲取的數據也存在著很多不兼容的因素。同時,獲取了大量信息後,不可避免的存在各種數據質量問題,需要進行有效清洗以後才能套用到處理系統中。
(2)客戶的需求不清晰:數據分析是一種知識發現的過程,客戶很難一開始就明確的提出流程,需求和分析點。有時候用戶在數據分析過程中發現了一些有用信息,又會進一步提出新的需求,而這種需求的提出是不確定的。傳統軟體設計流程基本上都要求客戶在程式設計的開始階段就提出明確的需求。顯然這種模式套用到數據分析領域會有很大的問題。
(3)用戶希望有一個“簡單”的系統:無論中間的過程是簡單還是複雜,最終用戶往往需要的是簡單的數據分析系統。這裡的簡單主要是指:
a、操作簡單:不需要繁雜的操作就能得到結果;
b、算法簡單:在數據分析中儘量使用用戶普遍接受的算法或者已經公認,可信度很高的算法,用戶如果對算法理解困難,對最終的分析結果接受度並不高。
c、結論簡單:即使是預測,用戶也不希望看到不確定的結論,並且結論是可以基於多種假設的,假設是可以改變的。
(4)找到大數據思想與保險公司數據分析實際需求之間的契合點,設計一套切實可行的方案,還需要綜合考慮實現成本與實現方式。企業本質上是追逐利潤的,不能給企業帶來利益或者性價比不高的項目在企業里是沒有多少生命力的。
保險公司數據源的收集與處理
三類數據源的處理方式
不同來源的數據有其自身的特點。可以把數據源分為三類,
第一類為別的電腦程式生成的數據,這類數據一般的特點是數量大,容易被程式識別,缺點是可能包含無用的垃圾數據,這類數據處理相對比較容易,只需要在分析程式里建立好相應的抽取機制即可使用。我們使用語句建立篩選、過濾與替換機制,可以得到大量質量較高的源數據。
第二類是人工錄入的數據,這類數據一般的特點是數據量較小,信息含金量較高,但是錯誤率較高,如果簡單的使用過濾機制將會損失大量的有效信息。這時候可能需要先對原始數據進行匯總,再使用一些識別機制找出錯誤信息並進行修正。例如Excel是目前比較流行的辦公處理軟體,很多手工信息登記為Excel格式。如果手上有大量相同格式的Excel數據,可以先用程式將信息匯總到一張表里。把同一資料夾下所有的Excel信息進行匯總。再結合業務規則對信息進行統一校驗、整理。整理成的數據將是乾淨的有價值的數據,轉換成文本格式就可以被資料庫識別。
第三類是假設數據,需要給用戶一個方便的錄入連線埠,並要把它與真實數據進行區分,使其不影響將來的其他分析。
數據質量的主要控制點
數據的質量問題具體表現為正確性、完整性、一致性、完備性、有效性、時效性和可獲取性等。影響質量問題的原因有很多,由系統集成和歷史數據造成的原因主要包括:業務系統不同時期系統之間數據模型不一致;業務系統不同時期業務過程有變化;舊系統模組在運營、人事、財務、辦公系統等相關信息的不一致;遺留系統和新業務、管理系統數據集成不完備帶來的不一致性。
影響數據質量的因素主要來源於四方面:信息因素、技術因素、流程因素和管理因素。
信息因素:產生這部分數據質量問題的原因主要有:元數據描述及理解錯誤、數據度量的各種性質(如:數據源規格不統一)得不到保證和變化頻度不恰當等。
技術因素:主要是指由於具體數據處理的各技術環節的異常造成的數據質量問題。數據質量問題的產生環節主要包括數據創建、數據獲取、數據傳輸、數據裝載、數據使用、數據維護等方面的內容。
流程因素:是指由於系統作業流程和人工操作流程設定不當造成的數據質量問題,主要來源於系統數據的創建流程、傳遞流程、裝載流程、使用流程、維護流程和稽核流程等各環節。
管理因素:是指由於人員素質及管理機制方面的原因造成的數據質量問題。如人員培訓、人員管理、培訓或者獎懲措施不當導致的管理缺失或者管理缺陷陋引。
原始數據清理是一件耗時耗力的過程,基本思路是針對影響數據質量的幾大因素,總結業務規則,按照一定的識別規律,找出異常值,有明確規則的按規則進行修改,識別困難的進行報錯,進行人工糾錯。
兩種數據挖掘模型
根據海量保險客戶資料,分析客戶:性別、年齡、婚否、職業、收入、教育程度等特性,建立數據挖掘模型,預測已購買保險的客戶可能還會購買哪些保險,還需要哪些保險責任,未購買保險的新客戶,根據其客戶特性,預測其最可能購買哪些保險及哪些保險責任,這些預測信息可用於老客戶保險深度挖掘,也可為新入司銷售人員提供業務指導。在該項目中,可使用決策樹和關聯規則進行預測。
①決策樹是把根據條件(不論是離散還是連續)自動分解為多個離散的類別,典型套用為一個或多個變數預測目標,變數對目標的重要程度,如:預測客戶是否會購買某種產品,適用於分類、預測,預測潛在客戶;
②關聯規則是處理海量歷史數據,快速找出產品之間的關聯,找出“先購買什麼?然後購買什麼?接下來購買什麼?”的規則。