系統介紹
北京盛世鴻創信息技術有限公司(簡稱創鴻,Bizsky)密切關注著Web2.0時代網際網路數據採集分析技術的發展趨勢,適時研發推出了以信息採集源維護為套用核心,以智慧型化與可視化為特點的創鴻網際網路數據採集分析系統,即Bizsky webspider V4.0。創鴻網際網路數據採集分析系統(以下簡稱本系統)是網路挖掘信息的利器,它可以從Internet上抓取幾乎是任何的系列信息網頁,並自動從網頁中分析解析出信息並整理存為資料庫格式。本款軟體適用於網站、報刊雜誌、信息服務公司等資訊型單位以及廣大企事業單位行銷、情報、運營等部門。
研發背景與發展趨勢
網際網路數據信息巨大價值的背後問題n 數量大:網際網路數據量極度龐大,通過手工方式逐站採集費時費力,難以應對信息處理的需要。
n 非結構:網際網路數據信息絕大部分以Html網頁形式體現,屬於非結構化數據,後期套用比較困難,如何在信息採集的同時進行結構應對是信息採集的關鍵。
n 夾雜多:在網路信息中經常夾雜諸如廣告、權屬等重複的或無用的信息,需要在採集過程中過濾剔除。
n 歸檔難:信息採集後的歸檔工作將直接影響甚至制約後期數據分析加工的效率和質量。
n 信息源數量大:信息源數量龐大並增長迅猛,傳統的信息採集分析系統只能逐一採集,缺乏效率。
n 信息源更新快:信息源形式更新頻繁,網頁日常改版頻率緊湊,有必要對信息源進行實時監控,並對發生變更的信息源做出及時的調整。
n 數據交叉嚴重:隨著網路套用的普及,大量的網際網路信息源存在數據信息交叉的情況,即相同或相似的信息在多個信息源重複出現,對該類信息的篩選和濾重已經成為套用的重點需求。
n 信息源形式複雜:信息源表現形式的多樣化引發了新的採集問題,如註冊登錄後採集、多重頁面聯合採集、驗證碼輸入等形式,將給信息採集帶來新的挑戰。以智慧型化和可視化為特點的數據採集分析系統呼之欲出 網際網路信息數據的重要性、多樣性、易變性已經成為網際網路的發展趨勢,近兩年來,越來越多具有註冊登錄步驟、驗證碼驗證要求和多頁面信息組合的複雜性網站應運而生,網站的變更頻率也隨之日益加速。同時,網站信息的數量也越來越龐大,更新越來越快捷。以信息採集源維護為套用核心,以智慧型化與可視化為特點的網際網路數據採集分析產品呼之欲出,將引領Web2.0時代數據採集分析產品新潮流。
功能定位:
以信息採集源維護為套用核心,強調易用性。
通過近十年網際網路數據採集分析系統研發,“創鴻”認為在當前網際網路發展背景下,網路數據採集分析的套用核心已經從單純的採集速度,發展到以智慧型化和可視化為特點的信息採集源監控與維護套用。用戶通過完整的可視化界面和全面的智慧型化分析功能,極大的從繁雜的網頁代碼中脫離出來,更加關注對海量採集源的實時監控,對發生異常的採集源進行自動恢復和維護作業,充分體驗易用性帶來的高度信息採集源維護效率。
以智慧型化和可視化為主要特點,降低對使用者知識專業性的需求
相對而言,面對企業和組織機構用戶,創鴻網際網路數據採集分析系統更加關注使用過程的智慧型化和可視化,避免傳統採集系統操作過程中對使用者知識專業性(特別是網頁原始碼分析能力)要求苛刻的問題,大幅度提高操作效率,是企業和組織機構用戶實時專業網際網路數據採集分析套用的最佳解決方案。
6大優勢
完整可視化操作,擺脫代碼,一目了然系統完整採用可視化技術:在信息源分析方面,支持拖拽和可視化嚮導界面操作,用戶無須掌握Session、HTML標籤等複雜原始碼;在採集監控方面,可清晰觀測每個執行任務的進度、任務日誌、採集信息以及錯誤信息等,所有環節一目了然;在採集源測試方面,支持可視化完全擬真採集,逐步展現採集過程,直接驗證分析參數。
全面智慧型分析,真正“一鍵式分析”系統採用獨立自主研發的全面智慧型網站內容分析引擎,智慧型載入內容類別識別資料庫。使用者只需要給出欲分析信息源的起始網址,按全自動分析按鈕即可立即得到該網站信息源採集所需的全部參數。真正做到“一鍵式分析”。極大的提高採集分析維護的工作效率,降低採集分析維護成本。
專業信息發布,與網站無縫銜接創鴻網際網路信息採集分析系統結合“創鴻”在商業信息發布領域的長期經驗,採用專業信息發布模組,智慧型分析網站發布參數,可以應對包括登錄發布、驗證碼識別、信息分步提交在內的各種信息發布環境,實現與原有網站套用系統的無縫銜接。避免了傳統信息發布功能對原有套用系統部署結構、套用檔案進行大量調整的情況。
高效驗證碼識別,輕鬆應對各類信息源隨著Web2.0時代的到來,網站的表現互動形式日益豐富,為了保護數據、提高使用感受、便於統計等原因越來越多的發布源和信息源加入了驗證碼驗證環節。創鴻網際網路信息採集分析系統採用專業註冊碼識別引擎,可以智慧型識別網站登錄以及註冊碼,驗證碼識別率高達96%以上。
第二代多任務多執行緒技術,超級採集能力創鴻網際網路信息採集分析系統採用第二代多任務多執行緒技術,極大的提高了單站分析速度、並發處理效能和穩定性,可以同時監控數千個信息源,運行50個採集任務,完全利用數據頻寬。結合可視化信息源自動效驗檢測功能,可以輕而易舉做到一個人對上千個信息源的採集、監控、維護工作。
自備常見類型信息庫分析引擎,海量信息源預置。 創鴻網際網路信息採集分析系統採用了獨特的內容類別識別分析技術,為了便於用戶日常使用,系統自備了包括新聞類、企業名錄類、商業情報類等在內的多種常見類型信息庫分析引擎,同時預置了包括財經、商貿、企業、報刊等在內的海量信息源。方便用戶加快部署速度,縮短採集源設定時間。
其他優勢列表網頁採集內容的完整性
適應網站內容格式的多變性,能完整地獲取需要採集的頁面,遺漏少。網頁採集內容的完整性在99%以上。
垃圾信息剔除
按照使用者需求,系統自動過濾網頁中新聞的正文內容,剔除垃圾信息,準確獲取目標。
提取內容的深度與精確性
能方便將網頁中的結構化欄位信息提取出來,如日期,標題,作者,欄目等等內容,就連網頁中的表格數據也可採集。
網站採集範圍的精確定義
通過起始URL地址、URL範圍表達式、搜尋深度、檔案類型控制的定義來精確描述需要採集的網站範圍,可以精確到整個網站、特定欄目、特定頁面;過濾掉無用的連結。
網站動態資料庫抓取
能方便將抓取網站上後台資料庫的內容(JSP, ASP, CGI) ,和抓取需要通過用戶身份校驗的網站內容。
支持多種類型信息
強大的信息獲取工具不僅可以採集普通的靜態和動態網頁信息,而且可以採集zip、mp3、avi、rar、mov、pdf、jpg、gif等多達幾十種不同類型的信息。
支持多種編碼和語言
系統支持BIG5內碼的繁體頁面和Unicode內碼的頁面自動轉換為標準的簡體碼,同時支持包括中、英、日、韓、俄、法、西、德、阿拉伯語等多種語言。
下載速度快
多進程多執行緒多信息源同時,下載用戶可以根據同時啟動多個進程,每個進程可以啟動1-50個下載執行緒進行高速下載,系統可以根據網路頻寬和數據流量自動調節啟動的進程數和執行緒數。普通ADSL(512K)即可達到每小時採集約5000-10000個網頁。
智慧型自動化增量採集
系統能自動跟蹤目標站點,分析頁面內容,僅採集最新的頁面,對於已經採集的內容不會重複採集。同時,系統具備多任務同時啟動功能,可設定信息採集的時間周期,採集過程無須人工干預,自動化程度較高。
信息重複下載控制
通過對指定頁面的位置、時間、內容等條件的智慧型化信息分析,有效防止信息的重複下載情況,提高信息的獲取效率。
完善的信息源配置
用戶可以自定義每個信息源的標示、起始地址、抓取信息地址格式、抓取信息類型、抓取區域、抓取深度、關鍵字、優先權、啟停時間、模版等參數,同時,系統還提供完善的信息源管理功能,可方便的實現網站信息源的增、刪、改、查等操作。
多種格式保存採集結果
採集可自動保存多種數據格式,方便套用的定製開發和與其它產品的集成;目前支持的格式有:Text格式(標準Tab間隔的數據格式)、XML格式、主流資料庫格式(Access、SQL Server、Sybase、Oracle、MySQL)並可自行定製資料庫表格欄位。
運行環境:
伺服器:
CPU PIII 1G 以上,硬碟空間20G以上 記憶體:128M及以上,推薦使用1G或以上記憶體
作業系統:
Windows 2000 / 2003 / XP / Vista
網路頻寬: 至少具備普通寬頻上網條件(512K ADSL等),推薦1M頻寬