基本信息
雲蛛網路信息採集雲服務主要基於分散式運行中間件的框架構造,該框架具有較高的可擴展性和組件解耦性。雲蛛網路信息採集雲服務在此框架基礎上一個業務作為一個運行單元開發,每套運行單元主要實現四大組件:任務讀取組件,網頁爬取組件,網頁分析組件,數據保存組件。組件完成後通過發布jar包到運行系統中,系統智慧型分配集群機器分散式運行。
產品特點
高效的運行性能雲蛛網路信息採集雲服務通過光纖網路保障數據爬取通道順暢,其採用目前最前沿的計算平台搭建的計算雲,具備最前沿的分散式計算性能;採用目前最流行的存儲雲技術,保障海量數據的並行讀寫性能;通過大規模的分散式並發採集,提高數據採集效率。
通用的數據類型雲蛛網路信息採集雲服務能支持各種頁面類型,包含新聞、論壇、部落格,圖片、微博等。用戶通過指定配置相應模板,能採集到所有瀏覽器能看到的結構化內容,可快速且隨意的定製新採集任務。
精準的數據提取雲蛛網路信息採集雲服務通過對垃圾信息的有效過濾、抓取頁面的去雜清洗,使用xml格式化頁面內容,再根據頁面模板的技術解析,實現解析功能代碼與解析模板的分離,從而獲取頁面內容的具體位置等特定數據,例如新聞的標題,來源,時間,內容等,實現對需求內容的準確獲取,最大限度的方便了任務的高效定製。
高效的擴展普通網頁數據:通過模板配置和添加任務高效完成對普通網頁數據的爬取。 特殊數據源:簡捷的開發對應的業務組件,發布到系統中運行來獲取數據
高效的維護監控系統通過統一的調度監控平台,實時反映爬蟲雲運行狀況並存儲雲數據準確性的驗證。該監控平台特點如下:
・平台以web的形式展現,可在任意有聯網的機器,實現對運行系統的管理。
・可精確定位運行系統中具體的業務模組,組件的運行信息。對有問題的模組進行啟停維護。 通過簡潔輕量的管理界面實現對多任務的有效管理
為了簡化網頁匹配模板的生成和維護工作,我們提供了半自動化的網頁模板配置工具,通過該工具可以滑鼠可視化點選內容採集,快速實現對網頁匹配模板的生成。
・通過web調度平台,可實現對任務的動態修改配置及調度運行。比如:實現任務優先權的手工定義,任務過濾規則的修改,任務運行時間的調整等。
・對於具體任務運行時的配置參數,可動態修改,並及時反映到任務運行控制中。
・通過暫停和重啟功能,能實現業務組件運行的熱插拔和線上調控。
・可以以年,月,周、日、時、分等為採集周期自定義採集策略,設定靈活自主,可滿足用戶分鐘級採集需求。
通過標準的機房環境,提供7×24小時工作,解決了人工網際網路搜尋信息在非工作時間不能及時獲取網際網路信息的弊端,保障大數據量的連續更新,並提高完成任務需求的效率。