一、webspider藍蜘蛛定向採集系統簡介
WebSpider藍蜘蛛網際網路定向採集系統可以採集指定網站上指定範圍內的頁面數據,然後通過正則表達式解析出頁面上的任意數據項。定向採集的採集目標可以是各種類型的網站,比如新聞網站、部落格網站、論壇網站等,比如行業網站、服務型網站、區域網路等。系統可以根據您的需求精確地解析出網頁上的各個數據項,比如標題、作者、來源、時間、正文、電話、產品、價格、評論、公司名、聯繫人等等,前提是您需要配置將要採集網站的入口URL以及解析模版。該系統的特點是精準。二、WebSpider藍蜘蛛定向採集系統的主要版本 WebSpider藍蜘蛛網際網路定向採集系統分為標準版和高級版,其功能及特點概要描述如下:

1、新聞、部落格、論壇網站的採集
2、行業網站、服務型網站、區域網路的採集
3、支持網站登錄
4、Ajax網站採集
5、隱藏參數的網站採集
6、跨平台、跨資料庫
7、高並發大數據量的伺服器端採集
8、不僅僅是以html置標作為數據項的頭尾標誌,而是以任意有特徵的字元作為數據項的頭尾標誌
9、精確制導的採集模版設定
10、斷點續采
11、對內容恆定頁、內容變化頁採取不同的採集策略
12、支持各種頁面編碼
13、支持用戶自定義表的欄位映射及數據入庫
14、支持第三方發布接口
15、可以與WebNews網際網路輿情監控系統、WebCIS企業競爭情報分析預警系統等其他系統無縫集成
1、根據驗證碼特徵進行個性化識別支持(一般涉及個性化開發)
2、內容關鍵字、特證詞提取
3、內容摘要自動形成
4、基於嚴格特徵指紋、寬鬆特徵指紋、語義特徵指紋實現不同精度的內容去重