網路礦工數據採集軟體

網路礦工數據採集軟體是一款網際網路數據採集、編輯、存儲、發布為一體的工具軟體。系統支持多任務、多執行緒、代理IP 等策略,可以高效的採集各類網頁數據、及下載各類檔案,同時還提供了數據加工工具,可以在數據採集的同時就可完成數據加工操作,提升最終數據呈現的質量,網路礦工數據採集軟體支持各類常用的資料庫,包括MS SqlServer、MySql及Access,同時還支持web方式進行數據提交。

介紹

自網路礦工數據採集軟體V5.0版開始,提供免費版本。

發展

網路礦工數據採集軟體的前身是Soukey採摘數據採集器,至今已2年時間,最新版本為V5.0,並擴展了兩個有效的工具:數據加工及發布工具,靜默運行監控工具。

技術平台

網路礦工數據採集軟體基於Microsoft VS2005開發,開發語言為C#,所以運行需在windows平台及Microsoft .NetFramework2.0以上環境運行。

授權方式

網路礦工數據採集軟體V5.0開始提供免費版,其他版本按照用戶數授權,不綁定計算機;

詳細功能

數據採集功能

1、 多任務、多執行緒,支持一個任務運行多個實例;採集規則與運行實例分離的好處是修改任務信息後,並不影響已經運行的任務;

2、支持圖片、Flash及檔案下載;下載並不支持多執行緒處理;

3、網址配置支持參數定製,及外部字典參數;通過字典方式可擴展自定義的參數值;

4、支持Cookie、POST採集;可記錄Cookie,採集需要登錄的網站數據,也可通過手工登錄進行採集;

5、支持導航、自動翻頁;可進行網址導航,譬如:通過新聞列表採集新聞內容;支持多層導航;

6、可採集Ajax數據;關於Ajax技術網站,需要通過HTTP嗅探器探測其真實地址;推薦使用Fiddler;

7、採集數據臨時存儲、斷點續采;臨時存儲數據格式為XML;

8、支持數據導出,檔案、資料庫;資料庫支持Access、MS SqlServer、MySql,檔案支持文本檔案和Excel;數據導出支持手工和自動,手工導出僅支持檔案形式;

9 、提供網址編/解碼工具;支持UTF-8、GB2312、GBK、Big5;

10、線上數據發布;支持線上數據發布,數據發布支持Cookie;

11、 數據採集支持採集數據加工; 可對採集數據進行字元串替換、截取、附加等操作,可自動去除網頁符號,支持正則;

12、支持任務計畫;可定時執行任務,最小間隔為:0.5小時;

13、支持任務觸發器;可觸發採集任務、資料庫存儲過程及執行檔,支持採集完成及發布完成觸發;

14、支持採集數據網址的自動輸出;可作為內容引用、錯誤查找使用;

15、支持採集延時; 針對訪問限制的網站,可採用採集延時控制單位時間內對網站的採集次數;

16、支持分層數據採集; 即通常所說的分頁採集、級聯採集,支持1對1及1對N的數據關係;

17、支持Url Base64編碼 針對部分網站採用Base64編碼Url進行了支持,可採集此類網站數據;

18、支持外部字典數據導入可成批導入字典數據;

19、 支持HTTPHeaders自定義支持HTTPHeaders自定義;

20、增加了導航自動翻頁功能 ;

21、支持採集規則通配符及自定義正則表達式 ;

22、支持U碼識別、網址轉移 ;

23、增加代理輪詢引擎支持數據採集 ;

24、增加導航提取範圍;

25、增加自定義導航規則處理;大部分導航都是由可識別的Url進行的,但也存在特殊情況,譬如:是由提交表單來完成,針對此種情況採用此功能可實現對導航規則的處理;

26、支持外部參數採集任務; 利用此種類型的採集任務可以再本地配置搜尋引擎,用戶網站信息的搜尋;典型套用:企業黃頁查詢;

27、支持導航層分頁;利用此功能可以按照簡化採集任務的配置,甚至可以通過一個入口地址採集所有的信息內容;

28、直接入庫;可將採集的數據直接存入資料庫,利用此種方式,系統可採集成百上千萬條數據,而不影響系統性能。資料庫支持Access、MS Sqlserver及MySql;

數據編輯功能

1、採集數據輸出數據多種規則加工;對採集數據可實現多種數據加工規則的套用,通過此方法,可以更加靈活的採集到需要的數據內容。;

2、提供數據加工模組;可對採集數據靈活的進行數據修改,調整表結構,然後再進行數據發布操作。同時還可利用此功能實現外部數據的加工及發布操作;

3、支持數據合併; 可套用於分頁文章採集,並自動合併成一篇文章的採集形式;

高級功能

1、 提供Mini瀏覽器;可用於Cookie及POST數據的捕獲;

2、 軟體界面支持多語言 網路礦工僅支持中文簡體,後期會擴展英文版本;

3、支持任務計畫輸出到同一個採集檔案;可套用為數據遞增採集;

4、提供採集規則分析器;通過採集規則分析器,可方便的查看採集規則配置的正確性;

5、支持代理伺服器;當前僅支持HTTP代理;

6、 提供網路監控雷達服務,可根據用戶規則監控網路數據,並及時預警、處理;

7、提供正則分析工具,輔助分析採集規則配置的正確性;

8、增加靜默運行模式,即無人值守採集功能,可自動執行,自動最佳化資源,並將執行情況自動記錄日誌;

9、提供日誌管理功能;

10、增加雷達監控URL提重功能;

版本新功能

V2012新增功能

1、增加了xPath可視化配置;

2、增加了OCR文本識別的功能;

3、增加了多頁採集的功能;

4、增加了__doPostBack函式的支持;

5、增加了自我導航能力,可實現單頁面數據一對多關係的採集;

6、增加了多sql語句的支持;

V2012SP1 新功能

1、增加了嗅探器的功能,可檢測HTTP通訊,可有效發現ajax、iframe請求的頁面進行探測;

2、全面支持可視化配置;

3、增加配置助手,可自動對網頁進行分析產生表格、文章的採集規則;同時也可通過配置助手自動配置採集規則;

4、最佳化了V2012的界面操作,提升軟體的易用性,同時也修正了V2012中的很多bug,使軟體運行更加穩定;

V5.0新功能

1、支持擴展外掛程式,支持三種類別外掛程式:獲取Cookie類、數據編輯類及數據發布類;

2、支持發布模板,可通過製作的發布模板進行數據發布操作;

3、提供同義詞替換及段落合併的數據編輯規則;

相關詞條

相關搜尋

熱門詞條

聯絡我們