介紹
自網路礦工數據採集軟體V5.0版開始,提供免費版本。
發展
網路礦工數據採集軟體的前身是Soukey採摘數據採集器,至今已2年時間,最新版本為V5.0,並擴展了兩個有效的工具:數據加工及發布工具,靜默運行監控工具。
技術平台
網路礦工數據採集軟體基於Microsoft VS2005開發,開發語言為C#,所以運行需在windows平台及Microsoft .NetFramework2.0以上環境運行。
授權方式
網路礦工數據採集軟體V5.0開始提供免費版,其他版本按照用戶數授權,不綁定計算機;
詳細功能
數據採集功能
1、 多任務、多執行緒,支持一個任務運行多個實例;採集規則與運行實例分離的好處是修改任務信息後,並不影響已經運行的任務;
2、支持圖片、Flash及檔案下載;下載並不支持多執行緒處理;
3、網址配置支持參數定製,及外部字典參數;通過字典方式可擴展自定義的參數值;
4、支持Cookie、POST採集;可記錄Cookie,採集需要登錄的網站數據,也可通過手工登錄進行採集;
5、支持導航、自動翻頁;可進行網址導航,譬如:通過新聞列表採集新聞內容;支持多層導航;
6、可採集Ajax數據;關於Ajax技術網站,需要通過HTTP嗅探器探測其真實地址;推薦使用Fiddler;
7、採集數據臨時存儲、斷點續采;臨時存儲數據格式為XML;
8、支持數據導出,檔案、資料庫;資料庫支持Access、MS SqlServer、MySql,檔案支持文本檔案和Excel;數據導出支持手工和自動,手工導出僅支持檔案形式;
9 、提供網址編/解碼工具;支持UTF-8、GB2312、GBK、Big5;
10、線上數據發布;支持線上數據發布,數據發布支持Cookie;
11、 數據採集支持採集數據加工; 可對採集數據進行字元串替換、截取、附加等操作,可自動去除網頁符號,支持正則;
12、支持任務計畫;可定時執行任務,最小間隔為:0.5小時;
13、支持任務觸發器;可觸發採集任務、資料庫存儲過程及執行檔,支持採集完成及發布完成觸發;
14、支持採集數據網址的自動輸出;可作為內容引用、錯誤查找使用;
15、支持採集延時; 針對訪問限制的網站,可採用採集延時控制單位時間內對網站的採集次數;
16、支持分層數據採集; 即通常所說的分頁採集、級聯採集,支持1對1及1對N的數據關係;
17、支持Url Base64編碼 針對部分網站採用Base64編碼Url進行了支持,可採集此類網站數據;
18、支持外部字典數據導入可成批導入字典數據;
19、 支持HTTPHeaders自定義支持HTTPHeaders自定義;
20、增加了導航自動翻頁功能 ;
21、支持採集規則通配符及自定義正則表達式 ;
22、支持U碼識別、網址轉移 ;
23、增加代理輪詢引擎支持數據採集 ;
24、增加導航提取範圍;
25、增加自定義導航規則處理;大部分導航都是由可識別的Url進行的,但也存在特殊情況,譬如:是由提交表單來完成,針對此種情況採用此功能可實現對導航規則的處理;
26、支持外部參數採集任務; 利用此種類型的採集任務可以再本地配置搜尋引擎,用戶網站信息的搜尋;典型套用:企業黃頁查詢;
27、支持導航層分頁;利用此功能可以按照簡化採集任務的配置,甚至可以通過一個入口地址採集所有的信息內容;
28、直接入庫;可將採集的數據直接存入資料庫,利用此種方式,系統可採集成百上千萬條數據,而不影響系統性能。資料庫支持Access、MS Sqlserver及MySql;
數據編輯功能
1、採集數據輸出數據多種規則加工;對採集數據可實現多種數據加工規則的套用,通過此方法,可以更加靈活的採集到需要的數據內容。;
2、提供數據加工模組;可對採集數據靈活的進行數據修改,調整表結構,然後再進行數據發布操作。同時還可利用此功能實現外部數據的加工及發布操作;
3、支持數據合併; 可套用於分頁文章採集,並自動合併成一篇文章的採集形式;
高級功能
1、 提供Mini瀏覽器;可用於Cookie及POST數據的捕獲;
2、 軟體界面支持多語言 網路礦工僅支持中文簡體,後期會擴展英文版本;
3、支持任務計畫輸出到同一個採集檔案;可套用為數據遞增採集;
4、提供採集規則分析器;通過採集規則分析器,可方便的查看採集規則配置的正確性;
5、支持代理伺服器;當前僅支持HTTP代理;
6、 提供網路監控雷達服務,可根據用戶規則監控網路數據,並及時預警、處理;
7、提供正則分析工具,輔助分析採集規則配置的正確性;
8、增加靜默運行模式,即無人值守採集功能,可自動執行,自動最佳化資源,並將執行情況自動記錄日誌;
9、提供日誌管理功能;
10、增加雷達監控URL提重功能;
版本新功能
V2012新增功能
1、增加了xPath可視化配置;
2、增加了OCR文本識別的功能;
3、增加了多頁採集的功能;
4、增加了__doPostBack函式的支持;
5、增加了自我導航能力,可實現單頁面數據一對多關係的採集;
6、增加了多sql語句的支持;
V2012SP1 新功能
1、增加了嗅探器的功能,可檢測HTTP通訊,可有效發現ajax、iframe請求的頁面進行探測;
2、全面支持可視化配置;
3、增加配置助手,可自動對網頁進行分析產生表格、文章的採集規則;同時也可通過配置助手自動配置採集規則;
4、最佳化了V2012的界面操作,提升軟體的易用性,同時也修正了V2012中的很多bug,使軟體運行更加穩定;
V5.0新功能
1、支持擴展外掛程式,支持三種類別外掛程式:獲取Cookie類、數據編輯類及數據發布類;
2、支持發布模板,可通過製作的發布模板進行數據發布操作;
3、提供同義詞替換及段落合併的數據編輯規則;