熊貓採集工具

熊貓採集工具

熊貓採集軟體利用熊貓精準搜尋引擎的解析核心,實現對網頁內容的仿瀏覽器解析,在此基礎上利用原創的技術實現對網頁框架內容與核心內容的分離、抽取,並實現相似頁面的有效比對、匹配。因此,用戶只需要指定一個參考頁面,熊貓採集軟體系統就可以據此來匹配類似的頁面,來實現用戶需要採集資料的批量採集。

基本信息

一、軟體簡介

熊貓採集軟體可能與你見過的某些類似工具軟體全然不同:功能強大,但又操作簡單。兩者的差別,類似於從DOS作業系統轉到windows視窗作業系統。前者需要專業技術人員才能有效操作,而熊貓則是面向普通大眾的可視化操作平台。

如果你用熊貓軟體解決不了你的採集需求,最大的可能是因為你尚未熟悉熊貓的功能和操作。

採集軟體,是指將網際網路上通過web途徑公開的資源採集複製到本地的工具軟體。網際網路是個巨大的倉庫,有著豐富的可用資源,採集軟體是用戶實現批量採集、下載、複製網際網路資源的重要工具軟體之一。

在此過程中,用戶不再需要使用非常專業的“正則表達式”技術,不要需要藉助技術高手來編寫採集匹配規則。熊貓採集軟體系統會將參考頁面的內容解析分解後,由用戶利用滑鼠點選需要採集的對象即可,系統據此就可以知道用戶需要採集的內容。熊貓採集軟體的模板定製過程,是一個對目標頁面進行機器學習、機器訓練的過程。

為了方便採集軟體的使用新手,熊貓採集軟體在設計過程中已盡最大努力為用戶減少操作環節,所有可能的地方,都盡力為用戶實現自動操作。為此在軟體開發過程中花費了大量的精力。例如在“標題列表頁面”的設定過程中,大部分情況下,用戶只需要輸入標題列表頁面的網頁url,再點擊<自動分析>按鈕即可,系統在經過充分分析的基礎上,自動完成對標題列表頁面的相關參數設定。這也是熊貓採集軟體與眾不同的地方,用戶藉助熊貓採集軟體的智慧型化輔助功能,可以輕鬆實現對採集項目的配置工作。

熊貓採集軟體的設計目標,是能見即能采,意即只要用戶通過瀏覽器途徑能夠看到的內容,都能有序的結構化的採集下載到本地。顯然,這並不輕鬆,因為並不是所有網際網路資源擁有者都無條件的歡迎採集者,他們會因此設定很多技術上的障礙。

另一方面,用戶的採集需求各自不同,採集目標資源的組織方式各自不同,用戶對採集資源的套用方式也各式各樣。所以完全實現熊貓採集軟體的設計目標,是需要不菲的時間和精力,是需要漸進、逐步的來實現。目前版本的熊貓採集軟體,雖還不能做到無所不能,但已經具備了良好的綜合性能,可以充分套用到絕大部分場合。

二、技術特點

熊貓採集軟體的技術繼承於熊貓精準搜尋引擎,擁有大量的原創的關鍵技術,在技術和理論上有著獨立性。此處闡述的內容具有一定代表性,但也並不代表這些技術都非常成熟,或者說在當前版本的軟體中已套用的非常充分。可以理解為這些技術是熊貓採集軟體的理論基礎之一。

搜尋引擎解析核心

熊貓採集軟體的技術繼承自熊貓精準搜尋引擎,利用的是該搜尋的解析核心,實現對網頁內容的解析、分解、內容提取、近似頁面比對等等。

仿瀏覽器解析

熊貓採集軟體對採集網頁實現仿瀏覽器解析,在此解析基礎上再做其它深度分析和加工。以後版本的熊貓,在完善此項技術後,軟體的功能和功效應該會得到顯著提高。

視覺模擬技術

熊貓採集軟體會模擬人的視覺來分析網頁,在此基礎上利用參考(模板)頁面實現採集匹配工作。

網站頁面邏輯關係分析技術

熊貓軟體的很多智慧型化分析輔助工作,即是基於此項技術基礎上的套用。由於採集軟體需要較高的分析、解析速度,因此對此技術的套用並不充分。

對模板頁面的容錯能力

對於用戶指定的用於機器學習的模板頁面,在實際匹配過程中難免會遇到不同程度的差異和變動,軟體對此擁有較強的容錯能力。相關技術類似於搜尋引擎內的重複頁面、近似頁面識別技術。

三、功能特點

熊貓採集軟體力求設計成為一款通用性的泛採集工具軟體。在功能設計上力求通用性,提供各種可以自由組合的功能方法,由用戶靈活採用,以實現各自的不同採集需求,因此採集工具軟體的一些常見功能都會具備,下面列出熊貓一些較特色的功能:

全方位的採集功能

採集的對象包括文字內容、圖片、flash動畫視頻、下載檔案等等各類網路內容。支持圖文混排對象的同時採集。支持結構複雜的採集對象集合,支持複雜多資料庫表單,支持跨頁面內容合併採集的能力。

多模板自動適應能力

很多網站的“內容頁面”會存在多個不同種類的模板,因此熊貓採集軟體允許每個採集項目可以同時設定多個內容頁面參考模板,在採集運行時,系統會自動匹配尋找最合適的參考模板用來分析內容頁面。

實時幫助視窗

在採集項目設定環節,系統會在視窗右上顯示與當前配置相關的實時幫助內容,為使用新手提供實時幫助。因此熊貓採集軟體的使用可以輕鬆上手。配合全程智慧型化輔助能力,即便是第一次接觸熊貓採集軟體,也可以較輕鬆實現採集項目的配置工作。

正文和回復內容同時採集的能力

典型如論壇頁面,正文內容在前,若干回復內容在後,或者還存在若干個回復分頁存在。熊貓採集可以將這些作為一個“對象”來對待,一併同時完整採集,其配置過程也非常簡單。

分頁內容的輕鬆合併

支持各種類型的分頁模式,用戶只需要做兩步就可以實現分頁內容的合併:滑鼠點選確認分頁連結所在,將需要分頁合併的欄位項勾選上“分頁合併”項即可。如果頁面內具有重複子項存在,則能自動在分頁中尋找該重複子項,隱含自動進行分頁內容合併。

典型如上述的論壇例子,分頁頁面內的回覆內容,可自動實現歸併,此時用戶只需要滑鼠點選確認分頁連結所在即可。有些場合下,在論壇內容頁面的分頁中也會同時出現主體(主表)內容,此時系統會自動進行判斷,不會將主表內容當成重複子項的子表內容進行採集。

採集對象的內容可以是分散在多個頁面(模板頁面的深度嵌套訪問)

熊貓採集是面向對象的,一個採集對象可以擁有許多需要採集的子項屬性內容。這些子項屬性的內容允許分散在不同的頁面內,這些頁面可以是需要通過若干次連結才能到達的頁面。

此處所謂“對象”,可以理解為“(需要採集的數據的)數據集合”的意思。這個數據集合的內容和範圍由用戶根據實際需求自行決定,沒有特定的要求。也可以將該對象範疇囊括到“標題列表頁面”,這屬於變通使用的方法,在此不多做贅述。靈活的使用面向對象的方法,不僅可以實現很多複雜的採集需求,更可以使得採集設定過程更為簡單。

利用cookie方式模擬登錄網站

對於需要登錄才能訪問採集頁面的網站(包括Discuz等各類型論壇),可以利用賬號進行模擬登錄。熊貓採集可以通過模擬瀏覽器機制,利用動態cookie和網站進行cookie動態對話。有些網站,為了加強數據的安全性,利用cookie對網頁內容數據進行加密,此時就需要使用熊貓採集特有的“動態Cookie”功能。

支持常見類型資料庫引擎。支持FTP上傳

目前版本的熊貓,支持Access/mssql/mysql/Oracle四種常用資料庫類型,以後可能會視需求進行擴充。支持將下載的各類檔案圖片等同時FTP上傳到遠程伺服器內。用戶利用此項功能就可以將在本地電腦上採集的數據同時更新到自己網站內,充實欄目內容。對於其他的動態數據發布方式,熊貓會在用戶使用反饋的基礎上儘快實現。

無人值守自動定時運行

提供更新採集訪問的能力,自動定時更新運行。無需人工干預,系統自動封閉運行。

文字內容的“偽原創”修改。支持文章時間的提前

提供文字內容的“偽原創”修改。還可以將文章時間做“提前”修改,文章的發表時間是搜尋引擎用來區別文章是否原創的一個參考因素。

高效的解析、採集速度

由於軟體需要對所有採集訪問的頁面進行仿瀏覽器解析,並在此基礎上進行大量的分析計算,因此需要花費大量的計算時間。為提高軟體運行效率,系統在設計、開發環節都充分做了細緻最佳化,使得軟體的運行效率依舊非常高效。配合多執行緒、多項目同時運行的功能,可以確保你的下行頻寬充分得到利用。

相關詞條

相關搜尋

熱門詞條

聯絡我們