簡介
主要功能
根據用戶自定義的任務配置,批量而精確地抽取目標網路媒體欄目中的新聞或文章,轉化為為結構化的記錄(標題,作者,內容,採集時間,來源,分類,相關圖片等),保存在本地資料庫中,用於內部使用或外網發布,快速實現外部信息的獲取。
主要技術
新聞採集器核心技術是模式定義和模式匹配。模式屬於人工智慧的術語,意思為物體前人積累的經驗的抽象和升華。簡單地說,就是從不斷重複出現的事件中發現和抽象出的規律,是解決問題的經驗的總結。只要是一再重複出現的事物,就可能存在某種模式。
所以要讓新聞採集器能夠運行,目標網站必須具備重複出現的特徵。大多網站都是動態生成的,這樣就會讓同一模板的頁面包含相同的內容,新聞採集器正是利用這些相同的內容來定位採集數據的。
新聞採集器中的模式大多不是程式自動發現的,現有幾乎所有的新聞採集器產品都需要通過人工來定義。但模式本身是個很複雜,很抽象的內容,所以所有的開發者精力都花在怎樣讓模式定義更簡單,更準確,這也是新聞採集器競爭力的衡量標準。
但我們怎樣來描述模式呢,當前技術主要有兩種方式:正則表達式定義和文檔結構定義。
功能特點
用戶對每類信息自定義來源與分類可以下載圖片與各類檔案,如PDF,Flash等需支持命令行和純服務格式,可以Windows任務計畫器配合,定期抽取目標網站需支持記錄HASHCODE等唯一索引,避免相同信息重複入庫需支持智慧型替換功能,可以將內容中嵌入的所有的無關部分如廣告去除需支持多頁面文章內容自動抽取與合併數據直接進入資料庫而不是檔案中,因此與利用這些數據的網站程式或者桌面程式之間沒有任何耦合需支持資料庫表結構完全自定義,充分利用現有系統需支持多個欄目的信息採集可用同一配置一對多處理需提供基於Web的線上內容編輯,可以方便靈活的進行內容調整和預覽需保證信息的完整性與準確性,絕不會出現亂碼需提供基於XSLT的模板和帕科自定義格式的模版,從而提供靈活方便標準的模版,方便運營商設計自己的界面需支持各種主流資料庫,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等
使用技術
正則表達式定義
正則表達式定義是現有主流套用的技術,主要代表為火車頭採集器。此技術簡單,靈活性高。但用戶操作複雜。由於此模式作用於網頁的原始碼上,因此匹配的結果受代碼版面格式影響比較大,並且也不夠直觀,對比較複雜的頁面結構幾乎無能為力。 當前已經有幾款產品使用輔助工具來減低用戶的操作難度。
文檔結構定義
文檔結構定義應該說它是目前最先進的技術,已經具備一定的模式學習能力。此模式作用於文檔這一層,不同於正則表達式作用於頁面原始碼。所謂文檔這一層,指的是原始碼運行後所生成的實際對象,即用戶在瀏覽器所看到的內容。所以操作可視化是此技術天生就具備的能力。
由於它是對文檔結構進行匹配,所以它不受頁面原始碼的影響,用戶定義比較直觀,並且程式能夠根據文檔對象獲取更多的邏輯上的特徵信息,匹配更準確,通用性更強。
此技術在學術研究論文上已經呈現過,也在幾家實驗室開發出此類產品。但真正在商業上套用很少。
採集軟體
雲里新聞採集大師
【概括介紹】
完全免費開源的新聞採集軟體。
【基本介紹】
雲里新聞採集大師是一款完全免費開源的新聞採集軟體,支持所有網站內容的自動採集入庫,程式採用Microsoft Visual Studio 2010(C#)開發,資料庫採用SQLite,軟體原始碼完全公開,供各位開發者學習與探討。
【軟體特點】
1、免費開源:雲里新聞採集大師完全免費並開源供大家學習與探討,永久開源。
2、靈活配置:採集網站可靈活配置,根據自己的需要可配置添加採集網站。
3、多資料庫支持:採集文章可支持Post到Access資料庫、MSSQL資料庫、MYSQL資料庫、Oracle資料庫等資料庫中。
【軟體功能】
採集網站管理
雲里新聞採集大師可方便您管理需要採集的網站。
圖形化配置
如果您需要添加採集網站,只需要找到頁面簡單的開始與結束標記即可靈活配置與添加。
批量刪除
可一鍵刪除所有採集網站,方便簡單。
支持預覽
每個採集網站,支持預覽模式,點擊即可到達目標網站。
採集新聞管理
雲里新聞採集大師可方便您管理採集到的文章,可批量刪除,編輯新聞文章。
圖形化管理
圖形界面管理採集到的文章,雙擊文章行可打開編輯。
批量刪除
可一鍵刪除所有採集網站,方便簡單。
支持預覽
每個採集網站,支持預覽模式,點擊即可到達目標網站。
採集網站配置
採集目標網站的所有參數都可以個性化可配置實現。
列表可配置
通常需要採集列表頁面的內容塊,定義開始與結束標記即可採集到。
內容可配置
採集文章標題、作者、來源、內容等信息,都可自定義配置。
網頁編碼可配置 每個網站的編碼都不一樣,這裡提供了網頁編碼選擇項,實現可配置選項。