主要功能
根據用戶自定義的任務配置,批量而精確地抽取目標網路媒體欄目中的新聞或文章,轉化為為結構化的記錄(標題,作者,內容,採集時間,來源,分類,相關圖片等),保存在本地資料庫中,用於內部使用或外網發布,快速實現外部信息的獲取。
主要技術
新聞採集器核心技術是模式定義和模式匹配。模式屬於人工智慧的術語,意思為物體前人積累的經驗的抽象和升華。簡單地說,就是從不斷重複出現的事件中發現和抽象出的規律,是解決問題的經驗的總結。只要是一再重複出現的事物,就可能存在某種模式。
所以要讓新聞採集器能夠運行,目標網站必須具備重複出現的特徵。目前大多網站都是動態生成的,這樣就會讓同一模板的頁面包含相同的內容,新聞採集器正是利用這些相同的內容來定位採集數據的。
新聞採集器中的模式大多不是程式自動發現的,目前幾乎所有的新聞採集器產品都需要通過人工來定義。但模式本身是個很複雜,很抽象的內容,所以所有的開發者精力都花在怎樣讓模式定義更簡單,更準確,這也是新聞採集器競爭力的衡量標準。
但我們怎樣來描述模式呢,目前技術主要有兩種方式:正則表達式定義和文檔結構定義。
正則表達式定義
正則表達式定義是目前主流套用的技術,主要代表為火車頭採集器。此技術簡單,靈活性高。但用戶操作複雜。由於此模式作用於網頁的原始碼上,因此匹配的結果受代碼版面格式影響比較大,並且也不夠直觀,對比較複雜的頁面結構幾乎無能為力。 目前已經有幾款產品使用輔助工具來減低用戶的操作難度。
文檔結構定義
文檔結構定義應該說它是目前最先進的技術,已經具備一定的模式學習能力。此模式作用於文檔這一層,不同於正則表達式作用於頁面原始碼。所謂文檔這一層,指的是原始碼運行後所生成的實際對象,即用戶在瀏覽器所看到的內容。所以操作可視化是此技術天生就具備的能力。
由於它是對文檔結構進行匹配,所以它不受頁面原始碼的影響,用戶定義比較直觀,並且程式能夠根據文檔對象獲取更多的邏輯上的特徵信息,匹配更準確,通用性更強。
此技術在學術研究論文上已經呈現過,也在幾家實驗室開發出此類產品。但真正在商業上套用很少。
目前能夠面向普通大眾的,只有DM實驗室推出的視采採集器,該產品不僅在技術起點上比較高,而且在用戶使用這一層上,所獨有的實時用戶操作嚮導功能也是讓人驚奇的,此技術讓專業級操作變為傻瓜式操作,真是科學讓一切變為可能!
代表
視采新聞採集器;樂思新聞採集器;萬能新聞採集器;新浪新聞採集器
相關詞條
-
論壇採集器
論壇採集器是論壇站長的輔助工具,論壇在建設初期,需要大量的內容,手工傳送費時費力,而且難以形成論壇的互動,論壇採集器主要是幫助論壇站長採集、傳送大量帖子...
論壇採集器簡介 系統特點 功能特點 主要論壇採集器 -
網站採集器
網站管理員會定時從同一網站上抓取內容,希望已經抓取的內容不要再發布到網站系統中。 對於某一類的信息,發布到網站系統的數據結構是相同的。 對於數據結構化的...
需求概述 主要技術 用戶特點 系統需求 市場分析 -
圖片採集器
圖片採集器是利用專門的圖片識別技術,批量的獲取圖片地址,再把圖片批量的自動化下載到本地的圖片蒐集工具。
-
網路信息採集器
網路信息採集器是將非結構化的信息從大量的網頁中抽取出來保存到結構化的資料庫中的軟體。 網路信息採集器套用 樂思信息採集系統主要用於:入口網站的新聞採集,...
-
八爪魚採集器
八爪魚採集器(軟著登字00547832號,2014SR149170)是深圳視界信息技術有限公司研發的一款業界領先的網頁採集軟體,具有使用簡單,功能強大等諸多優點。
產品信息 簡介 主要功能 產品優勢 -
安美奇採集器
安美奇採集器是一款應客戶要求而開發的爭對手網站信息內容採集器。
簡單版的使用方法 高級版內容介紹 -
新聞採集軟體
新聞採集軟體是根據有一定網站格式化結構的網頁來進行工作的,將網站裡的文章/新聞等內容採集到本地。
簡介 功能特點 使用技術 採集軟體 -
新聞採集系統
新聞採集系統是將非結構化的新聞文章從多個新聞來源網頁中抽取出來保存到結構化的資料庫中的軟體。
主要功能 主要技術 代表 -
seo關鍵字採集器
1.2搜搜關鍵字採集相關內容的規則, 1.3按有道關鍵字採集相關內容的規則, 1.4按yahoo關鍵字採集相關內容的規則,