新聞採集系統:新聞採集系統是將非結構化的新聞文章從多個新聞來源網頁中抽取 -百科知識中文網

主要功能

根據用戶自定義的任務配置，批量而精確地抽取目標網路媒體欄目中的新聞或文章，轉化為為結構化的記錄(標題，作者，內容，採集時間，來源，分類，相關圖片等)，保存在本地資料庫中，用於內部使用或外網發布，快速實現外部信息的獲取。

新聞採集系統核心技術是模式定義和模式匹配。模式屬於人工智慧的術語，意思為前人積累的經驗的抽象和升華。簡單地說，就是從不斷重複出現的事件中發現和抽象出的規律，是解決問題的經驗的總結。只要是一再重複出現的事物，就可能存在某種模式。

所以要讓新聞採集系統能夠運行，目標網站必須具備重複出現的特徵。大多網站都是動態生成的，這樣就會讓同一模板的頁面包含相同的內容，新聞採集系統正是利用這些相同的內容來定位採集數據的。

新聞採集系統中的模式大多不是程式自動發現的，幾乎所有的新聞採集系統產品都需要通過人工來定義。但模式本身是個很複雜，很抽象的內容，所以所有的開發者精力都花在怎樣讓模式定義更簡單，更準確，這也是新聞採集系統競爭力的衡量標準。

但我們怎樣來描述模式呢，技術主要有兩種方式：正則表達式定義和文檔結構定義。

正則表達式定義

正則表達式定義是主流套用的技術，主要代表為火車頭採集器。此技術簡單，靈活性高。但用戶操作複雜。由於此模式作用於網頁的原始碼上，因此匹配的結果受代碼版面格式影響比較大，並且也不夠直觀，對比較複雜的頁面結構幾乎無能為力。已經有幾款產品使用輔助工具來減低用戶的操作難度。

文檔結構定義

文檔結構定義應該說它是目前最先進的技術，主要代表為視采採集器。已經具備一定的模式學習能力。此模式作用於文檔這一層，不同於正則表達式作用於頁面原始碼。所謂文檔這一層，指的是原始碼運行後所生成的實際對象，即用戶在瀏覽器所看到的內容。所以操作可視化是此技術天生就具備的能力。

由於它是對文檔結構進行匹配，所以它不受頁面原始碼的影響，用戶定義比較直觀，並且程式能夠根據文檔對象獲取更多的邏輯上的特徵信息，匹配更準確，通用性更強。

此技術在學術研究論文上已經呈現過，也在幾家實驗室開發出此類產品。但真正在商業上套用很少。

已知能夠面向普通大眾的，只有DM實驗室推出的視采採集器，該產品不僅在技術起點上比較高，而且在用戶使用這一層上，所獨有的實時用戶操作嚮導功能也是讓人驚奇的，此技術讓專業級操作變為傻瓜式操作，真是科學讓一切變為可能！

視采新聞採集器；萬能新聞採集器；新浪新聞採集器