網路信息採集

網路信息採集

《網路信息採集》是2007年8月1日中央廣播電視大學出版社出版的圖書。

基本信息

內容簡介

《網路信息採集》是根據中央廣播電視大學電子信息類計算機網路技術專業教學大綱的要求編寫的理論教學與實訓相結合的合一型教材。全書共分為6章,第1章是網路信息資源概述;第2章介紹網路信息採集技術;第3章介紹搜尋引擎;第4章介紹其他信息採集工具的使用;第5章介紹多媒體素材的採集;第6章介紹網路內容原創。《網路信息採集》根據課程特點以及適應學習者自主學習的要求,以生動性和實用性為主,並配有學習內容、學習目標、思考與練習、實訓練習等。《網路信息採集》可以作為廣播電視大學、高職高專的教材,也可作為網路編輯員國家職業資格的考證培訓用書,以及作為從事網路編輯工作的相關人員崗位培訓及自學的參考教材。

目錄

1 網路信息資源概述

2 網路信息採集技術介紹

3 搜尋引擎及其使用

4 其他信息採集工具的使用

5 多媒體素材的採集

6 網路內容原創

信息採集系統

一、系統概述

要理解網路信息採集系統?首先我們要弄清楚什麼是“信息採集”信息採集是指利用計算機軟體技術,針對定製的目標數據源,實時進行信息採集、抽取、挖掘、處理,從而為各種信息服務系統提供數據輸入的整個過程。

要求從網際網路上對特定目標數據源或不特定目標數據源進行採集與監控,並對信息進行結構化抽取保存為本地結構化資料庫,然後按業務流程需求與其它模組結合,導入與套用並服務於到電子行業平台。

網際網路數據採集與挖掘技術是指利用計算機軟體技術,針對定製的目標數據源,實時進行信息採集、抽取、挖掘、處理,從而為各種信息服務系統提供數據輸入,並按業務所需,進行數據發布、分析的整個過程。

二、網路信息採集系統流程

各種網路信息採集系統的詳細流程可能不太一樣,但是基本的思路是一致的,下面以通用的樂思網路信息採集系統為例子,介紹一下基本的步驟

第一步:確定採集任務。

第二步:針對不同的目標數據源,進行不同的採集配置,以確保能採集到數據。

第三步:調度採集任務,與目標站點同步更新,增量採集。

第四步:採集到數據結果,完成數據異構到同構的過程。

第五步:通過發布伺服器,將數據發布到套用平台。

三、 系統特點

本系統最大的特點是:採集方法的靈活性與採集數據的準確性

靈活性:任何複雜的查詢與頁面布局都可以靈活處理

準確性:結果數據高度準確(99%-100%)

對目標網站進行信息自動抓取,支持HTML頁面內各種數據的採集,如文本信息,URL,數字,日期,圖片等

用戶對每類信息自定義來源與分類

可以下載圖片與各類檔案

支持用戶名與密碼自動登錄

支持命令行格式,可以Windows任務計畫器配合,定期抽取目標網站

支持記錄唯一索引,避免相同信息重複入庫

支持智慧型替換功能,可以將內容中嵌入的所有的無關部分如廣告去除

支持多頁面文章內容自動抽取與合併

支持下一頁自動瀏覽功能

支持直接提交表單

支持模擬提交表單

支持動作腳本

支持從一個頁面中抽取多個數據表

支持數據的多種後期處理方式

數據直接進入資料庫而不是檔案中,因此與利用這些數據的網站程式或者桌面程式之間 沒有任何耦合

支持資料庫表結構完全自定義,充分利用現有系統

支持多個欄目的信息採集可用同一配置一對多處理

保證信息的完整性與準確性,絕不會出現亂碼

支持所有主流資料庫:MS SQL Server, Oracle, DB2, MySQL, Sybase, Interbase, MS Access等

相關詞條

相關搜尋

熱門詞條

聯絡我們