網站採集

網站採集

網站管理員希望將別人的整站數據下載到自己的網站裡或者將別人網站的一些內容保存到自己的伺服器上。從內容中抽取相關的欄位,發布到自己的網站系統中。有時需要將網頁相關的檔案也保存到本地,如圖片、附屬檔案等。

網站採集

網站管理員會定時從同一網站上抓取內容,希望已經抓取的內容不要再發布到網站系統中。對於一些網站,需要登入才能獲取頁面。網站管理員希望通能夠通過一個內容列表頁面獲取所有的相關內容,包括內容列表的其它分頁。當第二次抓取相同網站時,希望不要再重複第一次的設定。

信息採集

網站管理員從網際網路中收集各類圖片、笑話、新聞、技術等各類信息,然後分類、編輯,發布到自己的網站系統中。網站管理員一般通過搜尋引擎搜尋各類關鍵字獲取目標網址,然後再提取網頁中的內容。關鍵字的組織決定獲取內容的準確性和數量。由於內容來自不同的網站,所以提取內容的方法也各不相同。對於某一類的信息,發布到網站系統的數據結構是相同的。

網站管理員對站內進行搜尋,將相關的內容在首頁上進行編排和索引。

企業從網際網路上搜尋email和電話號碼,並且能夠查看該信息的相關信息,以便了解該對象的基本情況。企業希望能夠搜尋某一類別的客戶信息,如這個客戶屬於女性,年齡為20到30歲等。並且能夠將採集到的對象信息保存到企業內部的客戶管理系統中。

企業需要了解某一產品的信息,希望得到該類產品的報價、廠商等,以及這些信息的對比情況。並且能夠得到報價、廠商的近一步信息。這些信息希望能夠保存到企業的內部的ERP系統或其它系統中。

數據結構化

企業辦公產生的電子文檔,客戶提交的客戶資料等這些數據,一般需要大量的人力手工輸入到企業的ERP系統或信息系統中,企業希望能夠通過軟體從這些文檔中抽取相關的數據自動導入到系統中。這些數據一般都有固定的模板格式,並且同一類文檔的模板格式是相同的。如客戶的家庭信息,客戶1和客戶2的模板格式是一樣的,只是內容不一樣。

相關詞條

相關搜尋

熱門詞條

聯絡我們