論壇採集器簡介
論壇採集器核心技術論壇採集器核心技術是模式定義和模式匹配。模式屬於人工智慧的術語,意思為物體前人積累的經驗的抽象和升華。簡單地說,就是從不斷重複出現的事件中發現和抽象出的規律,是解決問題的經驗的總結。只要是一再重複出現的事物,就可能存在某種模式。
所以要讓論壇採集器能夠運行,目標論壇必須具備重複出現的特徵。目前大多論壇都是動態生成的,這樣就會讓同一模板的頁面包含相同的內容,論壇採集器正是利用這些相同的內容來定位採集數據的。
論壇採集器中的模式大多不是程式自動發現的,目前幾乎所有的論壇採集器產品都需要通過人工來定義。但模式本身是個很複雜,很抽象的內容,所以所有的開發者精力都花在怎樣讓模式定義更簡單,更準確,這也是論壇採集器競爭力的衡量標準。
但我們怎樣來描述模式呢,目前技術主要有兩種方式:正則表達式定義和文檔結構定義。
正則表達式定義
正則表達式定義是目前主流套用的技術,主要代表為火車頭採集器。此技術簡單,靈活性高。但用戶操作複雜。由於此模式作用於網頁的原始碼上,因此匹配的結果受代碼版面格式影響比較大,並且也不夠直觀,對比較複雜的頁面結構幾乎無能為力。 目前已經有幾款產品使用輔助工具來減低用戶的操作難度。
文檔結構定義
文檔結構定義應該說它是目前最先進的技術,已經具備一定的模式學習能力。主要代表為視采採集器。此模式作用於文檔這一層,不同於正則表達式作用於頁面原始碼。所謂文檔這一層,指的是原始碼運行後所生成的實際對象,即用戶在瀏覽器所看到的內容。所以操作可視化是此技術天生就具備的能力。
由於它是對文檔結構進行匹配,所以它不受頁面原始碼的影響,用戶定義比較直觀,並且程式能夠根據文檔對象獲取更多的邏輯上的特徵信息,匹配更準確,通用性更強。
此技術在學術研究論文上已經呈現過,也在幾家實驗室開發出此類產品。但真正在商業上套用很少。
常用論壇採集器介紹
視采論壇採集器
視采論壇採集器支持定時抓取,同步跟帖,附屬檔案下載,突破防盜鏈等。系統內置操作嚮導,手把手教你操作。很好的支持Discuz,PHPWind,動網(Dvbbs)等論壇採集。
系統特點
1)所見即所得用戶在可視化的頁面視圖上點擊所要採集的內容,並預覽採集結果
2)網站監視
定時監視目標網站的數據更新,自動採集更新數據。
3)智慧型化抽取
系統對半結構化數據進行語義分析,根據語義規則智慧型提取複雜多變的數據。
4)網站整站下載
支持無限深度、無限分頁的數據採集。支持跨頁數據發布。
5)全球資訊網WEB技術
採用WEB技術,用戶無需安裝客戶端便可使用。
6)特徵列表功能
區域預覽、特徵列表顯示,使規則定義準確、輕鬆。
7)多執行緒採集
系統多任務並發,多執行緒採集。支持執行緒的並發控制和狀態監視。
8)外掛程式支持
系統擁有豐富的外掛程式功能,支持各類目標的採集和各類系統的發布。
功能特點
1)論壇灌水採集別人論壇中的貼子為己有,天天自動灌水,瞬時提升論壇人氣。系統提供Discuz、PHPWind、動網(Dvbbs)等論壇的自動灌水外掛程式。用戶可以定製自己的自動灌水模組。
2)CMS內容採集
支持各類內容管理系統(CMS)的文章、新聞等數據的採集。系統提供織夢(DEDECMS)、動易(powereasy)、帝國(ECMS)等系統的採集外掛程式。用戶可以定製自己的採集模組。
3)部落格採集
採集各類新聞、文章到自己的部落格里,吸引流量。用戶可以定製自己的採集模組。
4)信息採集
可以採集客戶信息、產品數據和各種信息保存到本地中。
5)數據錄入
可以將各類客戶提交的電子檔案中的數據抽取出來,輸入到公司的業務系統中。
主要論壇採集器
樂思論壇採集器
一、 主要功能樂思論壇採集器的主要功能為:根據用戶自定義的任務配置,批量而精確地抽取目標論壇欄目中的主題帖與回復帖中的作者,標題,發布時間,內容,欄目等,轉化為為結構化的記錄,保存在本地資料庫中。
二、 系統特點
可以抽取所有主題帖或者最新主題帖內容
可以抽取某個主題帖的所有回覆帖或者最新回復帖的內容
支持命令行格式,可以Windows任務計畫器配合,定期抽取目標數據
支持記錄唯一索引,避免相同信息重複入庫
支持資料庫表結構完全自定義
保證信息的完整性與準確性
支持各種主流資料庫,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等
三、 運行環境
作業系統:Windows XP/NT/2000/2003
記憶體:最低32M記憶體,建議128M或以上
硬碟:最少20M空餘硬碟空間
四、 行業套用
樂思論壇採集系統主要用於:入口網站的專業論壇集成,市場調研機構的市場分析,競爭情報獲取。
入口網站
可以做到:
每天定時抽取目標論壇的信息(標題,作者,內容等)到資料庫中
利益:
輕鬆提供論壇門戶
企業套用
可以做到:
實時而準確地採集本企業的品牌以及競爭對手的品牌在各大論壇中的反饋情況
實時而準確地採集各大行業論壇中的信息,從中了解消費者的需求與反饋,從而發現市場趨勢與機會
利益:
快速而大量地獲取目標商業信息,立刻提高公司的市場行銷能力
廣告與市場研究機構
可以做到:
快速而大量地獲取目標論壇的各種原始信息到資料庫中
利益:
快速形成針對傳統品牌研究,網路用戶研究的的基礎資料庫
情緣論壇採集器
到目前為止情緣論壇採集器目前全面的支持了Disucz!、PHPWind、Dvbbs(動網)、BBSXP、6kbbs、VTBBS、DunkBBS、CVCbbs、leadbbs、LeoBBS(雷傲)、sfbbs四方論壇、phpbb、bbsgood、vBulletin、ofstar、喬客、TTsite(天天)、xuntan(迅壇)、5d6d、UU1001、ctb、lunqun等20多種論壇程式,具備了如下實用功能:會員批量註冊功能:可以在你的論壇一次註冊成千上萬個會員,讓你的新論壇一開始就會有大量的會員,還可以用它們在你的論壇發貼、回貼、看貼等。
會員批量上線功能:
刷論壇會員千人線上,讓你設定的會員在不同的版塊里查看貼子。目的:製造論壇千人線上氣氛,更容易吸引論壇新會員留下來。
內容批量採集功能:
可以採集網站/論壇的主題、回復,99%的網站/論壇均可以採集 ,支持把文章內容保存到本地。
禁止干擾碼功能:
對於含有干擾碼的文章、帖子,可以對它們內容中的干擾碼進行完全螢幕蔽。
錯誤文章、帖子地址替換功能:
對於錯誤的帖子、文章地址或者JS生成的帖子地址,可以用該功能把錯誤的部分替換為正確的帖子地址。
防重複採集功能:(情緣採集器獨有)
對已經採集的文章連結、附屬檔案連結軟體不會進行重複採集。
編碼轉換功能:
支持UTF-8轉換到GB2312,可採集內容字元格式為UTF-8的目標。
文章內容批量替換功能:
支持對文章內容中的文字、連結批量替換。
文章內容通配符過濾/替換功能:
支持文章內容中兩個關鍵字A到關鍵B之間的內容過濾或者替換。
文章內容關鍵字選取帖子功能:
軟體可以按你的要求對含有某某關鍵字的帖子進行選取。
批量會員隨機發貼功能:
軟體可以自動用設定的一千個論壇會員隨機在你的論壇發表採集下來的帖子/文章,讓你的論壇更真實。
文章主題分類功能:
軟體支持發貼時選擇論壇文章主題分類。
多版塊同時發貼功能:
軟體可以同時向論壇的幾個版塊一起批量發貼。
批量內容搬家功能:
可以把別人的論壇的帖子或者網站的文章全部按對方的順序採集下來發到你的論壇,讓你的論壇的帖子的內容和帖子的順序完全和被採集的論壇/網站的內容和順序一樣,就象是把他的論壇複製到你的空間上。 論壇、網站整站搬遷!
發貼時間延遲功能:
支持自定義發貼、回帖間隔時間。
論壇帖子批量增加人氣功能:
增加帖子的查看人數。目的:讓你的論壇內容讓人感覺瀏覽的人很多。
增加指定帖子人氣功能:
如果你只想增加某一帖子的人氣,讓此帖子看來很火爆,用該功能。
批量自定義回復功能:
可以在你的論壇的版塊里自定義選擇帖子隨機回復,讓別人感覺你的論壇回復的人很多。
指定單帖回復功能:
如果你想只回覆你的論壇的某一個特定的帖子,讓該帖子看起來很火暴,使用該功能。
批量帖子內容替換功能:
如果採集下來的帖子/文章裡面的有些內容你不想要,你可以使用改功能把他替換成你想要的文字。
關鍵字自動替換、插入功能(搜尋引擎最佳化):
帖子文章內容關鍵字自動替換、插入。
採集超級連線功能:
可以採集網站/論壇內容裡面的超級連線,包括各種附屬檔案的下載連線。適合無伺服器的中小論壇使用,可以直接把別人各種附屬檔案下載連線採集到你的論壇或者超級連線採集到你的論壇而不占論壇空間,用此功能,你只需要少量的空間就可以擁有一個大BT站所有的種子,讓你瞬間就可以建立一個大的BT論壇或者軟體論壇。
圖片 、視頻、Flash和附屬檔案本地化功能:
可以把被採集網站/論壇的各種附屬檔案、圖片等下載到本地,然後通過FTP把附屬檔案、圖片傳到你的網站空間,軟體會把內容的附屬檔案地址或者圖片地址替換成你的網站的圖片或者附屬檔案。用此功能最好有自己的伺服器,如果是空間的話傳一下附屬檔案你的空間就可能滿了。不過這樣你的論壇的圖片和附屬檔案功能不存在地址失效的問題。
同步採集更新功能:
讓你的網站和被採集的網站/論壇內容同步更新,對方有什麼新主題你也有什麼新主題