簡介
微信公眾號信息採集(微爬蟲)系統,是由廈門數騰信息科技有限公司 研發的,專注於微信公眾號的搜尋、監控、採集及分類篩選的系統。該系統在移動網際網路領域信息採集、信息監控方面的全新產品,具有公眾號覆蓋全面、公眾號信息採集快捷、多維角度分類篩選等特點。公司簡介
微信公眾號信息採集(微爬蟲)系統是由廈門數騰信息科技有限公司所研發的,廈門數騰信息科技有限公司是國內權威的大數據爬蟲系統、網際網路商業情報挖掘系統及輿情系統軟體的研發機構。公司擁有多年的網際網路數據挖掘與信息處理經驗,在網際網路信息抓取、自然語言分析和數據分析方面有深厚的技術背景。廈門數騰信息科技有限公司團隊包含各個領域的專業人員和網際網路技術專家,有睿智的市場策劃團隊、優質的測試團隊、專業的調研團隊以及經驗豐富的程式和客服人員等。數騰軟體成立至今,一直致力於輿情監測相關技術的研發與創新,為政府、企業、機構以及各類組織提供全方位的輿情監測、分析報告、危機預警和網際網路危機公關處理為一體的整體解決方案。
主要功能
基礎功能
1、關鍵字管理:創建關注的關鍵字、系統將自動蒐集及監控含有此類關鍵字的微信公眾號。
2、公眾號查詢:查詢具體關注的公眾號,系統自動運算公眾號的發文頻率。3、文章查詢:文章內容檢索。
大數據支撐平台
平台包括:調度監控引擎、UIMA流計算平台、分散式計算平台、發布工具和建模工具。數據分析
1、非結構化數據抽取:網頁上的信息多為非結構化文本數據,通過獨特的數據抽取技術,能轉換為結構化的可索引結構;並支持文檔矢量化特性,供各類文本分析算法使用。
2、網際網路網頁智慧型清洗:普通網頁上超過70%為雜質信息,通過適用於網頁的智慧型清洗技術,我們可以獲取到準確的標題、正文等關鍵內容,排除掉各類網頁廣告和無關信息,提高閱讀及分析精度。
3、網頁模式挖掘:對同一類的網頁,系統可以自動發現其模式,並根據該模式進行清洗及信息提取。我們擁有完全無監督的機器學習算法,極大的提高了生產力及客戶操作的便利性。
4、指紋去重及轉載分析:每一篇文檔都擁有其特徵,我們將其特徵編碼為語義指紋,存儲在系統中;通過比對指紋,可以獲得重複信息,並跟蹤同樣文章的轉載情況。對於更為複雜的套用場景,同樣支持基於文本相似度的比對算法。
5、文本相關性挖掘:在內容發布網站、網頁廣告、文檔庫、案例庫等套用中,有時需要提供與當前內容相關的其他內容,此時需要對指定資料庫進行文本相關性挖掘。我們提供基於海量文本資料庫的文本相關性挖掘算法。
分散式雲爬蟲技術
數騰分散式雲爬蟲系統具有效性、高效性、可擴展性、可控性的提點,技術路線主要有:
1、爬蟲系統基於數騰分散式流數據計算平台實現,執行採集任務,最大限度利用資源,平衡資料利用率。
2、在對某些網站進行高頻率採集時,可能會遭到對方的IP封鎖。針對這種情況,採用多條adsl線路,並使用adsl池技術動態切換爬蟲IP達到破解封鎖的需求。
3、通過模板技術實現智慧型提取功能,在模板中定義數據提取規則,對數據按需求格式化存儲。採用xpath選擇器,jsoup選擇器,正則表達式等提取採集信息中所關心的數據。如果網站的模板發生了改變,在處理過程中會傳送錯誤信息至爬蟲運維平台,運維人員監控到該錯誤信息後,即可重新配置模板。
4、當爬取資源不足時,可以隨時增加機器至數騰雲爬蟲系統中而不影響當前的系統運行。