概念
同時,基於快閃索引技術的莫大搜尋引擎保證了海量數據能夠以天為單位更新,而不像其它產品按月或者季度。其實一旦使用,你就會發現,相比其它產品(例如 alexa的搜尋分析),莫大提供的搜尋數據信息更為全面和準確。
莫大對數據進行嚴格的匿名化和規範化處理,通常我們只顯示數據的相對值,比如我們顯示關鍵字 A 和關鍵字 B 的流量百分比,而不會顯示其絕對值。
數據與方式
莫大的數據來源和統計方法和流量統計是不一樣的,網站流量統計工具通常使用嵌入在網站上的 JavaScript 跟蹤代碼進行數據採集,由於用戶瀏覽網頁的不確定性,跟蹤代碼並不會百分之百發揮作用,所以即使是相同跟蹤代碼技術,當使用不同的流量統計工具,數據也會不一樣。在莫大提供的數據中除了可以為網站產生流量的數據之外,還包括“可能會產生流量”的數據,比如,網站在某個關鍵字的搜尋排名在百度上是第 17 名,雖然用戶並沒有點擊該連結產生流量,但這樣的“潛在流量”數據將會出現在莫大的數據報告之中。
莫大數據之道
莫大目前所有產品的數據均來自於 3 個渠道,莫大的快閃搜尋引擎,莫大搜尋工具和搜尋工具框,以及莫大的數據合作夥伴。
基於快閃索引技術的莫大搜尋引擎每天以極高的速度遍歷中文網際網路上的主流網站,每月更新超過 12 TB 的數據。結合先進的中文分詞技術和語意分析技術,莫大搜尋引擎積累了擁有 150 萬分行業的中文網站關鍵字及連結資料庫。
莫大搜尋工具是面向多箇中文搜尋引擎(百度、谷歌、雅虎、搜搜、搜狗、有道、必應)的搜尋聚合平台,當用戶使用搜尋工具進行關鍵字搜尋和網頁搜尋時,搜尋工具會將搜尋請求分別轉發給多箇中文搜尋引擎,並將分析和整理後的數據返回給用戶。莫大將這些用戶驅動產生的數據進行存儲,並對其進行歷史變化趨勢的分析。結合我們的數據合作夥伴(搜尋引擎、工具條、流量統計工具)及莫大的機器人農場網路,我們每月的搜尋數據更新量超過 20 TB。
莫大將這幾種數據源綜合起來,首先對數據進行嚴格的匿名化和規範化處理,其後對數據進行深入挖掘,最終將其轉化為呈現給用戶的可視化商業信息。到現在,莫大管理的線上數據總量已經超過 200 TB,其中包括開放給用戶使用的 2000 萬商業關鍵字資料庫和 150 萬個中文網站連結資料庫。
搜尋數據
搜尋數據是指用戶在使用搜尋引擎中產生的數據,主要由關鍵字、搜尋量、網頁結果、排名趨勢等信息組成。中國網際網路用戶每月的搜尋查詢量高達幾百億次,通過搜尋引擎,流量被源源不斷的從用戶輸送到網站,在這些查詢、瀏覽和點擊中,蘊含著不可估量的商業價值。