谷歌流感趨勢

Google流感趨勢(Google Flu Trends,GFT)是Google於2008年推出的一款預測流感的產品。Google認為,某些搜尋字詞有助於了解流感疫情。Google流感趨勢會根據匯總的Google搜尋數據,近乎實時地對全球當前的流感疫情進行估測。

名詞解釋

既能及早預警流感傳播的“谷歌流感趨勢”系統。

谷歌設計人員認為,人們輸入的搜尋關鍵字代表了他們的即時需要,反映出用戶情況。為便於建立關聯,設計人員編入“一攬子”流感關鍵字,包括溫度計、流感症狀、肌肉疼痛、胸悶等。只要用戶輸入這些關鍵字,系統就會展開跟蹤分析,創建地區流感圖表和流感地圖。為驗證“谷歌流感趨勢”預警系統的正確性,谷歌多次把測試結果與美國疾病控制和預防中心的報告做比對,證實兩者結論存在很大相關性。

失敗

大數據為研究人類行為和人與人之間大規模的互動提供了新的方式。然而,由於大數據的蒐集做不到像“小數據”那樣精確,因此分析解讀大數據是一件十分複雜的事。一項發表在《科學》雜誌政策論壇上的新研究利用“谷歌流感趨勢”(Google Flu Trends,GFT)作為範例,解釋了大數據分析為何會背離事實,並提出了大數據時代背景下一些值得思考的事。

谷歌發現某些搜尋關鍵字可以很好地標示流感疫情的現狀。GFT的工作原理就是使用經過匯總的谷歌搜尋數據來估測流感疫情,其預測結果將與美國疾病預防控制中心(Centers for Disease Control and Prevention,CDC)的監測報告相比對。但是2013年2月,《自然》雜誌發文指出,GFT預測的流感樣病例門診數超過了CDC根據全美各實驗室監測報告得出的預測結果的兩倍(但GFT的構建本來就是用來預測CDC的報告結果的)。

研究第一作者大衛·拉澤(David Lazer)認為造成這種結果的兩個重要原因分別是“大數據傲慢”(Big Data Hubris)和算法變化。

“大數據傲慢”指的是這樣一種觀點:即認為大數據可以完全取代傳統的數據收集方法,而非作為後者的補充。這種觀點的最大問題在於,絕大多數大數據與經過嚴謹科學試驗得到的數據之間存在很大的不同。

編寫一個將5000萬搜尋關鍵字與1152個數據點相匹配的算法是非常困難的,很有可能會出現過度擬合(將噪聲誤認為信號)的情況:很多關鍵字只是看似與流感相關,但實際上卻並無關聯。事實上,在2013年的報導之前,GFT就多次在很長一段時間內過高地估計了流感的流行情況。 2010年的一項研究發現,使用CDC的滯後預測報告(通常滯後兩周)來預測當前的流感疫情,其準確性甚至都高於GFT的預測結果。

谷歌搜尋引擎的算法並非一成不變的,谷歌對算法會進行不斷地調整和改進。而搜尋引擎算法的改變和用戶的搜尋行為會影響GFT的預測結果,比如媒體對於流感流行的報導會增加與流感相關的辭彙的搜尋次數,進而影響GFT的預測。

另外,相關搜尋(People also search for)的算法也會對GFT造成影響。例如搜尋“發燒”,相關搜尋中會給出關鍵字“流感”,而搜尋“咳嗽”則會給出“普通感冒”。

除此以外,搜尋建議(recommended search)也會進一步增加某些熱門辭彙的搜尋頻率。

因為GFT會在它的模型中使用相對流行的關鍵字,所以搜尋引擎算法對GFT的預測結果會產生不利影響。奇怪的是,GFT在構建時是基於這樣一種假設:特定關鍵字的相對搜尋量和特定事件之間存在相關性,問題是用戶的搜尋行為並不僅僅受外部事件影響,它還受服務提供商影響。

谷歌流感趨勢 谷歌流感趨勢

相關詞條

相關搜尋

熱門詞條

聯絡我們