背景
網際網路社區在2010年取得了高速的發展,網路論壇(BBS)/討論組/論壇社區/SNS/微博等的套用逐漸獲得用戶的高度關注,成為基礎的網際網路套用。從入口網站到行業網站,從地區門戶到個人站點,相當一部分網站均擁有獨立社區。 2010年中國網路社區類型分布中,門戶社區處於首位,34.1%的網路社區站長選擇經營門戶社區,其次是生活和互動娛樂類的網路社區,占比分別為19.9%和19.4%。在論壇迅速發展的同時,垃圾信息也越來越猖獗。散布垃圾連結對提高網站在搜尋引擎的自然排名有很大幫助,這
是眾多SEO手法中最簡單,成本相對較低的一種。這種做法可以大幅增加網站的流量,達到增收的目的,這是利用論壇的技術與管理的雙重漏洞而進行不道德牟利。為了快速直接看見的利益,很多網站與了進來,特別是一些剛剛起步需要快速增加流量和收入的網站。垃圾信息對用戶體驗影響非常大,同時也在網際網路上形成了一種惡性信息盜用的扭曲風氣。
此外,根據調查顯示所有社區類型中門戶綜合類、娛樂類和女性類最容易遭受到註冊機、發帖機或者其他類型的廣告垃圾信息的攻擊。
註冊機、廣告貼、垃圾信息是論壇所有者的大麻煩,目前的問題包括:
- 註冊機、廣告發帖機泛濫,而且技術不斷提升,如繞過註冊、能識別驗證碼等。
- 目前大多數論壇管理者採用的是本地掃描外掛程式,功能不全面,沒有自學習功能,需要不斷更新阻止列表,此外,本地掃描還會耗費系統資源。
很多論壇採取了很多限制新手的措施
來限制垃圾廣告貼的出現,如,限制新手發帖時間、發帖數、需要做新手任務才能發帖、需要上傳頭像才能發帖等,雖然一定程度上防止了垃圾信息,但同時大大降低了新手體驗。
論壇盾概述
論壇盾針對最困擾論壇管理者的廣告垃圾和敏感詞問題,幫助論壇管理者辨別和自動處理廣告垃圾和敏感詞。除此之外還向論壇提供基本安全監測服務。
- 產品名稱:論壇盾(forum shield)
- 產品形態:Discuz!外掛程式(目前支持7.2)
- 版本:beta for Discuz!7.2
- 核心價值
論壇盾作用
攔截廣告垃圾信息安裝論壇盾後,用戶發布的所有信息都會先經過廣告垃圾過濾器,判斷為正常的信息會直接發布,可疑的廣告垃圾信息會被列入隔離區,需要版主或管理員進行審核後才可以發布。此外,廣告垃圾過濾器還會記錄管理員或版主的操作,如果人工判斷為誤報,則會進行分析降低對應信息內容的危害程度,避免多次誤報。智慧型過濾敏感詞
相比廣告垃圾,敏感詞問題發生頻率不那么高,但對於論壇來說是“生死存亡”的問題,一旦論壇出現“不該出現”的內容就會被監管機構盯上,甚至被迫關閉。
用戶發布信息時,會先經過智慧型敏感詞過濾系統,一旦發現敏感詞,該系統會用設定的字元進行替換處理,減少論壇管理者的工作量。
論壇管理者每天會花大量時間去查找和清除廣告垃圾信息,以保證論壇內容質量。但是人工處理難免會有疏漏,一旦廣告垃圾信息出現在論壇會嚴重影響論壇的形象和瀏覽論壇的用戶,甚至造成用戶流失。
降低運營成本安裝論壇盾後,可以減少論壇管理者的工作量和工作時間。此外,一旦出現掛馬事件管理者能第一時間知道,並根據提示路徑清除掛馬,縮短影響時間,最大程度減少論壇的損失。
基礎功能永久免費我們承諾,所有基本功能包括:
- 廣告垃圾處理;
- 敏感詞處理;
- 自學習廣告垃圾檢測規則及敏感詞雲更新;
- 論壇安全監控服務:掛馬監控;
- 論壇安全體檢服務:漏洞掃描。
SLA
論壇管理員通過開通賬號升級高級用戶。普通用戶和高級用戶均為免費用戶。使用流程
安裝安裝外掛程式前, 需要先確認Discuz!平台是否為外掛程式當前對應版本,如論壇盾提供Discuz!7.2版本。
獲得論壇盾的安裝檔案為一個壓縮檔,論壇管理員需要先把壓縮檔解壓,放到指定路徑中,
然後在Discuz!管理中心進行安裝。
安裝完畢之後提交外掛程式才能正常使用。
版主在廣告垃圾分頁管理許可權範圍內的廣告垃圾帖。
管理員可以在“管理中心-外掛程式-論壇盾-隔離區”管理廣告垃圾帖。如右圖所示安裝論壇盾後在版主登錄後會看到“廣告垃圾”分頁,進入該分頁後可以管理許可權範圍內的廣告垃圾。
如左圖所示,管理員也可以進入管理中心的隔離區管理廣告垃圾。
處理方法包括:
刪除-在從列表中永久刪除該主題/回復/短訊息。刪除後該信息不會出現在論壇中,短訊息也不會傳送給目標對象。
誤報-版主或管理員認為該信息不是廣告垃圾,向論壇盾提出“誤報”,論壇盾會再次分析該信息,調整廣告垃圾分析規則。
忽略-僅從廣告垃圾分頁或隔離區列表移除。設定
在升級為高級用戶後,管理員可以設定兩個引擎的狀態。
舉報當版主或管理員在瀏覽論壇時可以對廣告垃圾進行舉報。
如右圖所示,安裝論壇盾後會在每個主題/回復下出現“廣告垃圾”功能,通過該功能向論壇盾舉報廣告垃圾,論壇盾會記錄舉報內容,調整廣告垃圾分析規則以提升論壇盾的準確率。因此,在前期為了快速提升論壇盾準確率,我們建議版主和管理員能多進行舉報。技術原理及優勢
分類器對論壇的所有者來說,識別垃圾廣告帖子和回復,就是判斷一個帖子內容是正常的帖子還是非正常(垃圾、廣告)的過程,這個過程本質上是一種文本分類問題。目前,解決文本分類問題業內有很多成熟的技術,從原理上說主要分為兩類:基於規則和基於統計學的方法。從技術實現上來說有決策樹、貝葉斯分類器和支持向量機等方法。
基於規則的方法就是在帖子內容中尋找特定的模式,其優點是規則靈活,時效性強,效率高,具有很強的解釋性,容易被人理解。缺點是規則的生成需要人工的參與,因此規則的生成效率較低。
規則舉例:
規則1:內容含有“聯繫電話”的為廣告。
規則2:內容字數少於10個字,且沒有URL的為正常。
基於統計的方法就是通過機器學習的方法,從大量的垃圾內容和正常內容的樣本中,訓練出一個分類器。然後通過這個分類器對帖子內容進行打分,分值超過特定閾值的帖子可以被認為是廣告垃圾回復。
基於統計的方法的優點是基於大量的數據分析得出的分類器,跟類結果準確,只要訓練及時,誤報率和漏報率都能夠達到較好的水平。缺點就是結果的解釋性沒有基於規則的結果直觀,另外分類器對錯誤的糾正能力需要有一個時間,不如規則的實效性好。
綜合以上兩種方法的優缺點,論壇盾綜合的採用了以上兩種方法,以基於統計的分類器方法為主導、各種相關規則為輔助補充的方法來解決廣告內容的檢測。除了經典方法的使用,我們還具有以下幾個特點:
- 海量樣本收集:依託於綠盟科技分散式處理平台,實時的對網際網路的垃圾廣告相關的信息進行抓取和分析,不斷的積累垃圾內容的樣本集合。
- 自然語言處理:採用中文分詞、語義分析等特徵識別和抽取技術,有效的將文本內容的特徵提取出來,為分類器準確的得出分類結果提供了基礎。
- 信譽積累:通過海量的廣告文本的訓練、處理和分析,將廣告信息的獨特特徵積累和記錄下來,匯總到綠盟科技信譽庫中。
關鍵字檢測本質上是多字元串匹配的問題。既給出一段文本,找出裡面是否包含關鍵字型檔裡面的關鍵字。論壇盾的技術實現上主要分為以下兩個方面:
- 基於確定有限自動機(Deterministic Finite automaton,DFA)的多字元串匹配檢測引擎,實時對文本進行關鍵字檢測。論壇盾的關鍵字檢測以SaaS模式提供服務,不占用論壇的本地伺服器資源,既可以對大量的關鍵字進行過濾。
-動態關鍵字型檔:關鍵字型檔是綠盟科技WEB信譽庫的組成部分,是經過實時收集、驗證和人工審核後積累出的關鍵字列表,每個關鍵字都具有類別、標籤、級別等屬性,來滿足不同用戶的不同檢測需求。
綠盟科技簡介
綠盟科技公司(NSFOCUSINFORMATION TECHNOLOGY CO.,LTD.)成立於2000年4月,是中國第一批專業網路安全產品和服務公司之一。在多年的發展過程中,獲得了不同行業的近千家客戶的認同,並已經成為國內領先的專業安全產品和服務提供商。
綠盟科技自成立以來一直以作為“巨人背後的安全專家”為己任,全力為客戶服務,本著“誠信為本、客戶至上、專業服務、面向國際”的宗旨,匯聚了國內安全領域最優秀的技術研究、產品開發和服務實施隊伍。多年來,開發出多款具有國內國際領先水平的安全產品,並通過獨立的服務部門為用戶提供專業的安全服務體系。