Orea敏感詞處理系統:OREA敏感詞處理系統是一款開源、高效、準確的敏 -百科知識中文網

特點

包括完整詞庫的Orea敏感詞處理系統僅147KB，在保證高命中率的前提下，實現了體積的最小化。

得益於對詞庫建設和代碼最佳化的高度重視，Orea敏感詞處理系統可以高速完成對敏感詞的識別、替換工作。在處理1k字時，在虛擬主機當中的平均處理耗時達到10^(-4)級，比Double-ArrayTree(DAR)算法更快（快20%）。

Orea敏感詞處理系統內置的OYW處理引擎可以高效判斷敏感詞是否存在（防誤報），能夠輕鬆應對敏感詞被空格、標點或者混淆詞隔開的情況（防漏報）。

Orea敏感詞處理系統與DAT比較

上表中的一二兩例反應了Orea對真敏感辭彙的鑑別能力，例三、四、五反應了Orea對敏感詞被惡意隔開時，仍能準確識別。最後一例中，DAT對敏感詞也進行了判別，但是在替換的時候，它採取了兩個一起替換的方法，所以導致誤報。Orea通過重寫替換函式，可以實現高效定點替換。

Orea會判斷敏感詞在文本中所占的比重，當所占比重超過一定限度時，Orea會直接讓這一文本作廢，返回系統提示文本。當文本中含多處敏感詞時，Orea亦能一網打盡。

Orea目前已開源，如果您只是研究、學習用途，您可以到github下載原始碼。