簡介
呼倫貝爾算法於2015年12月12日上線,是世界工廠網發明的為了更好的為採購經理提供最為優質、純淨、陽光的體驗的一種新算法,通過此算法的上線和不斷的最佳化,給採購經理提供像『呼倫貝爾大草原』般純淨、美麗、心曠神怡的環境,呼倫貝爾這個名字,隱含著世界工廠網對更好的採購市場環境的一種期待,同時,呼倫貝爾是世界工廠網V3供應商發展與管理體系中重要的一個運算法則,旨在打擊利用世界工廠網針對搜尋引擎的惡意SEO行為,這些惡意行為包括但不限於人工或者使用軟體發布的大量低質量和重複信息。
優勢
1.提高採購效率
採購會員是世界工廠網最核心的服務對象,做極致的工業品採購體驗,是世界工廠網一直以來從未改變的初心,有呼倫貝爾算法的支撐,採購會員能夠不斷降低採購成本、進一步提高採購效率、進一步節省採購時間,並能夠有愉悅的產品使用體驗。
2.打擊惡意SEO行為
對於任何影響到採購體驗的用戶行為,世界工廠網都會持續的投入資源和力量去制止規範,保證產品的良性成長和更好的用戶體驗。呼倫貝爾算法旨在打擊利用世界工廠網針對搜尋引擎的惡意SEO行為,這些惡意行為包括但不限於人工或者使用軟體發布的大量低質量和重複信息。
3.產品信息快速識別
面對數百萬供應商發布的超過3億條產品信息,以及每天新上架的數十萬個新產品,世界工廠網海量數據的分析處理技術為供應商所發布的每一條產品信息都建立了4套指紋體系,涉及到每一個上架產品的名稱、屬性、詳情、發布時間等數十種緯度,依靠穩健的雲端伺服器運算集群,每個上架在世界工廠網的產品信息會在1分鐘內,被系統識別出是否違反呼倫貝爾算法規則。
技術實現
1.數據過濾處理將文章中的html標籤,特殊字元等進行過濾。
2.分詞處理
將文章按照詞義進行分詞,去掉噪音詞及停止詞,根據詞語出現頻率得到詞語的詞頻即權重信息。
3.simhash計算處理
利用simhash技術,將特定的信息進行文檔化數位化處理,並記錄到資料庫。
4.漢明距離計算
對新進的信息進行漢明距離計算,並判斷其漢明距離是否符合規定範圍,如果不在規定範圍內則判斷為重複,進行下架並提示與之重複的商品id。
目的
呼倫貝爾算法旨在讓世界工廠網的用戶體驗最為優質、純淨、陽光的採購市場環境,同時讓供應商建立更多的客戶關係,提高利潤和持續經營能力,在這種良性的運營體系下,供應商可以從複雜的的行銷工作中解放出來,把更多的精力專注於自身的產品優勢與和服務質量,在未來的商業競爭中不斷前行。
成果
世界工廠網已經向站內的幾百萬家供應商分享了世界工廠網對惡意SEO行為的態度,經過一段時間的觀察,很多供應商已經停止了這些惡意行為,並且在完善被下架的產品信息後重新獲得了上架的機會,不斷積累自己的信用評分,這對世界工廠網朝著更好的採購體驗,建設更加純淨透明的採購市場是難能可貴的。
伴隨著呼倫貝爾算法的上線,世界工廠網V3版的運營體系能夠讓供應商用戶收穫遠超預期的訂單。