社交網路
社交網路是項新鮮事物,在國際國內迅速發展,其社會、經濟、文化和科技意義十分重大,但理論研究還跟不上實際套用。社交網路成員影響力-網熵指數課題就是在此大氣候下,以促進社交網路健康發展為宗旨,應運而生 。
目前國際國內對社交網路影響力的研究主要分為三類:1) 社交網路成員單平台內影響力分析;2) 社交網路成員多平台間影響力分析;3) 社交網路運營商的影響力分析。社交網熵指數屬於社交網路成員多平台間影響力分析。2011年5月17日,英國著名報紙星期日泰晤士報(Sunday Times)首次發表英國社交網路的2000名社交排行榜(The Social List) 。美國的一家網站Famecount 綜合臉書、推特和圖片網庫(YouTube)三家網路平台的排行指標,對國際名人和企業品牌列出唯一指數的排行榜。
計算模型
社交網路的主要組成來自以下方面:部落格、微博和Web搜尋等 。如果某部落格排行第一的部落格總流量為 Pj,某博主X的部落格流量為Xj,其部落格流量比為:pj =Xj/Pj;某微博排行第一的冬粉數為Pj+1,某博主X的冬粉數為Xj+1,其微搏冬粉比為:pj+1 = Xj+1/Pj+1;其它項目以此類推。博主X對社交網路的主要組成的評價比集合為{p1,p2, ..., pn},j= 1, ..., n。表達各組成部分重要程度的權重集合為:{ a1,a2, ..., an },∑aj = 1。由此,博主X對在社交網路的基本影響力為:
m = ∑ aj pj,j = 1, ..., n, (1)
使用m來評價某博主X對網路社交媒體的影響力比較簡單、明了。但一般的博主在部落格、微博和Web搜尋等方面的信息傳播和影響分布是不均衡的。例如,影星徐靜蕾在新浪部落格總流量排第十名,但由於種種原因,其在新浪微博關閉, 有關微博的指標為零。在這種各組成部分評價指標不均勻的分布現象,使得(1)式的套用大打折扣,實際意義不大。
對於信息傳播不均勻的分布現象,也可以用信息熵 來衡量,信息熵定義為評價社交網路成員的信息量在各種渠道如部落格、微博和Web搜尋傳播指標的修正係數,對(1)式進行修正。
在使用信息熵計算公式之前,應先將集合{p1, p2,..., pn}校正,讓其之和歸一。
qj = pj /n+1, j = 1, ...,n。 (2)
q n+1 = 1- ∑ qj j = 1, ..., n。 (3)
q1, q2,..., qn, 表示各項目已發生信息傳遞的指標,q n+1 表示各項目未發生信息傳遞的指標之和,則有:∑qj = 1, j = 1, ..., n+1。信息不均勻傳播修正係數應為:
h (q1, q2,..., qn, qn+1) = ∑ - qj Logn+1 (qj), j = 1, ..., n+1, (4)
式中,Logn+1為以n+1為底的對數。h值介於[0,1]之間。
由(1)和(4)式,修正後的博主X對網路社交媒體的影響力-W熵指數絕對值為:
w–entropy = h * m (5)
為表達方便,式(5)進行非線性轉換,並乘以100,以第一名博主即w–entropy的最大值為基數,得出相對網熵指數相對值如(6)式,其值介於[0,100]。
W–entropy = w–entropy /wmax–entropy (6)
信息系統
社交網路成員影響力-網熵指數排行系統是以信息理論 為基礎、數學模型和計算方法完整獨立的、由網路技術支撐的信息系統。總體設計有四大主要部分組成:
1) 信息獲取。使用Web搜尋技術[5],建立社交網路成員數據獲取模組,系統設計虛擬“機器蜘蛛”自動在網路上獲取數據。
2) 數據處理。使用Web數據挖掘等人工智慧技術,建立社交網路成員數據處理模組,自動對數據進行過濾、去重、索引等知識挖掘業務。
3) 網熵計算。使用社交網路成員影響力-W熵指數的理論和算法 ,建立社交網路成員網熵指數計算模組,自動實現各成員的W熵指數計算和排序。
4) 前端顯示。使用Web相關的資料庫、網頁技術等,建立網熵指數入口網站前端顯示系統,進一步將實現人機互動界面。
社交網熵指數入口網站信息系統尚處於測試階段。系統構成和功能將在以後各方同仁和用戶的建議下,不斷更新完善。