目的
通常來說,情感分析的目的是為了找出說話者/作者在某些話題上或者針對一個文本兩極的觀點的態度。這個態度或許是他或她的個人判斷或是評估,也許是他當時的情感狀態(就是說,作者在做出這個言論時的情緒狀態),或是作者有意向的情感交流(就是作者想要讀者所體驗的情緒)。
概念
這是計算機世界的一個尚未開發的前沿:將各種人類情感轉化成實實在在的數據。
情感分析(Sentiment analysis),又稱傾向性分析,意見抽取(Opinion extraction),意見挖掘(Opinion mining),情感挖掘(Sentiment mining),主觀分析(Subjectivity analysis),它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,如從評論文本中分析用戶對“數位相機”的“變焦、價格、大小、重量、閃光、易用性”等屬性的情感傾向。
研究方法
監督學習
目前,基於監督學習的情感分析仍然是主流,除了(Li et al.,2009)基於非負矩陣三分解(Non-negative Matrix Tri-factorization),(Abbasi et al.,2008)基於遺傳算法(Genetic Algorithm)的情感分析之外,使用的最多的監督學習算法是樸素貝葉斯,k最近鄰(k-Nearest Neighbor,k-NN),最大熵和支持向量機的。而對於算法的改進主要在對文本的預處理階段。
基於規則/無監督學習
和基於監督學習的情感分析相比,基於規則和無監督學習方面的研究不是很多。除了(Turney,2002)之外,(朱嫣嵐 et al.,2002)利用HowNet對中文詞語語義的進行了情感傾向計算。(婁德成 et al.,2006)利用句法結構和依存關係對中文句子語義進行了情感分析,(Hiroshi et al.,2004)通過改造一個基於規則的機器翻譯器實現日文短語級情感分析,(Zagibalov et al.,2008)在(Turney,2002)的SO-PMI算法的基礎上通過對於中文文本特徵的深入分析以及引入疊代機制從而在很大程度上提高了無監督學習情感分析的準確率。
跨領域情感分析
跨領域情感分析在情感分析中是一個新興的領域,目前在這方面的研究不是很多,主要原因是目前的研究還沒有很好的解決如何尋找兩個領域之間的一種映射關係,或者說如何尋找兩個領域之間特徵權值之間的平衡關係。對於跨領域情感分析的研究開始於(Blitzer et al.,2007)將結構對應學習(Structural Correspondence Learning,SCL)引入跨領域情感分析,SCL是一種套用範圍很廣的跨領域文本分析算法,SCL的目的是將訓練集上的特徵儘量對應到測試集中。(Tan et al.,2009)將SCL引入了中文跨領域情感分析中。(Tan2 et al.,2009)提出將樸素貝葉斯和EM算法的一種半監督學習方法套用到了跨領域的情感分析中。(Wu et al.,2009)將基於EM的思想將圖排序(Graph Ranking)算法套用到跨領域的情感分析中,圖排序算法可以認為是一種疊代的k-NN
研究現狀
情感分析自從2002年由Bo Pang提出之後,獲得了很大程度的研究的,特別是在線上評論的情感傾向性分析上獲得了很大的發展,目前基於線上評論文本的情感傾向性分析的準確率最高能達到90%以上,但是由於深層情感分析必然涉及到語義的分析,以及文本中情感轉移現象的經常出現,所以基於深層語義的情感分析以及篇章級的情感分析進展一直不是很大。情感分析還存在的一個問題是尚未存在一個標準的情感測試語料庫,雖然Bo Pang實驗用的電影評論數據集以及Theresa Wilson等建立的MPQA是目前廣泛使用的兩類情感分析數據集,但是並沒有公認的標準加以確認。
目前研究主要集中於情感詞的正面負面分類,標註語料,情感詞的提取等。
情感分析器
Twitter情感分析器
通過Twitter用戶情感預測股票走勢,2012年5月,世界首家基於社交媒體的對沖基金 Derwent Capital Markets 在屢次跳票後終於上線。它會即時關注Twitter 中的公眾情緒指導投資。正如基金創始人保羅·郝汀(Paul Hawtin)表示:“長期以來,投資者已經廣泛地認可金融市場由恐懼和貪婪驅使,但我們從未擁有一種技術或數據來量化人們的情感。”一直為金融市場非理性舉動所困惑的投資者,終於有了一扇可以了解心靈世界的窗戶——那便是 Twitter 每天浩如煙海的推文,在一份八月份的報導中顯示,利用 Twitter 的對沖基金 Derwent Capital Markets 在首月的交易中已經盈利,它以1.85%的收益率,讓平均數只有0.76%的其他對沖基金相形見絀。類似的工作還有預測電影票房、選舉結果等,均是將公眾情緒與社會事件對比,發現一致性,並用於預測,如將“冷靜CLAM”情緒指數後移3天后和道瓊斯工業平均指數DIJA驚人一致。
自然語言處理工具包spaCy
spaCy是一個Python自然語言處理工具包,誕生於2014年年中,號稱“Industrial-Strength Natural Language Processing in Python”,是具有工業級強度的Python NLP工具包。spaCy里大量使用了Cython來提高相關模組的性能,這個區別於學術性質更濃的Python NLTK,因此具有了業界套用的實際價值。
情感分析套用
文本情感分析的套用非常廣泛,可以套用到許多行業,其中最重要的幾個套用包括:實現情感機器人,自動提供抉擇支持,網路輿情風險分析,信息預測等。