音視頻知識獲取

面向視音頻的知識獲取是指從視音頻數據中抽取實體、實體特徵、實體間關係等知識的過程,為網路空間大搜尋奠定視音頻知識搜尋的基礎。知識獲取是指從泛在網路空間數據中獲取本體知識的過程,其被首先定義在專家系統中。

面向視音頻的知識獲取涉及到視音頻的表示、視音頻與語言的關聯兩個方面的內容。得到視音頻的語言描述後,可以進一步基於文本的信息進行結構化的抽取。

在視音頻的表示研究方面。數據表示是視音頻分析、識別、理解與搜尋等任務的基礎性核心問題,長期以來受到廣泛的關注和重視。相關工作主要從兩個方面開展。傳統的方法依然是基於人工設計的特徵表示,包括主要包括基於局部SIFT的、基於直方圖HOG的和基於全局GIST的方法等。從另一個方面來講,視音頻的表示具有複雜的語義屬性,包括物體[1],場景[2]和事件[3]等。近年來,在基於深度學習的自動表示方面取得了較多成果。2015年《自然》、《科學》相繼出版了“深度學習”相關專輯,探討機器智慧型的動態與未來[4][5]。近年來深度學習也引領了視音頻的特徵表示與概念識別研究方向,得到了研究者們的廣泛關注,包括面向CNN[6][7][8][9]和LSTM [10]的方法。

在視音頻與語言的關聯方面。在視音頻有效表示的基礎上,接下來通過視音頻和語言的關聯獲取視音頻的知識。涉及到基於單個句子的視音頻描述和基於多句子的視音頻描述。傳統的方法對於基於單句的視音頻描述,近來主要採用基於神經網路的編解碼框架進行實現。

相關詞條

熱門詞條

聯絡我們