著作權檢測技術

著作權是對電腦程式、文學著作、照片、音樂、電影等形式的出版物的複製權利的合法所有權,未經授權,其他人不得複製、傳播受著作權保護的出版物。 著作權檢測是指通過技術手段,檢測被傳播內容是否受著作權保護,針對不同形式的出版物,著作權檢測的技術手段也有所不同。

技術原理

針對不同形式的內容載體,著作權檢測的技術手段也有所不同,但實際都屬於檢索技術的範疇,包括文本檢索、圖像檢索、音頻指紋技術、數字水印。

音視頻著作權檢測

音頻指紋技術已經被廣泛套用到音視頻內容識別套用中,通過分析音頻本身的頻譜特徵,抽取數字指紋,並藉此構建海量音頻指紋資料庫,用於音頻指紋的比對和查詢。該技術具有通用性強,識別率高,無需改變原有音視頻內容等特點,已被Youtube、Facebook、蘋果等公司廣泛採用。

數字水印技術則是於音頻指紋技術相對的另外一種音頻檢索技術,其原理是向音頻中嵌入事先定義的信息,然後通過檢測固定信息是否存在,來達到匹配的目的,技術難度小,但是會對原始音視頻引入噪音,而且容易被去除。

文字著作權檢測

文字作品的著作權檢測相對比較簡單,只需對比文字內容是否相同或相近即可,通常基於字元串匹配算法和文本檢索系統實現,常用於文字內容重複度檢測。

圖片著作權檢測

圖片著作權檢測通常基於圖像檢索技術實現,通過分析兩張圖片的相似度,進行匹配,一般是採用精確匹配的算法,而非語義匹配。

由於圖片相對靜態,信息量少,數字水印也常用於圖片著作權保護,在圖片添加水印是十分常見的技術。

技術指標

準確率

著作權檢測技術大多屬於ACR( Automatic Content Recognition ) 技術,不是利用關鍵字精確匹配,而是通過分析內容本身進行識別,因此無法做到100%的識別率,會存在一定的誤識,通常對識別準確率的要求在95%以上。

識別速度

著作權檢測技術通常用在用戶提交內容的過程中,檢測速度太長則會影響用戶體驗,由於音視頻識別需要首先進行切片處理,識別10秒鐘片段的速度小於3秒為佳。

資料庫規模

音視頻網站的數據資源一般在千萬條目級別,資源長度通常在百萬小時,利用ACR技術實現的系統需要採用分散式設計,並支持大規模並發。

實際套用

打擊音視頻盜版

對於視頻網站和社交網站來說,UGC( User Generated Content ) 模式下產生的音視頻盜版和非法傳播一直是個大問題,打擊音視頻盜版的需求也越來越強烈。Youtube早在2007年就推出了基於音頻指紋技術的ContentID系統 ,Facebook也於今年與ACR( Automatic Content Recognition ) 技術公司之一Audible Magic合作推出了和ContentID類似的盜版監測系統 。愛奇藝則發布了基於數字水印技術的著作權檢測系統 。

目前,音視頻著作權檢測技術服務已經發展為獨立的行業,成熟的ACR技術公司有ACRCloud,Audible Magic, Gracenote等。

學術論文查重

文字出版物的著作權問題,常常體現在內容抄襲,尤其是學術論文抄襲。如今,文字檢索系統已發展相對成熟,如中國論文查重網。

相關詞條

熱門詞條

聯絡我們