簡介
動態語言生成(dynamic language generation)即計算機能對不同情景用不同語言進行釋義和回答,這裡不同語言有兩種解釋,分別是指語言知識庫和不同的源語言。動態語言生成發展主要和自然語言處理、翻譯和理解等多個領域有關。動態語言生成最終目的是使計算機像人類能用語言動態地進行信息交流。
語言知識庫
語言知識庫的建設確實是最基本、最重要的套用基礎研究。其中,涉及多語言知識的重新整理、發現、形式化、規範化等工作。這就為漢語與其他語言的翻譯提供了最大的發展空間。語言知識庫是自然語言處理系統的重要組成部分,可以從不同的角度對自然語言處理系統中的語言知識庫進行分類。按知識表達形式可分兩類。一類如詞典和規則庫等,其中的知識是顯性表示的,採用形式化的結構(詞典可採用關係資料庫結構,規則可採用“條件—動作”產生式表示),便於自動處理程式套用, 但其羅列的知識會給自動處理帶來歧解;另一類知識存在於語料庫之中,每個語言單位的出現,其範疇、意義、用法都是確定的,不過作為語料庫主體的語句都是線性的非結構化的文字序列,其中包含的語言知識都是隱性的語料加工的目的就是把隱性的知識顯性化。詞語切分將漢字串改造成詞語串,詞的知識便顯性化了, 詞性標註使得詞類知識顯性化,義項標註又使詞義知識顯性化。也可以從顆粒度的角度考察語言知識庫,規則庫中的知識的顆粒度大,通常描述詞類與詞類之間的關係,語料庫的知識顆粒度小,反映具體的詞語與詞語之間的關係。至於建構一個具體的語言知識庫,究竟要吸納哪些語言知識,採用什麼樣的表達形式,則取決於套用目標。如果用於動態語言生成,則還需要配備多種語言對照的知識 。
有關技術
自然語言處理
語言是人類區別於其它動物的重要標誌之一。人藉助於自然語言交流思想,達到相互了解, 組成人類社會;人還藉助於自然語言進行思維,認識事物的本質和規律,創造了人類的物質文明和精神文明。自然語言處理(NLP)是計算機科學,人工智慧,語言學關注計算機和人類(自然)語言之間的相互作用的領域。因此,自然語言處理是與人機互動的領域有關的。在自然語言處理面臨很多挑戰,包括自然語言理解,因此,自然語言處理涉及人機互動的面積。在NLP諸多挑戰涉及自然語言理解,即計算機源於人為或自然語言輸入的意思,和其他涉及到自然語言生成。
現代NLP算法是基於機器學習,特別是統計機器學習。機器學習範式是不同於一般之前的嘗試語言處理。語言處理任務的實現,通常涉及直接用手的大套規則編碼。
許多不同類的機器學習算法已套用於自然語言處理任務。這些算法的輸入是一大組從輸入數據生成的“特徵”。一些最早使用的算法,如決策樹,產生硬的if-then規則類似於手寫的規則,是再普通的系統體系。然而,越來越多的研究集中於統計模型,這使得基於附加實數值的權重,每個輸入要素柔軟,機率的決策。此類模型具有能夠表達許多不同的可能的答案,而不是只有一個相對的確定性,產生更可靠的結果時,這種模型被包括作為較大系統的一個組成部分的優點。自然語言處理研究逐漸從辭彙語義成分的語義轉移,進一步的,敘事的理解。然而人類水平的自然語言處理,是一個人工智慧完全問題。它是相當於解決中央的人工智慧問題使計算機和人一樣聰明,或強大的AI。自然語言處理的未來一般也因此密切結合人工智慧發展。
自然語言理解
自然語言理解是研究人類如何使用自身熟悉的本族語言與計算機進行信息交流,並探索人類自身的語言能力和思維活動的本質,是人工智慧學科的一個重要分支。自然語言理解的研究內容大體上與自然語言處理相當,都可以歸結為對自然語言的句子和篇章(話語)這兩個層次上的分析和生成的研究,但前者更著重於對“理解”的探索。正如什麼叫 “智慧型” 一樣, 對於“理解” 這一術語也存在著各式各樣的認識。然而在人工智慧界, 人們普遍認為可以採用圖靈試驗來判斷計算機是否“理解”了自然語言,具體的判據分述如下:問答。機器能正確摘取輸入文本中的主要信息,並據此回答有關的問題;釋義。機器能用不同的詞語和句型來複述輸入文本;文摘生成。機器有能力產生輸入文本的摘要;翻譯。機器具有把一種源語言的輸入文本翻譯成另一種指定的目標語言的能力。