簡介
遼寧省檔案館存有大量滿文檔案,如何搶救這種語言已近死亡了的檔案資料,是極其緊迫而又艱巨的任務。由於精通滿文的人員逐年減少,人工翻譯已不可能滿足各方面對滿文檔案資料的需求。因此,遼寧省檔案館、東北大學計算機語言工程研究室、廣西師範大學出版社聯合,共同完成了滿-漢文計算機輔助翻譯系統的研究工作。2000年10月通過技術鑑定,2001年度獲國家檔案局優秀科技成果一等獎。
機器翻譯是集語言、數學、心理學和計算機等多種科學的一門綜合性科學,“滿-漢文計算機輔助翻譯系統”在吸收了當前世界機器翻譯領域的先進技術的基礎上,通過懂滿文的檔案人員與高水平的計算機軟體人員的合作。使該系統具有如下特點:
特點
1、本系統強調機器翻譯過程中將源語和目標語分別處理,採用一種中間結構作為源語和目標語的中間接口的先進技術,使滿文的對譯方便快捷。
2、本系統通過探索滿文語言深層次的特點,首創了信息完備的滿文電子詞典。
3、本系統創造出獨特的滿文字模及其編碼方法,使滿文的機器輸入出成為可能。
4、本系統利用完備的數學理論研究自然的機器翻譯過程和結構,創造了滿文翻譯句法結構的形式化方法,如規則描述語言等。
5、建立大規模帶標短語結構樹庫,採用簡單句法翻譯和機率計算結合進行機器自動翻譯的面向數據的處理方法,使滿文翻譯策略更為合理。
6、本系統具有自學習、自己記憶的智慧型化功能,從而能使其隨著套用時間的增長,翻譯性能水平不斷提高的特點。
該項目的主要研究內容是
:
1、建造滿漢文機器詞典。本詞典具有數量大,總計達27375條,信息量大,每一詞條包括滿文詞寫法、轉寫碼、詞條信息、詞法屬性、句法屬性、語義分類、語義特徵、語義約束、對譯語、義項、注釋等十三大類,在這十三大類下又分別設有不同數量的小類。最後形成的詞典達45M。
2、滿文字模的建造及其編碼方法的研究。設計出154個滿文字模,制定出滿文字模的搭配規則,解決了滿文的拼接和從上到下,從左到右的顯示與列印的問題。
3、機器翻譯系統的設計。本系統利用完備的數學理論研究自然語言的機器翻譯過程和結構,創造了滿文翻譯句法結構的形式化方法,如規則描述語言等,使滿文翻譯語法處理科學實用。建立大規模帶標短語結構樹庫,採用簡單句法翻譯和機率計算結合進行機器自動翻譯的面向數據的處理方法,使滿漢文翻譯策略更為合理。
4、滿語語言學的研究。本課題研究中的一個關鍵問題是對滿語語言學的深入研究,這不僅是滿文專家的事,也是計算機軟體專家們的事。滿漢全文翻譯必須在一定的語法規則上實現,因此我們對滿文語法規則進行了重新編制,將傳統的語法規則重新組合分類,將其轉化成一條條“準計算機語言”,提供給程式設計人員。
5、總體方案的設計。總體方案的設計是滿漢文翻譯系統研究的最重要的一步。主要內容包括:先進、合理、科學的詞典設計方案;滿文字模方案及其輸入輸出方案;以及分詞翻譯策略等,建立了詞典管理系統、規則管理系統、語料標註系統、滿文編輯器和滿-漢文計算機輔助翻譯系統。