漢字部件

漢字部件

漢字部件是由筆畫組成的具有組配漢字功能的構字單位(引自《信息處理用GB13000.1字元集漢字部件規範》),王寧(2002)稱之為“構件”。

部件:組成漢字的一些具有一定含義或者穩定形體特徵的字塊
基本部件(基元/原子部件):根據統計數據和字形、字理綜合評判,得出的一些部件,它們在一般部件拆分中是最小拆分單位,不可以再被分解。不過單獨研究時,則根據情況允許作進一步分解。
部件的特徵分析:
通常,部件內的筆畫關聯度較高,彼此互相約束。部件之間的筆畫關聯度較低,特別是相離的部件,一般彼此關聯度很低,其次是夾重部件,然後是相接和相交。
但是,不是說相離就一定可拆,因為相離也存在關聯度很高的情況,如“氵”、“言”等筆畫均為相離,但是他們聚合度很高,不應該被分解。避免被分解的辦法就是人為規定基礎部件表, 並且在規則中規定高聚合部件優先!
由於古代造字的原理就是使用較簡單漢字構造更複雜的漢字,而最簡單的漢字,古代稱為“文”,字是由文組成的。所以,“文”實際上就是相當於漢字的基本部件。
但由於漢字的演變和進化,現代階段可以不必完全照搬古代的構字部件,而且許多部件已經變形了,失去原有的外形和含義。
更加科學的辦法是使用數學統計的辦法,發現那些內聚性特別高、組字能力特彆強的字塊,將它們規定為基礎部件。
從資訊理論的觀點來看,就是如何排除冗餘信息,提取有用信息的過程,這和信息壓縮編碼過程十分相似。
舉例來說,當我們寫“語”字的前三筆以後,緊接的四筆幾乎就確定了,可以被預知,也就是說後四筆的信息量等於0,所以我們會把“言”字看做整體,當作一個部件,但不會多取一筆,也不會少取一筆。因為第7筆信息量等0,而第8筆(就是“五”的首筆)信息量相當高,大約是2比特多,因為言字旁接著可以和5種筆畫都有可能組字,而且機會差不多。
具體如下:在7萬個漢字中,言字旁共1063字,第8筆分布為:橫筆275字, 豎筆176字, 撇筆268字, 點筆179字,折筆165字, 計算一下靜態關聯信息量為2.28比特,幾乎達到筆畫的最高信息量2.32比特。
顯然,把前7筆組成的字塊“言”看作一個基礎部件是非常合適的。
所以,任何兩組筆畫組是否拆分,他們的關聯度就是一個重要依據。
其次,每個部件的使用頻度也不同,我們應該優先考慮高頻部件。而且要取大優先,這樣可以提高信息密度
而對於某些低頻部件,則可以計算互斥情況,然後結合字理,兼併到高頻部件中。

相關詞條

相關搜尋

熱門詞條

聯絡我們