基本部件(基元/原子部件):根據統計數據和字形、字理綜合評判,得出的一些部件,它們在一般部件拆分中是最小拆分單位,不可以再被分解。不過單獨研究時,則根據情況允許作進一步分解。
部件的特徵分析:
通常,部件內的筆畫關聯度較高,彼此互相約束。部件之間的筆畫關聯度較低,特別是相離的部件,一般彼此關聯度很低,其次是夾重部件,然後是相接和相交。
但是,不是說相離就一定可拆,因為相離也存在關聯度很高的情況,如“氵”、“言”等筆畫均為相離,但是他們聚合度很高,不應該被分解。避免被分解的辦法就是人為規定基礎部件表, 並且在規則中規定高聚合部件優先!
由於古代造字的原理就是使用較簡單漢字構造更複雜的漢字,而最簡單的漢字,古代稱為“文”,字是由文組成的。所以,“文”實際上就是相當於漢字的基本部件。
但由於漢字的演變和進化,現代階段可以不必完全照搬古代的構字部件,而且許多部件已經變形了,失去原有的外形和含義。
更加科學的辦法是使用數學統計的辦法,發現那些內聚性特別高、組字能力特彆強的字塊,將它們規定為基礎部件。
從資訊理論的觀點來看,就是如何排除冗餘信息,提取有用信息的過程,這和信息壓縮編碼過程十分相似。
舉例來說,當我們寫“語”字的前三筆以後,緊接的四筆幾乎就確定了,可以被預知,也就是說後四筆的信息量等於0,所以我們會把“言”字看做整體,當作一個部件,但不會多取一筆,也不會少取一筆。因為第7筆信息量等0,而第8筆(就是“五”的首筆)信息量相當高,大約是2比特多,因為言字旁接著可以和5種筆畫都有可能組字,而且機會差不多。
具體如下:在7萬個漢字中,言字旁共1063字,第8筆分布為:橫筆275字, 豎筆176字, 撇筆268字, 點筆179字,折筆165字, 計算一下靜態關聯信息量為2.28比特,幾乎達到筆畫的最高信息量2.32比特。
顯然,把前7筆組成的字塊“言”看作一個基礎部件是非常合適的。
所以,任何兩組筆畫組是否拆分,他們的關聯度就是一個重要依據。
其次,每個部件的使用頻度也不同,我們應該優先考慮高頻部件。而且要取大優先,這樣可以提高信息密度。
而對於某些低頻部件,則可以計算互斥情況,然後結合字理,兼併到高頻部件中。
相關詞條
-
坐標碼輸入法
的音碼,也不是以字根集為特徵的形碼。坐標碼通過漢字結構規律,找出漢字部件結構特徵“不可拆分”,徹底破解了漢字部件記憶難題,是“字根集最大(等於部件集...:瀋陽平宇科技有限公司坐標碼特點 創造性地解決了“560個漢字部件的記憶...
概述 基本信息 坐標碼特點 坐標碼優勢 漢字“現掛”舉例 -
語文現代化理論與實踐:中日韓統一漢字字形操作碼
1.3.4 創造漢字部件新代碼 1用時空坐標系四軸分格符號作代碼 2部件起筆與代碼對應形成單一判斷 3漢字部件用字母做代碼難消除...用同一代碼排序檢字與鍵盤輸入 第二章 漢字部件化 2.1 中日韓...
基本信息 內容簡介 圖書目錄 -
邢紅兵
》等。曾參與《信息處理用GB13000字元集漢字部件規範》等國家標準...;#91;8] 信息處理用GB13000.1 字元集漢字部件...
1.簡介 2.學習和研究經歷 3.發表的論文 4.出版的專著和編著 -
七部形碼輸入法
的漢字部件,用一位其所在的鍵位字母進行編碼。例:【 廣 】 編碼 = Q漢字部件碼:就是每組部件中除去鍵位碼之外餘下的漢字部件,首先取該漢字部件所在... + 丷w + 木m = rwm非漢字部件碼:就是每組部件中非漢字的部件...
漢字七部形碼方案——漢字編碼技術大突破 編碼方法 組字規律 鍵盤布置 -
對外漢字教學研究
漢字部件切分 貳 漢字部件統計 叄 漢字部件區別特徵 第三節... 漢字部件與漢字結構 第二節 漢字教學原則 壹 遵循漢字認知規律的原則...
圖書信息 內容簡介 目錄 -
五筆字根記憶新路線
,隨書贈送的光碟里還有配套遊戲。 如果碰到難拆字,可求助於《常用漢字部件拆分字典》,根據難拆部件的筆畫數,可檢索到它的拆法。漢字部件不過500多個...: 1 漢字部件與五筆字根關係圖 2 鍵名字與字根字的概念 3...
基本信息 內容簡介 目錄 -
20+6形符四碼檢字法
檢字法也稱查字法,指工具書或其他書里的文字排列次序的檢查方法。檢查漢字常用的有部首檢字法、音序檢字法、筆畫檢字法、四角號碼檢字法等。20+6形符四碼檢字...
簡介 一、形符定義和20+6形符表 二、 漢字編碼與檢索 -
中文1
(1)》包括11課。內容包括漢字知識、26個筆畫和138個常用漢字部件。通過了解漢字部件與構字法,同時輔助學習約500個常用漢字。每課內容包括部件... Character Strokes 附屬檔案2:漢字部件三字經 ANNEX2...
圖書信息 內容簡介 目錄