ISO 10646的標準
ISO 10646標準由國際標準化組織ISO頒布,用來實現全球所有文種的統一編碼。該標準被廣泛套用於電子化地表示、傳輸、交換、處理、儲存、輸入及顯現世界上各種語言的書面形式以及附加符號。
國際標準化組織於一九九三年發表 ISO 10646 國際編碼標準的首個版本,全名是 ISO/IEC 10646 第一部分「ISO/IEC 10646-1:1993」。它收錄了 20902 個表意字元。二零零零年十月發表了第一部分的新版,新增收了6,582個表意字元於擴展區A里。ISO/IEC 10646 的第二部分在 2001 年發表,增收了 42711個表意字元於擴展區B里。
ISO 10646的重要性
為了在電腦及電子裝置內處理各地區本身的字元,世界各地採用了不同的編碼標準。例如香港及台灣使用繁體字,通常採用「大五碼」。中國內地使用簡體字,通常採用「國標碼」。可惜,各種不同的編碼標準互不兼容,一個編碼在不同的編碼標準內可能代表不同的字元。
當某台電腦上發出的電子資訊傳到另一電腦上時,假若兩台電腦採用了不同的編碼標準,即使通過轉碼,也可能會出現亂碼或某些字元不能正確地顯示等問題。而制訂 ISO 10646 國際編碼標準的目的,便是為了提供一套統一的字元編碼標準,包含世界上所有文字,使電子通訊及資料交換不需轉碼,並且可以在一個電腦平台上處理多種語言文本。
採用該標準後,世界各地不同的電腦系統之間便能更準確地儲存、處理、傳遞及顯示各種語文的電子資訊,從而加強各地間電子資訊的流通及推動 電子交易的進行。
ISO 10646背景及現狀
ISO 10646由ISO/IEC JTC1/SC2/WG2制定。ISO/IEC JTC1是一個信息技術(IT) 方面的聯合委員會,由國際電工委員會(IEC)與國際標準化組織(ISO)協作而構成的。目的是協調IEC和ISO在IT行業中的相關標準。 ISO/IEC JTC1/SC2 是負責編碼字元集的國際標準化組織分支機構,由ISO/IEC JTC1建立。 其下有一個稱為ISO/IEC JTC1/SC2/WG2的工作組。這個國際標準化組織工作組 (WG2) 的任務就是為了制定編碼字元集UCS - 通用多八位編碼字元集 - 亦即是ISO/IEC 10646標準。ISO/IEC JTC1/SC2/WG2/IRG,簡稱IRG,是表意字元工作小組, 負責與ISO/IEC 10646中表意文字有關的工作。
ISO 10646國際編碼標準的2000年版本,ISO/IEC 10646-1:2000,已於二零零零年十月發表。當中包括ISO/IEC 10646-1:1993內的20,902個漢字字元之外,又增補了 6,582個漢字字元(在擴展區A)。所有在「香港增補字元集」(HKSCS)中包含,但仍未在現有ISO 10646標準中收納的字元,已被提交到表意字元工作小組 (IRG)以加入未來的ISO/IEC 10646版本中。
擴充ISO/IEC 10646-1:1993的表意字元集工作是分階段進行的,依次為擴展區A、 擴展區B及擴展區C等階段。擴展區A收納了6,582個漢字字元,已於二零零零年十月發表。擴展區B亦已隨ISO/IEC 10646-1:2001發表,其字元主要來源於《康熙字典》、《漢語大字典》和《漢語大詞典》內的漢字。目前,表意文字工作小組正致力於擴展區C的工作,發表日期待定。
統一碼與ISO 10646
統一碼(Unicode)是Universal Code的縮寫,由一個名為 Unicode 學術學會的機構制訂的字元編碼系統,以支持世界主要語言的書面文本的交換、處理及顯示。統一碼亦支持不同語言的傳統性 及歷史性原文。
統一碼與ISO 10646國際編碼標準從內容上來說是同步一致的。在一九九一年,Unicode學術學會與ISO國際標準化組織決定共同制訂一套適用於多種語言文本的通用編碼標準。統一碼與ISO 10646國際編碼標準於一九九二年一月正式合作發展一套通用編碼標準。自此以後,兩個組織便一直緊密合作,同步發展統一碼及ISO 10646 國際編碼標準。
統一碼3.0版本與ISO 10646 國際編碼標準所包含的字元及使用的編碼是相同的,包括東亞的漢字字元。統一碼3.0版本已於二零零零年二月由Unicode學術學會正式推出,當中收納了49,194個來自世界各地不同語言的字元,其中包含27,484個漢字字元。此外,國際標準化組織提供 ISO 10646 國際編碼標準內的字元及編碼資料,Unicode 學術學會則對這些字元及編碼資料提出套用的方法以及語義資料作補充。
在統一碼3.1版已於2001年發表,除了Unicode 3.0 版中的49194個字元,又增加了44,946個新字元,其中42,711個為漢字字元。