中日韩越统一表意文字

术语| 2007-01-23 07:42:58

CJKV,是汉语(Chinese)、日语(Japanese)、韩语(Korean)、越南语(Vietnamese)的集合名词,其也组成了主要的东亚语言。CJKV这名词主要应用于软件产业与国际化与本地化领域。

CJKV的顺序是拉丁字母顺序。在越南语加入之前,旧称CJK(即中韩日用字)。对于较早废止汉字,而曾使用过汉字及本民族类汉字文字—喃字的越南语方块文字进入CJKV编码较晚。用语的使用频度以CJK较多。不过,随着越文汉字、喃字加入该计划,CJKV的称呼开始使用。

中韩日越这四个语言中皆有共同的特色,即其文字皆完全或部份的使用了汉字,即中文的汉字、中国少数民族的表意文字,如部分方块壮字、日文汉字(kanji)、韩文汉字(한자 / hanja)、越南的喃字(Chữ Nôm)、越文汉字(Chữ Nho,在越南也称作儒字)。汉字在中文里是唯一的文字系统,在一般的文书中常用字约为四千字(据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字时已到99%),字数总数则多达四万字以上(清朝的《康熙字典》收字47,035个、台湾的《中文大字典》收字49,905个、《汉语大字典》收字54,678个、《中华字海》,收字85000个)。日文汉字的数量则少了许多,在一般的文书中常用的汉字约为二千字左右。在韩语里汉字则有越来越罕用的趋势(可参见汉字废止主题)。

中韩日越所使用的这些汉字总数,使用仅能呈现256字符的八位元字符编码系统自然是不足,至少必须使用十六位元固定宽度的字符编码、或是多位元可变长度的字符编码系统才能包含所有的汉字数量。十六位元固定宽度的字符编码(例如 Unicode 2.0 以及 2.0 之前的版本)目前已不再采用,取而代之的是可以包含更多的汉字的编码方式,例如 Unicode 5.0 包含了多达7万多的汉字,以及中华人民共和国政府现今所使用的GB18030字集。

即使中日越韩的编码具有共通的字集,然而用以呈现这些字集的常用编码方式是由各国政府以及软件公司所各自独立发展,并且彼此间并不相容。Unicode尝试着将这些不同的字集加以统一,即所谓的 Han unification(中日韩统一表意文字、或称中韩日越统一表意文字)。

CJK 各自的字符编码包含了最低限度的汉字、以及各语言特定的语音符号,例如拼音、注音符号、平假名、片假名、以及谚文。常见的编码方式包含如下:

CJK 字集使用了相当庞大的 Unicode 空间。这其中包含了来自日本的汉字学专家针对中日韩统一表意文字过程终将多个中文字集日文字集对映至统一字集中的被认可的文字的争议。

中文和日文皆可由左至右以及由上至下来书写,但在讨论编码相关议题时通常皆以由左至右的书写方式来作为考量。

Unicode的CJK统一汉字,作为越南的文字编码规格的 TCVN 5773:1993 和 TCVN 6056:1995 与汉字(越文汉字、喃字)作为原规格也合并,实际状态是CJKV。譬如,“U+7551 畑”就是日文汉字之“畑”(JIS X 0208-1990之482A)与越南喃字之“畑”(TCVN 5773:1993之3C2F)的统合。