字符集

术语| 2007-06-22 07:46:59

字符集(Character Set),或称字集,是一个系统支持的所有抽象字符的总和。字符集可以是封闭的,也就是说不允许添加新的符号,除非创建一个新的标准(ASCII和多数ISO/IEC 8859系列都是这样的例子);字符集也可以是开放的,允许添加新的符号(Unicode和一定程度上视窗代码页是这方面的例子)。特定字符集中的字符反映了如何将书写系统分解成线性信息单元的决定。例如拉丁、希腊和斯拉夫字母表自然分为字母、数字、变音符号、标点和如空格这样一些少数特殊字符,它们都能按照一种简单的线性序列排列(尽管对它们的处理需要另外的规则,如带有变音符号的字母这样的特定序列如何解释——但这不属于字符集的范畴)。为方便起见,这样的字符集可以包括预先编号的字母和变音符号的组合。其它的书写系统,如阿拉伯语和希伯莱语,由于要适应双向文字和在不同情形下按照不同方式交叉在一起的字形,就使用更为复杂的符号表表示。

字符集通常有两种,一是专为电脑资讯处理而设,如:ASCII、Unicode、GB 2312、大五码(Big5)、CNS 11643等。一是作其他用途的,如教育用的生字表、通讯用的电报码等。

字符集和编码(Encoding)不同。字符集只是文字的集合,不一定适合作网络传送、处理,有时须经编码(Encode),将字符对应至所属的特定二元表示法后,才能应用。如CNS 11643和GB 2312可以使用ISO/IEC 2022、EUC等标准编码。Unicode可依不同需要以UTF-8、UTF-16、UTF-32等方法编码。有些字符集如Big5通常不须额外编码即可使用,故Big5既是字符集又是编码。