中文字型设计新思路——人工智能与中文字型设计

设计|《广东首届青年科学家论坛论文集》|何海群 2000-01-01 12:27:16

一、中文电脑字型的现状与误区

字型是一切设计灵魂。无论是平面设计、还是三维动画创作,均离不开字型的应用。字库也是中文信息处理的重要基础,其重要性不亚于硬件当中的储存芯片和CPU芯片。而且,字库(尤其是中文字库)在研制方面的复杂程度和难度,也不亚于与硬件芯片的研制与开发。中文信息处理技术,从"人机交流"的角度而言,可以分为三个部分:汉字录入、汉字处理和汉字输出。

在八十年代周期,也就是PC个人电脑、286芯片刚传入国内的"PC元年"期间,中国的计算机界曾经掀起了一股千军万"码"齐奔腾的汉字输入研制热潮。一时间,全息码、未来码、表形码、自然码、王码……等优秀汉字录入方案纷纷出台。最终,以"五笔字型"为代表的一系列汉字录入方案,获得了广大用户的认可。而计算机汉字录入障碍问题,也基本上得到解决,汉字的录入速度,目前已经十分接近英文打字速度。

汉字处理方面,热点集中在九十年代初期,"909汉字处理系统"、WPS、巨人汉卡、联想汉卡、……,95年期间,随着"WINDOWS95"的推广,微软公司正式介入,推出中文版本的WORD软件,汉字处理已经基本达到了西文文字处理软件的先进水平。

不过,令人遗憾的是,汉字输出方面的问题,却始终未能够得到较好的解决。

传统上,字型设计是一项复杂而又烦琐的工作,需要十分专业的设计技术,中文字型,由于每套字型必须具备3000--5000数量的不同字型,其设计难度更是数十倍于西文字型。(通常,设计一套新款中文字型的费用约为50万元人民币左右。)因此,在整个中国五千年的历史上,真正能够获得成功,并且流传至今保留下来的中文字型也不过二十余款,例如:宋、黑、隶、行、楷、篆等字型。在国内,自四九年建国以来,真正能够获得成功的中文字型,只有一种:舒同体,一种行书的变体。港台地区,由于较早采用电脑技术设计中文字型,这方面较为成功,不过,推出的新款中文字型数量,也仅有二、三十余款,例如:POP、少女体、广告体、装饰体等。源于中国传统文化的其他国家和地区,象日本、新加坡、韩国等地,所提供的中文字款更加稀少,可能只有:勘亭流、隶变(东洋隶)等数种中文字型。

目前,一般的电脑中文字库,收录的字型数量,大多在30-50种之间,极少有能够包括70-80款中文字库系统。(例如,目前国内最常用的"方正兰亭"字库,收录字体为63款。)相对数目多达上千套的不同形式西文字型,中文字体却只有数十种,很显然,这远远不能满足电脑字幕、广告设计、报刊印刷、招牌刻字、三维动画等行业对于中文字型的要求。

就应用层面而言,大家往往也会发现,同样的报刊版面、广告图片,其英文版作品往往比中文版显得更为活泼。这是因为,英文作品当中,更多地使用了POP手绘字体的缘故。普通中文电脑字库虽然也有十余款的POP手绘字体,但由于品种单一,各种领域都反复不断地使用,因此,时间一长,难免令人感觉单调。正是由于POP手绘字体的缺乏,使中文作品在许多时候都难免显得过于刻板和缺乏灵性。为克服这种缺陷,有些设计师在作品当中往往采用手写字体,不过,手写字体需请专人书写,而且还要经过扫描等繁琐的后期处理,毕竟不是一种理想的解决之道。

1994年,本人在《中文电脑字型新进展》(《电脑》1995年10月第27页)一文当中,曾经这样提过:传统的"字体,印刷勉强够用,但对变化多端的广告界而言,实在是有些力不从心。"因为:"广告业对字型要求极严,除传统字型外,更多的是需要新款手写型及各类特种字型。"因此,对于中文字型设计而言,POP手绘字体的设计在目前尤加显得重要。

前面我们提过,中文字型设计的困难,主要在于汉字的字符数量繁多。不过除此之外,相对于印刷字体的设计,中文POP手绘字型还存在以下几个方面的重要障碍:

1,思想过于保守

受儒家文化影响,中国传统书法强调的三大要素为:用笔、结构与章法。事实上,几乎所有的中文传统书法流派,均强调这三个方面,尤其是汉字的"章法",即使是用笔最为自由的草书亦也不例外。"章法"虽然合乎儒家的中庸之道,却抹杀了创作者的个性,而个性,又是一切艺术创作的源泉。到"明清时期,在书法上出现了很多有个性的书法家。因为他们不但是书法家,有的同时也是画家,因而,使得他们的书法,在运笔、结构、章法,乃至用墨方面,有了特殊的表现。""如清代郑板桥以隶书写行书,金农以行书写隶书,……,都收到了特殊的效果。"不过,这些古代的书法家们依然受制于传统的章法,不过是将原来的框框拉大了一些而已。即使是现在,中文字型的设计依然受制于这种传统的书法美学观念。这种传统书法观念在中文电脑字型设计领域的一个最大误区依然是:过于强调字型的精度。

事实上,中文字型的设计,从一开始的点阵字库,便有24 点阵与32点阵、48点阵的争持,后来,争论又扩展到了128点阵、256点阵,甚至1024点阵。到了1024点以后,大家突然发现,由于汉字字符数量的庞大和点阵字库以几何级数递增的数据量,如果再争持下去,电脑里所有的存蓄空间都不够字库使用。

于是,争论的阵地开始由点阵字库转移到矢量字库,不过,矢量字库由于原始字模点阵的限制,依然存在着原始数据的采集精度、频率的问题。如果过于强调字符还原的平滑,自然增加字库数据量,而且会出现缩放时变形。

最终,中文字型设计逐步过渡到了POSTSCRIPTS曲线字库。曲线字库在精度方面的争议虽然少一些,不过需要警惕的是,仍然有厂商又在刻意强调一次曲线拟合、二次曲线拟合和三次曲线拟合的细微之差。

从技术角度而言,当字型的精度提高到一定数量级的时候,在实际应用当中,是很难察觉出其中差异的,如果再过高地强调精度,就应用层面而言,是没有任何实际意义的。就现代的设计观念而言,这种过于强调中文字型细节的差异也是极其有害的。尤其是目前,当各个厂商都过多地致力于字型精度的提高,必然会忽视新款中文字型的开发,从而造成设备资源和资金投放的失误。

2,中文POP字模的严重缺乏

众多厂商过于强调字型精度的差异而忽视新款中文字型的开发,无疑是出于商业利益的考虑。因为提高字体精度,比设计一种新款中文字体,在资金投入、设计周期方面都更加符合商业竞争的原则。而造成这种非良性竞争局面的真正原因还在于:中文原创字模的极度缺乏。根据传统中文字型的开发现状而言,一年也难以推出一种新款中文字型。

中文原创字模的严重缺乏主要是因为两个原因:

其一是,由于绝大多数书法家受制于汉字书法的传统观念,很难推出一种全新风格的中文字型。

这种受制于传统书法美学观念的字型设计理念,也严重制约了字型设计师的创意空间,扼杀了艺术设计的自由思想。

举一个例子而言,按照传统观念,汉字"锯齿"是一种严重的缺陷,必须消除。可是,即便是这种缺陷,如果应用在适当的场合,也能够体现一种高科技的数码感觉,形成一种缺陷美。这种带有数码风格的字体,在许多高科技的广告作品当中, 我们都可以见到。例如,SUN公司99年度的工作站广告系列,便采用了这种字型。

再举一个例子,按传统的书法观念,小孩子刚学写字时歪歪扭扭的笔画,是非常难看的。可是,如果采用现在的设计思想来看,我们却能从中发现一种个性美。

目前,设计界都在强调一个"个性设计时代"的来临,而这种被传统美学所鄙视的"歪歪扭扭"的"另类"书法,也因此能够在各种最前卫的歌星海报、商品包装上经常出现,而且有日益扩展趋势。具有"蓝色巨人"之称的IBM公司,一向以保守著称,可连保守的IBM公司在其新推出的"魔幻箱"报刊、电视系列广告当中,都开始大量使用手绘风格的中文POP字型。

中文原始字模严重缺乏的第二个原因是,即使个别有灵性的艺术家,能够突破传统书法的格局,推出具有一定风格的新款中文字型,却又难以按照统一的风格,完成国标字库当中数千个汉字的设计。即使是同样的一位设计师,在书写六千多个不同的时候,也难以在风格上保持统一。而这种统一性,在电脑字型设计当中,就同一款字体而言,又是必须强调的。

而西文字符,只有几十个,一般的设计师都能够很容易按照统一的风格和个人的创意,设计出各种极具个性的西文字型。正是这种充满个性的字体,通常使西文设计作品在布局上能够比中文显得更为活泼。

这样,就形成了一个中文字型设计当中的怪圈:有创新思想的设计师没有完成整个字库建造的耐心,而能够耐心完成字库建造工作的设计师,又没有创新的能力。

二、人工智能技术在电脑字型设计当中的应用

要从根本上解决中文POP字模缺乏问题,就必须采用人工智能的方法,利用有关的学习模式,透过对现有中、西文字型结构的分析,建造相关的字型、笔画知识库,再透过合成、变换等方式,生成全新的的中文字型。利用人工智能技术设计中文字型,就笔者目前手头的资料,在国内外尚属空白领域,因此,笔者只能根据自己设计《中华大字库》的经验,探讨一些有关人工智能中文字型设计方面的应用。

在中文字型设计当中导入人工智能技术,主要应用在以下几个方面:

1,汉字结构的分析和建造汉字结构知识库

2,汉字、英文笔画的分析和建造不同风格的笔画知识库

3,汉字再造

下面就以上三个方面,简单作些介绍:

1,汉字结构的分析和建造有关汉字结构知识库

汉字结构的分析包括两个方面:

第一,各种不同风格字体的结构分析,例如:"行书"和"宋体"的字型结构就不相同,透过对不同结构汉字字型的分析,我们可以建造多个不同风格的字型风格知识库,这也是我们需要建造的第一类字型知识库

第二,对同一种种字体,不同笔画结构的分析,例如:同样是宋体中的"王"字,其中的三条横线的位置、粗细都有不同,透过这种对于同一款字型不同汉字的"结构"进行分析,我们可以建造出有关中文字型的第二类知识库:字型结构知识库。

如果需要进一步深入,我们还可以将有关相似的结构编组分类,以提高处理的速度。

2,汉字、英文笔画的分析和建造各种不同风格的笔画知识库

在中国传统手法里面,有"永字八法"的说法。也就是说,汉字的不同笔画,由于笔锋、粗细、拐角以及运笔的不同,存在着自己的风格。同样,西文字体也存在着有关的笔画风格,虽然西文不强调书法,但在近年的模式识别领域,亦有学者是提到了描述西文字母笔画的方法。例如,"Eden和Halla两位学者曾经提出一种描述手写英文的办法 ,其基元为上线段,用三元式表示。"按照这种三元式表示的笔画表示法,"可以衍生出28种笔画,但仅其中九种对手写英文字母识别的意义。"透过对笔画的分析,我们可以建造出有关中文字型的第三类和第四类知识库;笔画风格知识库和笔画结构知识库。由于笔画风格知识库和笔画结构知识库可以根据西文字母的风格建立,因此,透过对西文字符的分析,我们便可导入许多新的中文笔画风格,为派生新款中文字型在笔画结构方面奠定了基础。

3,汉字再造

所谓"汉字再造",就是根据上面建造的四类汉字知识库的资料,透过不同的匹配、组合,从而创造出新款中文字型的过程。例如,当我们拥有行书和隶书的知识库数据的时候,我们便可利用行书的笔画结构去代替隶书当中相关的部分,从而创造出一种兼具行书、隶书风格的新款字体。如果我们再利用有关的西文字体的笔画结构知识库,同样,我们也可以在行书、宋体等中文字型当中,应用西文的笔画模式,创造出一些全新的字体。当然,并非所有的新款字体都合用,按照个人的实际设计经验,一般成功率在1%左右,不过由于计算机的处理速度极快,在建造好了相在的知识库后,一般每天都可以创造出数百种不同的字型草样,因此,自然大大提高了中文汉字字型的设计速度,也从根本上解决了中文字型缺乏的"瓶颈"。

三、一个成功的个案——《中华大字库》

《中华大字库》共收录了1000多套简、繁中文字体。每套字型的平均字数在6000左右,全套字库收录汉字的总数超过三百万字,是目前全球收录中文字型最多的字库光碟,如果以字符数量而计,也是目前全球收录字符数量最多的光碟字库。《中华大字库》的开发工作始于1991年,1994年曾经推出一个商业版本(发行:原广州嘉隆公司,制作:深圳先科公司),其后经过不断扩充、完善,至1999年,字型总数已经达1000款。1994年推出的《中华大字库》,虽然在人机界面、字型设计方面存在许多缺陷,但依然受到许多业界人士的推重。《计算机世界》、《中国计算机报》、《电脑报》、《软件报》、《电脑》杂志(软件协会会刊)以及香港亚洲资源媒体集团均先后作过不同程度的报道。《中华大字库》"字王"光碟不但提供了多种中文变体字型,更加有价值的是,系统还提供了大量的原创、半原创"新款手绘型"及各类"特种POP广告字型",例如:富贵体、仿古体、剪纸体、木刻体、肥仔体、新潮体、笨拙体……。

由于整个开发过程当中,全部是利用个人资源完成的,自然难免存在着许多问题,这主要体现在:

1,新字体的再生仍需要采用人机对话的交互方式方法进行,字体再造速度受到影响。

2,受设备条件限制,建造汉字知识库时,原始数据采样频率过低,影响了汉字再造的质量。

3,有关知识库仍需要进一步优化,以提高新款字型的再造速度和质量。

4,汉字再造的个性风格有待强化。

不过,瑕不掩瑜,就整体而言,《中华大字库》能够以十分低廉的成本和快速的制作周期,大量推出各种中文新款字型,依然是中文字型设计的一种成功可行的方案。

参考文献

《书法与美术字》,王诚龙、童曼之编著 湖南美术出版社1994年5 月
《模式识别导论》,沈清 、汤霖编著 国防科技大学出版社1991年5月
《电脑》杂志 何海群 中国软件协会1995年10月第27页
《联想记忆工程》,(日)中野馨卫作人著 国防工业出版社 1992年5月
《神经计算机》,王熙法等编著 上海拉技教育出版社 1996年9月
《计算机时代的汉语和汉字研究》罗振声等清华大学出版社1996年11月

字王

字王

微软

微软