现发现汉字笔画形状具有依次递增的特征,并创建了易记、简明的数字模式。任选一个汉字(按国家笔顺标准)排列其全部的笔画,在每个笔画上注记相应的标号,串联这些标号就是该字的数字序号。以此类推,可知每个汉字的序号以及所有汉字的先后顺序。此法的目的是出版一种直接从(字典)正文边翻页边寻找“目标字”的汉字字典。创建笔画数字模式、更新汉字字序,能为计算机的模式识别、汉字信息处理提供新路径。
汉字是中国人发明的记录汉语的文字书写系统,也是世界上唯一被沿用至今的古老文字,在漫长的历史过程中,人们不断创造新的汉字以满足生产和生活的需要,有些字义也会随时间的变化而变化。汉字的词汇义项众多,通用、假借频繁,初学者不易把握字义,因此提供音韵、注解、例句等内容的工具书应运而生。
《说文解字》由东汉文字学家许慎于公元121年编著而成,其开创了部首检字的先河。此后的1900多年里,经唐宋明清等朝代多次改进,人们不断探究更简易、更合理、更巧妙的汉字排序法。
当前,字典和辞书常用的排序法是音序排列法、部首笔画排列法、号码排列法。现行的排检法或多或少都有缺点,音序排列法,同音字的排序有分歧,读音未知的汉字无法检索;部首排列法,未统一立部和归部,查找汉字时,要分别在部首目录、检字表、正文三个区域寻找才能完成;笔画排列法,相同笔画数的汉字存在二义性;号码排列法,笔形和代码之间没有理据,规则比较复杂,重码字较多。根据多年的实践和研究,笔者提出一种新的“笔画形状数字模式”。
笔画形状的数字模式
现行汉字的笔画形状分类方法很多,最常见的一种是将笔形分为31个,其中包括6个基本笔形和25个派生笔形。
目前,现行的汉字笔画分类、命名还不统一,有把二三十种笔形归入“横、竖、撇、捺、折”五种基本笔画类型的,还有个别笔形归类不当的问题(如把“竖钩”归入“竖”)。为了呈现内聚、均匀的风格,部分字中的笔画要发生形变,规范字形中笔画形变任意性的现象时有发生,这表明我们对笔画的整理工作做得不细致,规范水平还有待提高。
在制作笔画形状的图谱时,因笔画的分类分级、编写记忆口诀较为困难,通过对断裂、散乱且有残缺的几十个汉字笔画进行修复,最终整理成(4大脉系)10串“逻辑链条”,并组成一幅汉字47个主干笔形的图谱。
笔画形状分类分级示意图(图1)的诠释及主要特点为以下五点。
第一,左侧的第0、1、2、3组笔画形状的尾梢是顺时针旋转,右侧的第4、5、6、7、8、9组笔画形状的尾梢是逆时针旋转。
第二,左侧第0组与右侧第4组的笔画形状大致呈现左右对称。第1组与(整体顺时针旋转90°的)第6组也是大致呈现左右对称;同理,对照第2组与第7组、第3组与第8组也是如此。
第三,从笔画形状的外部轮廓上看,整齐一致、协调美观,10组图形具有高度的相似性。
第四,同一组的笔画形状有依次递增的明显特征。
第五,依据分类、分级关系,只要记住4个笔画(即第0、1、4、6组的第1个笔形),就能知道任何一个笔形的所在区域及顺序。
笔画的标号、代号和名称
“据形系联”(许慎语),这句话用于区分笔画也很合适。我们以“相同尾梢”作为标准,先划分笔画的类别,再在同类别中按照笔画形状的折点数量、单体长度排列次序,并编制笔画的标号、代号、名称表。
横向叠层的有10个组,纵向并列的有5个级(组内序号),全表共50(10×5)个笔画。其中“(现行)笔画”25个,占位率50%;“准笔画”(笔画家族的“新生儿”,当前为预备梯队)22个,占位率44%;“泛笔画”(前两项之和,文中多用此义)47个,占位率94%;还有空位3个,占位率为6%。
第0组5个笔画,对应的标号(左上角)是01、02、03、04、05;对应的代号(右上角)是P1、P2、P3、P4、P5;对应的名称(左下角)是撇一、撇二、撇三、撇四、撇五。其余的9个组以此类推。
每个笔画都是两位数字的标号,标号由组号、级号组成,组号在十位上、级号在个位上(这里的标号也具有序号功效);代号由该笔画的拼音首字母、组内序号两项组成;名称由该组名、组内序号两项组成。
标注“*”的笔画有P1、P2、P5、S1、S2、S3、X2、X4、L2、L4、D1、D2、D3、H1、H2、Y3、F3、T2、T4,共19个,可作部分汉字的第一笔;未标注的笔画则不能用作汉字的第一笔。
经过整理、挑选、剥离47个笔形,组成了一幅汉字笔画形状的主干图谱。
折点之处有停顿的,通常是墨迹加重、加宽(最常见的一种),如“又”第1笔的折点、“台”第1、4笔的两个折点。
折点之处无明显的折角(也称作“弯”),书写时不做停顿,平滑而过,如“儿”第2笔的第1个折点、“朵”第2笔的第2个折点。
折点之前由粗变细、之后由细变粗,折点在最细的部位。例如,“队”(左耳刀旁)第1笔的第2折点,“巡”第1、2、3笔的折点(在印刷宋体中似连非连,有的手写楷体则是完全分开的)。
折点的重叠区域有意延长、墨迹似有“漂移”的现象,如“乡”(1画字)的第2、4折点,“之”(2画字)第2笔的第2折点,“专”(3画字)第3笔的第3折点、“水”(3画字)第3笔的折点。本条放宽了“折点”的定义范围,因此产生了“准笔画”,并使“泛笔画”的总数量大幅增加。
另外,增加了几个一笔画,如N2、N3、N5、D3、D4等,还有两个一笔画成了单体的汉字,如“了”(L4)、“乡”(P5)。部分汉字的笔画数量有所减少,如“红”的笔画数从6画变成5画、“飨”从12画变成9画。
另外,要注意,“マ”与“厶”,看似相像,其实二者的笔画数不同。“マ”是一笔画;“ㄙ”是由“ㄥ”和“丶”组合而成,书写时中间要有一次收笔(笔尖离开纸张),不是一笔画,其笔画数是两个。
用笔画的标号给汉字排序
两个或两个以上的汉字放在一起便会存在排队、排序的问题。
汉字查字法或称排检法,从编者的角度来说是排序,从使用者的角度来说是检索。排序要合理、简易、科学,检索才能轻松、准确、快捷,甚至仅依靠扫视(直接翻页寻找)就能查到要查的字。
2021年3月1日,教育部、国家语委联合发布实施《通用规范汉字笔顺规范》(GF0023-2020),为社会通用层面的汉字教学与研究、信息处理、排序检索、辞书编纂等提供了重要依据。
一个汉字,先按笔顺排列其全部的笔画,并在每个笔画上加注相应的标号,再把这些标号串联起来就是该字的序号(相当于该字的身份证号码)。
排序规则,即选出定量的汉字,先对比这些汉字第1个笔画的标号(两位数),按标号从小到大排序。如果多个汉字第1个笔画的标号相同,就对比其第2个笔画的标号,从小到大排序。以此类推,直到把选出的全部汉字都排好为止。也可以用代号给汉字排序,代号排序和标号排序的规则大致相仿。这两种排序方法得出的汉字顺序是一样的,以下为示例。
中:丨(11、S1)、┐(12、S2)、一(61、H1)、丨(11、S1)。
①标号序:11、12、61、11→11126111;
②代号序:S1、S2、H1、S1→SS2HS。
国:丨(11、S1)、┐(12、S2)、一(61、H1)、一(61、H1)、丨(11、S1)、一(61、H1)、丶(51、D1)、一(61、H1)。
①标号序:11、12、61、61、11、61、51、61→1112616111615161;
②代号序:S1、S2、H1、H1、S1、H1、D1、H1→SS2HHSHDH。
运用此方法为“她用新华字典查字”8个字排序,如下所示。
她:①520161221172;②D2PHX2SY2
用:①0122616111;②PX2HHS
新:①51615101616121515101016111;②DHDPHHXDDPPHS
华:①011101726111;②PSPY2HS
字:①5151023461;②DDP2L4H
典:①1112611111610151;②SS2HSSHPD
查:①611101411112616161;②HSPNSS2HHH
字:①5151023461;②DDP2L4H
这8个字的顺序依次是华、用、典、字(出现了两次)、新、她、查。
以上示范了(所抽样的)汉字的新的“字序”“字典序”,此排序方法的优点是准确、清晰,让人们从视觉上、逻辑上可以轻松地分辨汉字的先后顺序。
汉字的排序方式及其使用的范围为以下几点。一是笔画标号的排序法,适用于计算机汉字信息处理技术应用;二是笔画代号的排序法,适用于字典正文、图书档案资料的标注及索引;三是笔画名称的排序法,适用于学校汉字汉语教学。
汉字的检索
编排工具书索引、编制图书档案资料、排列姓名次序,以及汉字信息处理等,需要有一个合理、巧妙的汉字字序排列法,以便查找。
汉字笔画有50个,可用作单字第一笔的只有19个,因此字典的正文也划分为19个区域。在字典正文页眉处位置列出本页第一个和最后一个汉字的代号序,并给两个代号序之间加上一个连接号。如果某页的第一个字是“贺”,则写“X2PSS2HSS2PD”。
汉字的“第1部件”都应标注在本页页眉位置。同时,可标注在汉字左侧的空白位置,以便使用者查找汉字。要查找某个字,从该字的第1笔画、第1部件开始,直接翻页,用扫视法可快速查找。例如,要查“笑”字,先从字典正文找到第1笔画——“撇”,再找到第1部件——“”,这样,就能查到“笑”字。
虽然采用上述汉字检索方法,字典可以取消检索表,但是为了让使用者有适应过程,可设立(过渡性的)检索表。把检字表划分为19个(第1笔画)区域,再按汉字的笔画数量从少到多区分若干类,同类汉字也按照(上述)字序排列,如“笑”字排在“撇”区的“10画”区内。
汉字信息处理
光学字符识别法(OCR)是把文字看作一个小的图像,采用图像扫描仪等设备对文稿进行扫描,把文稿上的文字变成强弱两种电信号,再变成二进制数0和1,储存于计算机。另外,还有统计模式识别方法,但这两种方法使用的效果并不理想。
在笔画(形状)的数字模式里,笔画的分类和编号带有显著的“数理感”,如果能在汉字的每个笔画上都“暗记”其标号,而形成一种“逻辑模式识别法”,也许会优于光学字符识别法、统计模式识别法。
如果采用汉字新的字序,通过调试或升级软件,或许能将“交换码”与“内部码”这两种码合并或统一,可使计算机的智能识别、汉字信息处理变得更加轻松快捷。
(作者单位:1.宁夏银川市市场监督管理局;2.北京市中国航天科工集团第三研究院;3.广东省深圳市中国联通公司)