我的码表是最好的 最好的码表是我的
制作说明:
经过长时间的积累和不断地修订,现在终于可以推出一个最后定稿的电子表格,相信我的这个努力能够为追求完美的词库制作者们提供一个比较满意的模板,大大地便捷词库的制作。
这里要处理的是GB2312范围内的98五笔编码。
未做重码分流的全码的原始重码共有253对(二重码244对、三重码7对、四重码2对)
经过分流处理后将6763个汉字的编码分为I、II、III共三类:
I.强制简码
包括尽人皆知的一简(25个)、二简(613个)和作者独创的“强制三简”(127个),都做出简不出全处理。
强制三简是这样来的:将通过一、二简分流之后剩余的“四码重码字对”再做“第三次分流”。这些重码字对若有三简码位可安置者,则在重码字对之中择其常用者做安置,使其变为三简字,而去除其四级编码;相应地,许多那些不常用的重码字将变为“无重码”字,有些四重字变为“三重字”。
例如:
aewu 苏 萸
afqb 芜 芫
ahdd 菲 匪
ahkm 颐 赜
ahnh 臣 卧
akhm 匮 蒉
amhk 匝 萜
……
通过第三次分流可以分成两部分,
第一部分,即强制三简:
aew 苏
afq 芜
ahd 菲
ahk 颐
ahn 臣
akh 匮
amh 匝
……
第二部分为“无重码四码字”:
aewu 萸
afqb 芫
ahdd 匪
ahkm 赜
ahnh 卧
akhm 蒉
amhk 萜
……
通过三次分流,原来的253对重码被降为80对(76对二重码字和4对三重码字),重码降低率为100%×(253-80)/253=68.38%。在消除重码方面,优化已经达到了极限。
II.普通三简
这种三简字由于四简码位是自身独有,因而其“四码身份”予以保留。共3339字。
III.全码
1、无重码1
是由“第三次分流”得出来的四码字,共124字。
2、无重码2
包括三码字和四码字,共2372字。
3、二重码字152字(76对)
三重码字12字(4对)
这些重码字的排序:优先的字位于上方,靠后的字位于下方。优化或不需要优化的码表保持该顺序均可,不满意现有词序者可以自行调整,工作量并不大。
另外附上“释放三简字”:
传统的王码98码表有许多三简码位仍为一、二简字占据着,使得许多四码字不能升格为三简字。只有彻底解决了这些问题,才能最大限度、最高效地开发利用所有三简码位。这种优化工作其实是很重要的,只是平时并没有得到足够重视而已。
1.将二简字占据的所有三简码位全部腾空,二简字按出简不出全处理,三简码位尽量安置所有可能的四码字。通过这样的工作得出的三简字称为“释放三简”。
2.传统王码98码表不具备的释放三简字共170个。
3.释放三简字大多数分布在“第二类、普通三简”之中,有极少数分布在“第一类、强制简码”的强制三简之中。
4.在表格中为了醒目,所有的释放三简的编码都以红色标记。
为了便于制作GBK词库,表格中专设有“生僻字”一栏,编码以蓝色标记。
打算制作非单字词库的作者可以自行添加一简字的全码。
想做完全的出简不出全的作者可将第II类(普通三简)的四全码删除。
综上所述,作者做了两个优化工作:
1、设立强制简码最大限度地降低了重码。
2、设立释放三简最高效地开发了三简码位。
收藏 分享 评分