( ! ) Notice: Undefined index: HTTP_REFERER in D:\192wamp\www\octobercms\index.php on line 61
Call Stack
#TimeMemoryFunctionLocation
10.0015252080{main}( )...\index.php:0
20.0021252160isfromse( )...\index.php:90
大数据与语言教育研究所-字形计算

字形计算

中文之美,见于字里行间。汉字寓意于形,经数千年磨砺而弥新,于互联网时代生命力依旧旺盛。然我辈已安于拼音输入,终日凝视屏幕而远离笔墨,指尖飞舞却提笔忘字,虽享技术之便利却与汉字之本日渐疏离。 传统字形之说多归于书法,着重书写技法,聚万千气象于笔端,而与当今侧重应用与推广,强调便捷用户体验之风相迥。值此大数据时代,此研究之目的在于以科学之方法分析汉字之形,究其本,重应用,挟技术之利实现字形之匹配,字形之变换,或笔迹之实时美化。 此研究涉及颇广,与计算机视觉,图形学,乃至机器学习多有交叉,互为表里。 望多多交流,多多指教。

  • 安维华 anweihua[at]blcu.edu.cn
  • 刘颖滨 liuyingbin[at]blcu.edu.cn

中国汉字有着悠久的发展历史,并且记录了中华文明几千年的发展历程。汉字书写能力的培养对于民族文化的传承具有十分重要的意义。然而随着计算机的普及,鼠标键盘的操作代替了汉字的手写工作,汉字书写正在逐渐脱离我们的日常生活,汉字书写水平的下降已成为一个不争的事实。

基于汉字书写的现状,汉字书写评测组的定位在于,以学生在学习写字的过程中所产生的手写汉字作为研究对象,以数字媒体处理、模式识别、机器学习等信息技术作为辅助手段,对汉字书写正确性和规范性的自动评测进行基础理论和应用技术方面的研究。我们的最终目标在于,实现计算机辅助的、无人值守的汉字书写教学和评测的自动化系统。

本课题组的研究具有很高的学术价值和应用价值。一方面,它能够探索和挖掘与书写规范相关的汉字字形结构的本质特征;能够更加深入地发展现有的汉字处理技术;能够为汉字书写习得理论的研究提供客观、丰富的样本数据。另一方面,它能够改进传统的汉字书写教学方法,改善教学质量;能够为各种汉字书写考试的信息化提供技术基础,提高自动化水平;而且能够为汉语学习者提供一种汉字书写自动评测的人性化工具,使汉字书写练习成为一种乐趣,从而为汉字文化传承和汉语国际推广起到推动作用。

汉字书写评测技术的研究与传统的OCR(即:光学字符识别)技术具有本质区别。汉字书写评测技术的根本任务是在已知目标汉字的前提下,评价手写样本的规范性;OCR技术的目标是在未知目标汉字的前提下,找到与手写样本最相似的模板汉字。虽然它们都涉及汉字字形的特征匹配,但是前者所要求的匹配结果更加准确,匹配程度更加精细,这就为字形匹配技术提出了更高的要求。所以,虽然OCR技术已经得到长足发展,并对汉字书写评测具有一定的借鉴意义,但是由于研究任务的不同,我们还需要深入发掘汉字书写评测的技术内涵。

目前,很多兄弟院校和科研院所也先后开展了计算机辅助汉字教学方面的研究。这些研究包括三类:第一类研究主要集中在汉字演化、组词、发音等方面的训练,这些成果有助于汉字的识别和自主学习,但是不涉及汉字的书写评价。第二类研究表现为简单的计算机辅助汉字书写练习,这些成果一般借助键盘、鼠标等输入设备,通过临摹、描红或多媒体手段,让书写者完成汉字书写过程。这是改进汉字教学的一种有效方法,但很少涉及汉字书写正误和规范的考核和评测。第三类研究探索了对汉字书写的笔顺、笔画、笔向等书写规则的评测。但这些研究还停留在实验阶段,它们能够评测的汉字集合较小,评价的侧面还只是表现为书写规则的评价,还不能对汉字书写的规范性给出定量的评价。

我们认为,汉字书写评测技术的未来发展应该以评测的全面化、精确化、智能化为主要目标,以多种学科技术的综合应用为手段,以探索更加合理的汉字形式化描述方法和人机交互方法为主要任务。由此可见,本课题组将汉字书写自动化评测技术作为研究目标具有一定的前瞻性。

目前,本课题组重点研究的问题包括:离线手写汉字的笔画还原技术;在线手写汉字的字形匹配技术;面向书写评测的汉字形式化描述方法;汉字书写评判侧面的挖掘方法;汉字书写评测的可视化反馈技术等。本课题组正在开发的应用系统包括:汉字笔顺练习工具;汉字部件练习工具;留学生汉字书写教学辅助系统等。

经过近三年的积累,汉字书写评测组已经积累了一定的成果。我们成功申请国家自然科学基金项目两项,发表学术论文10余篇,申请国家发明专利一项,培养博士生1人(已毕业)。