手写体汉字识别是模式识别的一个重要研究课题,目前已有很多研究成果。手写粗体汉字属于手写体汉字的一个研究分支,这些汉字多出现在圆柱体对联、碑文以及书法字中,由于手写粗体汉字的文字获取存在一定困难,且笔画较粗,特征提取复杂,使得整个手写粗体汉字识别系统的建立难于普通的汉字识别系统。考虑专门的研究文献较少,借助类似的识别系统方法,本文建立了初步的手写粗体汉字识别系统。在手写粗体汉字识别系统中,并行与串行细化算法的结合可以弥补单个算法的不足;LGBP算子作为特征提取的算法,简单易操作,Gabor特征能够多尺度多角度反映图像的特征,它们在识别领域已得到较好的应用;同时SVM在分类算法中取得较好的效果,这些算法的结合应用为手写粗体汉字的识别奠定了基础,并能够为古汉字的研究以及历史人文研究提供有利的工具。
本文的重点在于圆柱面汉字获取、手写粗体汉字细化及特征提取,主要做了以下工作:
(1)圆柱面手写粗体汉字获取及预处理。借助全景图投影和反投影的思想,提出了改进的柱面反投影方法获得平面的手写粗体汉字。然后对平面手写体粗体汉字进行灰度化、平滑去噪、二值化、图像增强以及文字切分等处理。
(2)针对手写粗体汉字细化会出现的细化模板较多,细化不全和串行算法的骨架非对称现象,提出了基于并行模板的手写粗体汉字串行细化算法,实验仿真表明该算法模板较少,速度较快,细化完全,骨架对称性较好。字切分等处理。
(3)介绍了手写体汉字的结构和统计特征提取算法,重点分析了Gabor特征和LBP算法的优点,最终利用LGBP+Gabor算法实现对手写粗体汉字的特征提取。
(4)利用LGBP+Gabor+SVM组合的算法对手写粗体汉字进行识别。SVM算法是一种基于统计学理论的机器学习算法,有较好的识别效果,通过与其他识别算法比较,证明了本文识别算法对手写粗体汉字识别的有效性。
最后,本文建立了手写粗体汉字的初步识别系统,并对所做的工作进行了总结与展望。