摘要:满文文档图像的预处理是满文字符识别的关键步骤。本文主要研究的是满文文档图像的预处理和倾斜校正、文档列提取、文档字符提取三个模块的实现方法。其中,预处理和倾斜校正模块内容是将获得的文档图像进行灰度化、二值化和高斯平滑去噪,并采用霍夫变换法对图像进行倾斜校正操作。文档列提取模块中使用投影法对文档的目标信息进行列提取。投影法即对二值图像进行垂直投影,然后再对它的投影结果进行扫描,找到最合适切割点,从而可以完成对满文列的分割提取。文档字符提取模块中使用连通域法对文档的目标信息进行字符提取。连通域法通过连通域标记把二值图像的相同值区域进行连通标记后,然后对其进行分析,欠分割的字符需要进一步切分,而过分割的字符进行相应的合并,然后将每个字符提取出来。实验结果表明,本文采用的方法能够实现对满文文档预处理并提取满文列图像和满文字符。
关键词:满文文档;图像预处理;倾斜校正;霍夫变换;列分割;字符提取;连通域分析
目录
摘要
Abstract
1 绪论-1
1.1 本课题的研究背景-1
1.2 本课题的研究现状-1
1.3 本课题研究的主要内容-2
2 图像预处理与倾斜校正-4
2.1 图像灰度化-4
2.2 图像二值化-6
2.3 图像去噪-9
2.4 图像的倾斜校正-10
3 基于投影法的列分割方法-13
4 基于连通域分析的字符提取方法-15
4.1 连通域的标记-15
4.2 连通域的分类-17
4.3 连通域的分析-18
4.3.1 欠分割处理-19
4.3.2 过分割处理-20
5 实验结果和分析-23
结 论-29
参 考 文 献-30
附录A 程序全文-31
致 谢-53