摘要:随着全球互联网技术的发展,越来越多的信息通过电子平台的方式进行传播,大大为我们的生活提供了方便,但是,也给我们提供了不便性。由于信息量的巨大,有可能无法凭借肉眼来对所需信息进行识别以方便后续的处理,这就要求我们能够通过机器识别的方式来提取出电子平台信息中的各个文字内容。因此,如何设计出一种比较有效的电子信息文字识别系统,成为了一个关键问题。
本文通过对电子信息文字识别技术进行分析,对两大常见的应用场景进行文字提取实验。其中,包括扫描图像文件中文字信息的提取以及电商平台图像中文字信息的提取。本文通过利用图像的灰度处理、二值处理、边缘处理、以及联通域分区等方法将对应的文字内容在图像中进行提取,然后根据每个文字的垂直与水平像素特征选择出与文字特征库中最相近的文字进行对应输出,最终成功对电子信息文件的文字进行识别。
通过测试,本文提出的算法可以满足在给出对应文字特征库下对一些简单的图像进行文字识别,能够基本满足任务书的指标要求。
关键词:文字识别 图像文件 文字分割
目录
摘要
ABSTRACT
1 引言-1
1.1 课题背景-1
1.2 研究意义-1
1.3 Matlab简介-1
1.4 Matlab与基本图像处理-2
2 图像中文字识别过程的关键技术-4
2.1 图像的灰度处理-4
2.2 图像的二值处理-4
2.3 图像的边缘分割-5
2.4 图像中文字分割-6
2.5 图像中文字识别-7
3 扫描图像文件中文字识别-10
3.1 扫描图像文件的特点与流程-10
3.2 图像去噪处理技术-11
3.3 扫描图像文件测试-11
3.4 测试结果与分析-16
4 电商平台图像文件中文字识别-18
4.1 电商平台图像文件的特点与流程-18
4.2 图像直线滤除技术-19
4.3 图像联通域分区技术-19
4.4 图像区域去除-21
4.5 电商平台图像文件中文字识别测试-22
4.6 测试结果与分析-26
5 总结与展望-27
参考文献-28
致谢-29