摘要: 随着科学技术的迅猛发展以及低成本高性能移动、数码或可穿戴设备的成熟和普及,越来越多的新型应用场景中需要利用图像中的文字信息,这就让在各种场景中的文字提取技术成为了近些年来计算机领域的热门研究课题。但人工的去分析这些信息比较困难,所以越来越多的研究人员致力于文字检测技术的研究。由于我国是一个拥有56个民族数十种文字的国家,研究文种无关的图像中文字区域提取技术具有重要的理论意义和实用价值。
本文提出了一种基于多示例学习的图像文字区域检测算法。主要内容如下:
(1)图像库建立。通过互联网对图像进行采集,采集图像分为包含文字和不包含文字两类。
(2)图像分割与提取特征。采用基于K-means聚类算法对图像进行分割与提取。
(3)图像区域检查算法。采用基于高斯过程模型的多示例学习算法实现对图像的精确检测。
针对本文的算法,我们在图像样本中进行了验证,取得了很好的效果,具有较快的检测速度和较好的检测精度。
关键词:K-means图像分割;多示例学习;图像特征提取
目录
摘要
Abstract
1绪论-1
1.1 本课题研究目的及意义-1
1.2 国内外研究现状-2
1.3 本课题研究内容-3
1.4 本文组织结构-3
2 相关技术-4
2.1 图像特征提取方法-4
2.1.1 颜色特征的提取-4
2.1.2 纹理特征的提取-4
2.1.3 形状特征的提取-5
2.1.4 空间关系特征提取-5
2.2 多示例学习方法-5
2.2.1 多示例学习法概述-5
2.2.2 多示例学习与传统学习框架的区别-6
2.2.3 轴-平行矩形算法-7
2.2.4 K-近邻算法-8
2.2.5 DD算法-9
3 算法-11
3.1 图像库的建立-11
3.1.1 图像的选择-11
3.1.2 图像的处理-12
3.1.3 建立训练集和测试集-13
3.2 基于K-means的图像分割和特征提取-14
3.2.1 K-means聚类算法-14
3.2.2 基于matlab进行批量处理-15
3.3 基于高斯过程模型的多示例学习算法-15
4 仿真实验-19
结 论-22
参 考 文 献-23
致 谢-24