摘要:随着信息科学的发展,越来越多的信息被数字化。例如我们常看的书籍、报纸等,都出现了电子版。同时,很多的纸质文档需要被数字化,以方便更多人的阅读及传播。所以我们就需要对纸质的文档进行文本分析,以转变成电子文档。如果是纯文字的文档,电子化可能会容易些。但对于一些图文混合的文本,就需要先进行文本区域划分,使文本分析更加容易些。
因此,本文采用了一种基于伽柏滤波器和区域生长的文本区域划分的方法,并通过实验证明了该方法的可行性。该方法是将灰度化后的图片进行二值化处理,再伽柏滤波器进行分析。分析完后使用区域生长法进行分块,将区域分开来。再对分开的区域进行分析,以此得到文本区域划分的效果。该方法在伽柏滤波器参数的选择需要多次手动调节,才能确定出最合适的参数。在用区域生长法进行区域分块的时候,虽然能直接分割出某一区域,但仍需要手动确定这一区域是文字区还是非文字区。所以这种方法更适合一些分块较少的文本,否则需要大量的人工操作。
同时,本文方法也与基于数学形态的文本划分方法进行了比较。比较得出,基于数学形态的文本划分方法在处理上少了很多的复杂运算,但是划分得出的结果也相对模糊写。所以,在进行文本区域划分时,要根据文档样式选择恰当的分析方法。
关键词:图文混合;文本区域划分;伽柏滤波器;区域生长法;数学形态法
目录
摘要
Abstract
一、绪论-1
(一)研究背景-1
(二) 文本区域划分基本研究方法-1
1. 基于连通域的文本区域划分-1
2. 版面分割中文本区域最佳结构表示树的生成算法-2
3.基于数学形态的版面划分-3
4.基于分割线提取的版面分割算法-3
(三) 主要研究工作-3
(四) 论文章节安排-3
二、文本区域划分的理论基础-4
(一)图像分割的意义-4
(二) 边缘检测-5
(三) 区域分割-7
1. 峰谷法-7
2. 最优阈值法-8
3. 自适应阈值的选取-9
三、 基于伽柏滤波和区域生长的文本划分-9
(一) 伽柏滤波-9
(二) 基于区域的图像分割——区域生长-11
1. 区域生长的原理-11
2. 区域生长实现的步骤-12
四、基于数学形态的文本划分-12
(一)数学形态学-12
(二)划分步骤-13
六、实验结果及分析-14
(一) 实验过程-14
(二) 实验结果-15
1. 基于伽柏滤波器与区域生长法的文本划分-15
2. 基于数学形态的版面划分-16
3. 分析比较-18
六、结束语-18
(一) 研究总结-18
(二) 研究展望-19
参 考 文 献-20
致 谢-21
附 录-22