一种图文混合文本区域划分方法.doc

  • 需要金币2000 个金币
  • 资料目录论文助手 > 大学本科 > 工业大学 >
  • 转换比率:金钱 X 10=金币数量, 例100元=1000金币
  • 论文格式:Word格式(*.doc)
  • 更新时间:2020-11-19
  • 论文字数:12047
  • 课题出处:(将大紫)提供原创资料
  • 资料包括:完整论文

支付并下载

摘要:随着信息科学的发展,越来越多的信息被数字化。例如我们常看的书籍、报纸等,都出现了电子版。同时,很多的纸质文档需要被数字化,以方便更多人的阅读及传播。所以我们就需要对纸质的文档进行文本分析,以转变成电子文档。如果是纯文字的文档,电子化可能会容易些。但对于一些图文混合的文本,就需要先进行文本区域划分,使文本分析更加容易些。

因此,本文采用了一种基于伽柏滤波器和区域生长的文本区域划分的方法,并通过实验证明了该方法的可行性。该方法是将灰度化后的图片进行二值化处理,再伽柏滤波器进行分析。分析完后使用区域生长法进行分块,将区域分开来。再对分开的区域进行分析,以此得到文本区域划分的效果。该方法在伽柏滤波器参数的选择需要多次手动调节,才能确定出最合适的参数。在用区域生长法进行区域分块的时候,虽然能直接分割出某一区域,但仍需要手动确定这一区域是文字区还是非文字区。所以这种方法更适合一些分块较少的文本,否则需要大量的人工操作。

同时,本文方法也与基于数学形态的文本划分方法进行了比较。比较得出,基于数学形态的文本划分方法在处理上少了很多的复杂运算,但是划分得出的结果也相对模糊写。所以,在进行文本区域划分时,要根据文档样式选择恰当的分析方法。

关键词:图文混合;文本区域划分;伽柏滤波器;区域生长法;数学形态法

 

目录

摘要

Abstract

一、绪论-1

(一)研究背景-1

(二) 文本区域划分基本研究方法-1

1. 基于连通域的文本区域划分-1

2. 版面分割中文本区域最佳结构表示树的生成算法-2

3.基于数学形态的版面划分-3

4.基于分割线提取的版面分割算法-3

(三) 主要研究工作-3

(四) 论文章节安排-3

二、文本区域划分的理论基础-4

(一)图像分割的意义-4

(二) 边缘检测-5

(三) 区域分割-7

1. 峰谷法-7

2. 最优阈值法-8

3. 自适应阈值的选取-9

三、 基于伽柏滤波和区域生长的文本划分-9

(一) 伽柏滤波-9

(二) 基于区域的图像分割——区域生长-11

1. 区域生长的原理-11

2. 区域生长实现的步骤-12

四、基于数学形态的文本划分-12

(一)数学形态学-12

(二)划分步骤-13

六、实验结果及分析-14

(一) 实验过程-14

(二) 实验结果-15

1. 基于伽柏滤波器与区域生长法的文本划分-15

2. 基于数学形态的版面划分-16

3. 分析比较-18

六、结束语-18

(一) 研究总结-18

(二) 研究展望-19

参 考 文 献-20

致 谢-21

附 录-22


支付并下载

提示:本站支持手机(IOS,Android)下载论文,如果手机下载不知道存哪或打不开,可以用电脑下载,不会重复扣费