摘要:当今时代是信息爆炸的时代,而视频是一种非常重要的信息呈现方式,越来越多的信息以视频的方式传递给大众,视频已经成为人们获取信息的一个不可或缺的媒介。而且随着现代科技的发展,信息数字化技术和多媒体技术得到了快速的发展,音频、视频等多媒体文件已经成为信息传递的主流媒介,随着这种多媒体技术和数字化技术的发展,视频数据的海量性是一种必然的趋势。
面对数量如此庞大的视频流时,人们如果想要快速获取所需要的信息,这变得比登天还难,如同大海捞针一般。因此一些相关科研人员把研究的方向转向了视频检索方面,对视频检索的研究方兴未艾,同时一发不可收拾。针对这一研究热点,基于视频内容与视频字幕有很强的语义相关性,我们可以通过提取视频字幕达到视频检索的目的。
基于OCR的视频字幕提取系统主要包括字幕帧检测,文本定位,字符分割和OCR识别几个部分。字幕帧检测是应用字幕帧检测算法来进行字幕帧的筛选,目的在于判断筛选出那些带字幕文字的视频帧,文本定位是找到包含文字的区域并用矩形框给出精确的定位,文本校正是利用radon hough变换等方法对偏转倾斜等失真的文字进行校正,图片分割是通过投影直方图分割出单行的文本的图片,前面的步骤都看一看做OCR识别的预处理。最后部分是OCR识别,OCR识别就是对文字图片进行光学字符识别。该系统基于这几个部分识别视频中字幕文字,很大程度可以解决基于视频内容的内容监管和内容检索。
关键词:信息时代;视频;数字化;文本定位;文本校正;OCR识别;字幕提取;内容检索
目录
摘要
Abstract
1.绪论-1
1.1研究背景-1
1.2研究目的及意义-1
1.3 本文的组织-2
2. 相关工作现状及分析-3
2.1技术研究-3
2.2技术应用-4
2.2.1 网络视频的内容安全监控:-4
2.2.2 视频检索领域的应用:-4
2.2.3 视频字幕翻译:-4
2.2.4 实时车牌识别:-5
2.2.5 快递单号扫描:-5
3.总体方案-6
3.1 开发平台-6
3.2 开发方案-6
4.视频字幕提取的关键算法-8
4.1字幕的检测定位-8
4.1.1字幕帧的检测-9
4.1.2 字幕的定位-10
4.1.3检测定位流程-11
4.2 文本校正和字符分割-15
4.2.1文本校正-15
4.2.2 字符分割-15
5.字幕文字识别-19
5.1文字归一化-20
5.2汉字分类特征选择-20
5.2.1 粗网格特征-21
5.2.2粗外围特征-21
5.2.3 局部笔划方向密度特征-22
5.3利用 tesseract进行文字识别-23
6.系统测试与结果分析-24
6.1字幕检测实验结果-24
6.2字幕定位与分类实验结果-25
6.3开展课题研究过程中遇到的一些问题-26
7.总结-27
参考文献
致谢