摘要:大数据时代使得数字图像的数量和规模与日俱增,给图像处理带来挑战。提高图像识别的效率和速率,对图像物体检测与识别具有一定的现实意义。
深度学习DL(Deep Learning)是近几年热门的一种含有多层结构的深度神经网络。通过学习一种深层非线性网络结构,提高对复杂分类问题的泛化能力。
由此而言,在图像检测难度较大的情况下,为达到更高的处理效率和准确率,运用深度学习技术便顺理成章。本选题将研究应用机器学习方法的最新成果深度学习来实现目标类别检测。
本文的主要工作包括:
(1)查阅近年来的深度学习及目标检测的相关文献资料,了解深度学习和图像检测算法的国内外研究现状,概述深度学习的发展及其机理和训练方法,研究深度学习的Caffe框架及卷积神经网络、Fast R-CNN等机理;
(2)在Linux系统下搭建Caffe学习框架,应用CUDA并行架构,采用基于AlexNet网络的图像目标检测Fast R-CNN模型,通过交替无监督和有监督学习训练网络,最终实现对图像目标人、猫、车、沙发等二十个类别的检测;
(3)通过实验验证Fast R-CNN在数据集PASCAL VOC 2007的检测效果较为理想,证实使用深度学习进行图像目标检测具有可行性和有效性。
关键词 目标类别检测;深度学习;卷积神经网络;Fast R-CNN
目录
摘要
Abstract
1 绪论-1
1.1 课题背景-1
1.2 研究目的及意义-2
1.3 国内外研究现状-2
1.3.1 国内研究现状-2
1.3.2 国外研究现状-3
1.4 论文组织结构-4
2 深度学习相关技术-5
2.1 深度学习概述-5
2.2 深度学习机理及训练方法-6
2.2.1 深度学习机理-6
2.2.2 深度学习训练方法-6
2.3 卷积神经网络CNN-7
2.3.1 卷积神经网络的网络结构-7
2.3.2 卷积操作-8
2.3.3 子采样(池化)操作-9
2.4 本章小结-10
3 深度学习框架Caffe-11
3.1 Caffe概述-11
3.2 Caffe层次结构简介-11
3.2.1 Blob数据-11
3.2.2 Layer的计算和连接-12
3.2.3 Net的定义和操作-12
3.2.4 Loss简介-13
3.2.5 Methods-13
3.2.6 Solver简介-13
3.3 Caffe中的机器学习相关内容介绍-14
3.3.1 GDM梯度下降法-14
3.3.2 SGD随机梯度下降法-14
3.3.3 设定学习率和动量的经验法则-15
3.4 本章小结-16
4 Fast R-CNN目标类别检测模型机理-17
4.1 系统基本框架AlexNet-17
4.2 R-CNN模型-18
4.3 SPP-Net模型-19
4.4 Fast R-CNN模型-19
4.5 本章小结-20
5 基于深度学习的图像目标识别与分类的实现-21
5.1 硬件及软件环境介绍-21
5.2 基于深度学习的图像目标分类与检测的具体实现-21
5.2.1 下载数据集-21
5.2.2 解压生成VOCdevkit文件夹-21
5.2.3 建立链接-22
5.2.4 下载预计算的目标建议-22
5.2.5 下载预训练的ImageNet模型-22
5.2.6 训练Fast R-CNN-22
5.3 系统实验测试与分析-23
5.3.1 数据集与评测指标-24
5.3.2 算法及参数测试分析-24
5.4 本章小结-27
结论-28
致谢-29
参考文献-30