摘要:本篇论文从搜寻引擎的发展过程作为切入点开始切入,从中一点一滴地了解爬虫的实际使用意义和在学习生活中的价值,完成基本的了解的后接着又对当今的爬虫的发展态势实施了学习和研究,然后结合的前的学习和研究进一步地总结已有的经验,为下一步开展自己的研究打好一个可靠、稳固的基础。
就在我对网络爬虫从一开始时期以来一直到如今的发展历程有了相对全面的认识的后,我就得开始正式开始预备并且开始自己研究、分析分布式爬虫节点现有的实现技术,主要有一些爬行的方法、典型的、被验证过的页面的测试评价算法、还有如何对超文本标记语言页面文件实施分析、怎么样才能熟练使用多线程技术、怎么能在不同页面的间实现编码转换、还有要深入地了解什么是优雅爬行等等等等的诸如此类的东西。不仅如此,还要进一步学会怎么样能将这些重要又有用的技术实践在分布式爬虫节点里面。
当我能很好地完成对实践和基本概念的理解与掌握的后,接下来的就是把所学到的知识放到实际的工作当中去检验它们。最重点实施的是对分布型的爬虫节点实施最基本的理性解析;接着还需要对爬虫节点实施划分各个部分的功能,要使各个部分的职能都会有详细的调配,明确任务模块;接下来要对爬虫节点的工作顺序实施仔细全面的设计;在完成了上面的工作的后就要升华设计理念了,这一步的工作主要是要实现对爬虫节点具体类结构的设计工作。
终极的目的是完成一个分布式爬虫系统的雏形,并且在因特网上实施验证,实践是检验真理的唯一标准,然后再来看看爬虫节点在工作过后的状态,以此就可以验证分布式爬虫的可行程度和有效程度。
关键词:并行;爬虫;数据采集;
目录
摘要
Abstract
第一章 绪论-1
1.1课题研究背景-1
1.1.1搜寻引擎的发展-1
1.1.2爬虫的研究及应用意义-2
1.2工作的目的与意义-2
1.3主要工作内容简述-3
1.4本文组织结构-4
第二章 网络爬虫相关知识研究与关键技术概述-5
2.1 网络爬虫相关知识研究-5
2.1.1网络爬虫的研究历史-5
2.1.2网络爬虫的发展现状-5
2.2网络爬虫关键技术概述-6
2.2.1网络爬虫的爬行策略-6
2.2.2随机代理器-8
2.2.3页面解析-9
2.2.4优雅采集-10
2.2.5多线程技术-11
2.2.6消除已经出现过的页面-12
2.2.7页面的存储-12
第三章 分布式网络爬虫节点设计详解-14
3.1分布式网络爬虫节点基础逻辑设计-14
3.2分布式网络爬虫节点结构设计-15
3.2.1下载模块-17
3.2.2页面解析模块-18
3.2.3数据库存储模块-20
3.2.4优雅采集模块-20
3.2.5任务定位模块-21
3.2.6节点通信模块-22
3.3分布式网络爬虫节点详细程序设计-22
3.3.1整体框架-22
3.3.2爬行节点详细流程-23
3.3.3分布式网络爬虫节点类结构设计-26
第四章 系统实现与测试分析-29
4.1软件系统实现说明-29
4.2软件实验测评分析-32
第五章 结束语-36
[参考文献]-37
致谢-40