摘要:网络的迅速发展壮大,网络成为了大量信息的载体,那么问题来了,如何有效地提取并利用这些信息呢?搜索引擎(Search Engine),它作为一个帮助人们检索信息辅助工具,是用户访问万维网的窗口,如传统的通用搜索引擎baidu,Yahoo!和Google等。但是,通用搜索引擎既爬虫只具有通用性,无法满足一些特殊检索要求。通用搜索引擎难以支持语义检索,大多是基于关键字查询。为了定向获取各种人们所需的网络信息,聚焦爬虫应运而生,它能定向抓取相关网页资源。聚焦爬虫将目标定为抓取某一特定主题内容的网页并分析出相关数据,为用户查询数据减少了数据查询空间,节约了成本。本文就是利用python语言的Scrapy框架实现了一个广度优先遍历的聚焦爬虫爬取美团网的商家店铺信息,通过对获取的HTML源码使用Xpath进行解析。并将获取到的数据以列表的形式保存的json格式文件和MySQL数据库中。聚焦爬虫不仅可以爬取一个网站上的信息,聚焦爬虫还可作为定向信息采集器,定向的爬取网站的特定信息,如新浪的新闻信息,58同城的招聘和租房信息等。
关键词:爬虫;Python Scrapy;json;Xpath;广度优先遍历
目录
摘要
Abstract
一、引言-1
(一)研究课题背景及意义-1
(二)网络爬虫的发展史-1
二、环境及开发工具简介-2
(一)开发环境-2
(二)爬虫的概述-3
(三)Python简介-3
(四)Scrapy简介-4
(五)Xpath简介-4
三、基于Python爬虫分析-4
(一)需求分析-4
(二)功能概述-5
(三)系统可行性分析-5
1.技术可行性-5
2.经济和操作可行性-6
(四)开发环境搭建-6
1.安装Python-6
2.搭建Scrapy框架-7
四、系统总体设计-9
(一)爬虫运行原理-9
1.聚焦爬虫和通用爬虫原理-9
2.scrapy框架的架构-10
3.scrapy爬虫的数据流-11
(二) 功能结构设计与模块功能-12
1。SPIDER构造.12
2。SPIDER工作过程 .13
五、系统详细设计-14
(一)爬虫构造分析-14
(二) 爬行策略分析-17
(三) URL抽取,解析和保存-19
六、爬虫运行结果-19
(一) 爬虫运行-19
(二) 爬取结果-21
(三) 运行结果总结-24
七、结束语-24
致 谢-25
参考文献-25