基于Python的网络爬虫.docx

  • 需要金币1000 个金币
  • 资料目录论文助手 > 论文(New) > 本科论文 >
  • 转换比率:金钱 X 10=金币数量, 例100元=1000金币
  • 论文格式:Word格式(*.doc)
  • 更新时间:2020-11-18
  • 论文字数:8272
  • 课题出处:(将大紫)提供原创资料
  • 资料包括:完整论文

支付并下载

摘要:进入21世纪,我们迎来一个信息急速膨胀的时代,随着互联网的迅速发展,互联网上的信息过载,这使得想要通过一些人工的方法准确地搜索信息变得很有难度,在粮食价格方面,很多最新的信息都通过互联网来发布,因此,为了有效,准确地从大量的数据中提取出我们需要的信息,本论文确定了通过使用基于Python的scrapy爬虫框架来有效地提取信息。从而第一时间有效、准确地获得我们想要的爬虫信息。

-本论文详细分析了粮食价格的在网络上的信息特点,并根据这些特点设计了相关的爬虫核心算法,在scrapy的框架基础下进行了深度定制,从而实现粮食价格的爬取系统,在此过程中,我们多次使用了xpath和正则表达式来实现数据的识别和过滤。

网络爬虫是一段用来自动提取网页的代码,而Python是当下流行的程序设计语言。使用基于Python编写的网络爬虫,则可以有效地根据设计抓取指定网页的信息。本论文选择跟人们生活息息相关的粮食信息为主题,通过使用网络爬虫进行有效的抓取,再使用数据库加以记录和分析并建立索引,从而实现之后的查询和检索,继而实现对粮食价格趋势的分析以及粮食的溯源。在此过程中,我将综合应用到所学的知识,加深对程序开发的理解。

  【关键字】网络爬虫;Python;scrapy;粮食价格

 

目录

摘要

Abstract

第一章 引言-1

第二章 相关技术介绍-1

2.1 Python-1

2.2 Scrapy-2

2.3数据消重-2

2.3.1消重的意义-2

2.3.2消重的实现方法-2

2.4 爬行策略浅析-3

2.4.1搜索策略-3

2.4.1.1 深度优先-3

2.4.1.2 广度优先-4

2.4.2 搜索策略的选择-4

第三章 系统需求分析及模块设计-5

3.1 系统需求分析-5

3.2 各主要功能模块(类)设计-5

3.3 scrapy爬虫工作过程-5

第四章 系统分析与设计-7

4.1 爬行策略分析-7

4.2 URL抽取,解析和保存-7

4.2.1 URL抽取-7

4.2.3 URL及数据的保存-9

第五章 系统实现-9

5.1 实现工具-9

5.2 爬虫实现及工作-10

5.3 URL解析-12

5.4 数据保存-13

第六章 系统测试-15

第七章 总结-17

参考文献-18

致谢-19


支付并下载

提示:本站支持手机(IOS,Android)下载论文,如果手机下载不知道存哪或打不开,可以用电脑下载,不会重复扣费