摘要:互联网高速发展、海量数据应运而生,“大数据”时代已经悄然到来。一方面,丰富多彩的信息在很大程度上方便了人们的工作生活,另一方面,在海量的数据面前,信息的查找和定位却变得更加困难。通用搜索引擎近些年获得了极大的发展,它可以方便人们对信息的检索,但是在相对专业的问题面前,它的搜索结果并不能满足人们对访问精度的需求。
因此,一个专业的主题搜索引擎便显得尤为重要,而网络爬虫正是解决这一问题的重要手段之一。农业信息是关乎国际民生的重要内容,在国民的日常生活中占据着重大的地位。本文以中国农业信息为例,经过分析搜索引擎的原理,设计出一个基于Python语言的网络爬虫抓取网络上的农业资讯,并将它保存到本地的数据库sqlite中去,然后借助PyQt,开发一个GUI应用程序,使得用户可以浏览爬取的信息并通过搜索框搜索自己想要访问的内容。
关键词:Python;网络爬虫;农业信息;BS;PyQt;
目录
摘要
Abstract
一、绪论-1
1.1课题背景-1
1.2研究意义-1
1.3本文主要工作-2
1.4论文的组织结构-2
二、相关技术介绍和理论分析-3
2.1 Python-3
2.2网络爬虫-3
2.3网页搜索策略-4
2.3.2广度优先搜索-4
2.4数据库Sqlite-5
2.5 Pyqt-5
三、系统的总体设计-6
3.1系统环境和配置-6
3.2系统总体架构设计-7
3.3网络爬虫的设计-8
3.4数据库设计-9
3.5用户界面设计-9
四、系统的详细设计与实现-11
4.1网络爬虫的详细设计与实现-11
4.2数据库的详细设计与实现-13
4.2应用程序的详细设计与实现-14
五、系统测试-16
5.1系统文件结构-16
5.2应用程序UI的展示-16
5.3应用程序功能的测试-16
六、总结-20
6.1论文工作总结-20
6.2研究展望-20