【摘要】随着因特网的飞速发展,越来越多的人们利用网络丰富自己的生活。通过互联网获取消息已经是人们熟知天下事的一种重要途径,往往人们不能在短时间内找到自己需要阅读的信息。
目前各种门户网站为我们提供了大量的新闻,然而每个人关注的只是大量新闻中的一部分,其他信息对用户来说是没有价值的。本次课题的研究目的在于通过大数据平台为用户提供个性化的新闻资讯平台,当用户打开站点时尽可能的为用户提供用户感兴趣的新闻资讯,为用户找到感兴趣的信息节约时间。
爬虫与数据仓储主要为本平台的个性化新闻资讯平台提供新闻来源、为数据分析提供数据、为系统和用户日志提供存储和分析功能。
本平台的信息来源主要依靠爬虫从互联网抓取数据,爬虫利用Python、BeautifulSoup从各大门户网站进行新闻分类、链接、内容进行抓取。数据仓储部分利用非关系型数据库对用户数据信息、新闻文本信息、用户浏览记录进行存储。同时还要对部分用户行为日志进行分析,得到一些网站浏览的基础数据存储到关系型数据库中,最终通过前台展现出来。
【关键词】个性化新闻资讯;爬虫;数据仓储;Mongodb
目录
摘要
Abstract
1 课题概述-1
1.1-课题研究背景及意义-1
1.2-课题研究思路-1
1.3 课题主要内容-2
2 可行性分析-2
2.1 社会可行性-2
2.2 技术可行性-2
3 需求分析-3
3.1 系统角色分析-3
3.2 功能需求分析-3
3.2.1 爬虫模块-3
3.2.2 数据仓储模块-4
4 数据库系统设计-5
4.1 数据库结构设计-5
4.2 数据库表设计-6
5 系统功能设计-7
5.1 爬虫系统设计-7
5.2 数据仓储设计-8
6 系统实现-9
6.1 系统具体实现-9
6.1.1 管理员登录-9
6.1.2 站点管理-9
6.1.3 分类管理-11
6.1.4 映射管理-11
6.1.5 链接管理-12
6.1.6 新闻管理-12
6.1.7 日志采集-13
6.1.8 数据清洗-14
6.1.9 数据转化-15
6.1.10 数据迁移-17
6.1.11 数据展示-18
7 系统测试-19
7.1测试概述-19
7.2测试用例与结果-19
8 总结-22
参考文献-25
致 谢-26