摘要:近年来,随着大数据时代的来临,在互联网这个行业中,最宝贵的资源之一就是数据,尤其在当今B2C时代,数据变得更加宝贵。海量数据蕴含着巨大的研究价值,挖掘数据在互联网行业中具有重要的意义。社交网络不断普及,社交平台覆盖面越来越广,传播速度加快,存在大量直接或间接数据,在各个垂直领域都存在对目标网站的数据进行实时抓取、分析并推送给目标用户的需求。
论文阐述了网站数据抓取(网络爬虫)的原理和组成结构,介绍了基于Python的Scrapy框架的各个组成部分和控制流程,然后以4个典型的高信息价值的网站:财经博客、本地论坛、房产网站、新浪微博作为数据来源进行数据抓取和分析,开发了专门针对这些网站的垂直数据抓取和分析的网络爬虫,将正则表达式匹配到的数据存储到MySql数据库并进行数据分析。本文分析采用正则表达式匹配算法/预定关键词进行用户特征分析,基于文本聚合进行智能分类,使用标签技术智能推送关联不同分类。最后结合最新的移动互联网技术,创新地使用了Android APP客户端技术将用户需要的信息实时推送和呈现到用户手机上。
本系统也可以较方便地拓展到其他各个行业的垂直网站,通过自动数据抓取和分析并推送到目标用户手机上,信息产生最大的价值,具有很好的应用前景。
关键词 Python爬虫;数据分析;用户特征分析;移动应用开发
目录
摘要
Abstract
1 绪论-1
1.1 研究背景及意义-1
1.1.1 研究的背景-1
1.1.2 选题的来源-1
1.1.3 研究的意义-2
1.2 国内外研究现状-2
1.2.1 国内的研究现状-2
1.2.2 国外的研究现状-2
1.3 研究的重点及技术路线-3
1.3.1 本文研究的重点-3
1.3.2 技术路线-3
2 开发工具和相关技术介绍-4
2.1 开发工具简介-4
2.2 Python简介-4
2.3 Scrapy爬虫简介-5
2.4 Django框架-6
2.5 Gson解析-7
2.6 Android开源图标库MPAndroidChart-8
3 环境搭建及安装-10
3.1 基于Python抓取的环境搭建及安装-10
3.2 Android环境搭建及安装-12
4 基于Python的媒体数据抓取-13
4.1 数据抓取(网络爬虫)技术-13
4.2 媒体数据抓取-14
4.3 媒体数据存储-16
4.4 本章小结-19
5 基于Python文本聚类的文本分析-20
5.1 概述-20
5.2 数据来源及分析目标统计-20
5.3 数据相关性分析原理-22
5.4 本章小结-22
6 博客数据智能分类和博主特征分析-23
6.1 概述-23
6.2 智能分类推送之财经博客-23
6.2.1 博主头像及其他属性相关规律-23
6.2.2 不同等级博主和回复率关系规律-23
6.2.3 股票分析之博主偏好-24
6.3 基于用户模型的博主行为特征分析-24
6.3.1 博客博主行为特征模型建立-24
6.3.2 用户行为特征分析实现-25
6.4 基于股票类型博主分析-25
6.4.1 基于关键词的股票流派分类库生成-26
6.4.2 博主博文流派倾向性统计-26
6.5 本章小结-26
7 基于Android客户端系统实现-28
7.1 基于第三方授权登录注册管理模块-28
7.1.1 模块功能-28
7.1.2 界面设计-28
7.1.3 授权实现-30
7.2 面向行为属性的博客博主分析模块-33
7.2.1 模块功能-33
7.2.2 界面设计-33
7.2.3 行为分析实现-34
7.3 基于行为特征的论坛智能分类模块-37
7.3.1 模块功能-37
7.3.2 界面设计-37
7.3.3 论坛智能分类实现-39
7.4 面向楼盘的房产分析模块-40
7.4.1 模块功能-40
7.4.2 界面设计-40
7.4.3 房产分析实现-42
7.5 基于微侦探模式的用户特征分析模块-43
7.5.1 模块功能-43
7.5.2 界面设计-43
7.5.3 用户特征分析实现-45
7.6 面向用户个性偏好的微乐推商品推荐模块-43
7.6.1 模块功能-43
7.6.2 界面设计-43
7.6.3 商品推荐-44
7.7 个人中心模块-45
7.7.1 模块功能-45
7.7.2 界面设计-45
7.7.3 个人中心-46
结论-47
致谢-48
参考文献-49