摘要:目前,国内外的大数据有效性研究点击流数据分析主要在电子商务领域展开,但也是刚刚起步的阶段,存在很多缺点和问题,比如对用户的定位不准确、推送的产品不够合适等等,不能有效解决产品供应和用户需求之间的矛盾,这些问题产生的原因大多是收集的数据有效性低,因此,研究大数据有效性越来越迫切。
本文提出了研究大数据的质量,检测数据的准确性、完整性、一致性等维度,进行数据净化,筛选有效的数据,在数据有效的基础上,进而寻找解决问题的方法,以达到为网站和客户服务的目的。
本论文共分析了两个数据源,分别是:股票相关关键词点击数据集和淘宝各类目搜索量,通过对这些数据的质量分析,过滤掉无效的数据,抽取有效的数据,进而为之后的研究提供数据有效性基础。
该论文有图12幅,表4个,参考文献20篇。
关键词:大数据有效性 大数据质量分析 点击流数据
目录
摘要
Abstract
1 绪论-1
1.1 课题的研究背景及意义-1
1.2 大数据有效性研究——点击流数据的发展现状-2
1.3 本论文的主要内容与安排-2
2 相关术语阐释-3
2.1 有关大数据及大数据有效性的阐释-3
2.2 点击流数据的内涵-3
2.3 数据源介绍-4
3 大数据质量分析维度以及部分现有的分析工具-4
3.1 大数据质量及其影响-5
3.2 大数据质量分析维度-5
3.3 部分现有的大数据质量分析工具比较-7
4 股票相关关键词点击数据集数据源测试-8
4.1 测试所用数据源及测试工具介绍-8
4.2 数据预处理-9
4.3 数据源质量分析-9
5 淘宝各类目搜索量数据源测试-10
5.1 测试所用数据源及测试工具介绍-10
5.2 数据源质量分析-11
6 结论-16
参考文献-17
致谢-18