摘要:随着电子商务的飞速发展,每时每刻都会产生大量的评论数据,为了从大量的评论数据中挖掘出消费者关注的侧重点以及对不同消费群体进行合理分配,实现精准营销。本文使用聚类分析的方法和借助网络爬虫软件,对淘宝上150个不同消费层次女士外套商品的评论进行挖掘分析,根据采集的数据,提出了一种可以帮助用户有效节省时间的评分算法。根据本文采集到的淘宝评论数据,该算法将评论的属性和评论所拥有的情感倾向以及评论中各因素的概率进行了综合的考虑,然后计算该商品的各因素的评分。根据评论评分结果进行聚类分析,旨在从淘宝用户的评论中发现不同消费层次的消费者对女士外套的个性化需求。基于上述的研究结果,为商家和平台的优化提供一些建议。最后对本文的研究内容做一个总结,描述了本文的不足之处。
关键词 数据挖掘;淘宝评论;评分算法;聚类分析
目录
摘要
Abstract
1 绪论-1
1.1研究背景和意义-1
1.2国内外研究现状-1
1.3研究方法及技术路线-2
2 理论概述-3
2.1 数据挖掘概述-3
2.2 数据挖掘的技术-3
2.3 数据挖掘在电子商务的应用-3
2.3.1电子商务网站在线评论-3
2.3.2数据挖掘在电子商务中的应用-4
3 数据采集和预处理-5
3.1 数据选取-5
3.2 数据采集——网络爬虫-5
3.3 数据预处理-6
3.3.1数据清洗-6
3.3.2中文分词-8
3.3.3筛选统计-9
3.3.4情感倾向分析-11
4 基于淘宝评论的评分算法与建模-14
4.1 淘宝评论的评分算法-14
4.2 建立两步聚类模型-17
4.3 结果分析-21
5 管理启示及建议-25
5.1 对商家的建议-25
5.2 对网络购物平台的建议-26
结论-27
致谢-28
参考文献-29