摘要:当今社会是个信息时代,随着科技硬件正如摩尔定律一般随着时间快速发展,信息的高速传播,社交网络逐步参与到人们社会生活的各种领域,越来越多的网络用户更倾向于在公众平台上表达自己的意见、观念和情绪。如何通过数据爬虫技术抓取用户的评论,从不同角度和维度分析评论数据,并利用分析的结果帮助用户进行观看决策、为投资方提供投资参考,是非常有意义的事情。
-本次的开发是以现有的数据集为基础的电影评价数据分析平台,该系统主要是通过对爬取的电影评价分析数据或是网络公开数据集中的数据,即基于网络公开影评数据集或利用爬虫技术爬取影评数据,对所得的数据进行冲洗、转换、存储,利用数据通过不同维度对数据进行分析,并对分析结果利用web方式进行展示。功能包括用户对影片喜好、云词分析、用户情感分析等功能。 平台基于Python和JavaScript,使用python对数据进行抓取和分析 整理,采用可视化网站的形式呈现出数据分析的结果。采用的数据时保存形式为json格式的数据,前端数字可视化图表使用Echarts呈现,网站搭建使用轻量级的web应用Flask,使可视化效果更加立体。采用MVC设计模式,简化了分组开发。利用网络上现有的情感词典对评价数据进行情感分析,情感词典采用bosonNLP,采用单词抽取的方式,使用jieba分词,并使用worldcloud构建词云。平台界面简洁易懂,操作简单,维护方便。
关键词:数据分析;数据清洗;情感分析;可视化 ;flask框架
目录
摘要
Abstract
1 绪论-4
1.1 研究背景-4
1.2 国内外研究现状-4
1.2.1 电影数据分析平台数现状-4
1.2.2 情感分析研究现状-4
1.2.3 Python语言研究现状-5
1.2.4 数据可视化研究现状-5
1.3 系统主要工作-5
1.4 本文组织结构-6
2 电影评价数据分析平台的需求分析-8
2.1 需求分析-8
2.2 平台服务对象-8
2.3 系统整体设计-8
2.4 相关技术研究-9
2.4.1 Flask框架的搭建的方法-9
2.4.2 数据可视化的方法-10
2.4.3 数据可视化的工具-10
2.4.4 文本预处理-11
2.4.5 数据分析-12
2.4.6 评价数据情感分析-12
2.4.7 词云分析-13
2.5 本节小结-13
3 电影数据评价分析平台详细设计-15
3.1 系统功能分析-15
3.2 系统功能详细设计-15
3.2.1 系统模块设计-15
3.2.2 系统架构设计-16
3.2.3用户分析模块-16
3.2.4 电影分析模块-17
3.3 本节小结-19
4 电影评价数据数据分析平台的实现与测试-20
4.1 数据分析的实现-20
4.2 情感分析的算法实现-21
4.3 词云分析的实现-22
4.4 可视化界面的开发实现-23
4.5 系统可视化界面展示-24
4.6 系统测试-26
4.6.1 功能测试-26
4.6.2 性能测试-27
4.7 本节小结-27
5 总结与展望-28
5.1 全文总结-28
5.2 建议与展望-28
参考文献
致谢