摘要:近年来,微博的用户越来越多,在这一社交网络平台分享的内容也日渐增加,微博成为拥有海量数据的平台,并极具研究意义。本文目的是应用大数据分析技术,分析时下非常流行的社交网络平台新浪微博的电影评论数据,并对相关电影的总票房进行预测。本次研究的电影是 2018 年上映的《红海行动》、《最好的我们》、《我不是药神》等五部电影。首先
运用 Python 完成微博数据采集工作,接着利用 LDA 主题分析模型获得预测模型的训练数据。最后使用四种预测模型(Lasso 模型、Elastic Net 模型、SVR 模型、DNN 深度模型)
进行电影总票房预测,根据准确率判断出 SVR 模型(0.75)、LASSO 深度模型(0.74)拟合度最优。考虑加入电影上映前后的时间节点获得预测的票房数据,同时运用精确率判断最优,在受时间因素一定影响下,同样是 SVR 模型与 LASSO 深度模型较优。
关键词:微博数据;LDA 模型;预测模型;总票房预测
目录
摘要
Abstract
1引言4
1.1.研究背景及意义.4
1.2.研究现状.4
2关键技术及实验5
2.1.数据来源分析.5
2.2.网络数据爬虫技术以及数据处理.6
2.3.LDA 主题分析模型.8
3预测模型及其结果分析.10
3.1.Lasso 模型10
3.2.Elastic Net 模型.12
3.3.DNN 模型13
3.4.SVR 模型14
3.5.电影票房预测结果.15
4总结及改进17
参考文献19
致谢20