摘 要:随着近些年网络媒体越来越繁荣,对于我国来说,网络不仅改变了信息传播的形式和效率,成为了我们获取信息的最重要的手段。同时,网络也是我国几亿网民表达意见想法和建议的重要平台。本文的设计方向就是对社会媒体数据爬取与主题检测,是针对于这方面的研究。例如,从美团或饿了么之类的网站,爬取用户消费的评论,然后加以判断其主题。这样可以对商家在网络上的运营,和对用户消费者的选择有着极其重要的参考价值。目前,主题检测技术已被广泛的应用在各个方面。主题检测是一项重要研究任务及其领域也是具有十分重要的理论研究方面的意义。
现如今,我们是出于网络爆炸的一个时代,信息是大量的存在于网络之中。目前用户不仅仅是在网络当中针对检索有关信息。还需要拥有更多专业和信息化的服务来得到需要的东西。经过一系列的软件设计分析该系统最终被设计为一款工具类软件。通过设计一款系统,能够进行爬取相关的店铺评论,将爬取下来的评论以Json格式进行保存。核心是通过主题检测与分析的方法。主题检测就是对数据进行检测,来判断其是否符合规定的主题,我的系统主要是来判断是不是符合菜品评价这样的一个主题。对所爬取下来的评论进行主题检测,来设计出数据模型,进行训练,最后来分析出符合菜品评价和不符合菜品评价的数据,然后设计出交互界面来进行直观显示。
关键词:数据分析;主题检测;数据挖掘;情感分析;自然语言处理。
目录
摘要
Abstract
1 绪论-1
1.1 课题背景-1
1.2 课题研究的目的及意义-1
1.3 研究现状-2
1.4 研究内容-2
2 系统需求和可行性分析-3
2.1 系统需求分析-3
2.2 系统可行性分析-3
2.2.1 技术可行性分析-3
2.2.2 操作可行性分析-3
2.2.3 经济可行性分析-3
2.2.4 社会可行性分析-4
2.3 开发环境搭建-4
2.3.1 Python的安装与配置环境变量-4
2.3.2 PyCharm的 安装配置-5
3 系统设计-6
3.1 系统基本框架-6
3.2 主界面的设计-6
3.3 评论爬取与存储的设计-7
3.3.1 相关概述-7
3.3.2 设计流程-8
3.4 主题检测的设计-9
3.4.1 相关概述-9
3.4.2 设计流程-12
4 系统实现-14
4.1 代码及数据总体架构-14
4.2 主界面模块-15
4.3 评论爬取与存储模块-17
4.4 主题检测模块-18
4.4.1 主要步骤-18
4.4.2 具体过程-19
4.5 实验与分析-24
4.5.1 数据集说明-24
4.5.2 结果分析-27
5 系统测试-29
5.1 测试简介-29
5.2 社会媒体数据爬取与主题检测的系统测试-30
5.2.1 主界面测试-30
5.2.2 数据爬取与保存测试-30
5.2.3 主题检测测试-30
5.3 系统综合性能分析-31
6 总结与展望-32
6.1 总结-32
6.2 软件的后期展望-33
参 考 文 献-34
致 谢-35