摘要:本文在了解了舆情监测系统的组成和学会了舆情监测的相关算法下,开发完成了这套基于网络爬虫的舆情监测系统·。
通过对本系统的技术开发和功能模块进行了解,将舆情监测系统划分以下四个工作流程:①帖子收集,通过网络爬虫对高校论坛的网页进行抓取,获得相关的数据信息②热度排名,对抓取下来的帖子根据话题热度进行排名,为舆情监测提供所需要的信息③情感分析,运用情感分词对数据库中存储的数据进行分析,来分别出情感消极,情感中性,情感积极的话题帖子,以便用户加以控制④监测展现,将监测到的信息展示给用户,让用户进行舆情分析。
本系统的学术成果如以下三个方面所示:
(1)根据系统的工作原理和运行机制,开发了一个易操作、效率高的网络爬虫;
(2)利用htmlpaser成功地对抓取的网页的重要信息数据进行了提取及分析;
(3)利用权重算法成功地进行了热度排名,利用情感分词工具对话题进行了精确地情感分析,从而让用户更方便的进行舆情监测。
关键词 网络舆情;帖子收集;热度排名;情感分析;网络爬虫
目录
摘要
Abstract
1 绪论-1
1.1 课题研究背景-1
1.2舆情监测研究现状-2
1.3 论文内容及组织-2
2 网络舆情研究相关技术分析-4
2.1 网络爬虫-4
2.2 网络解析-4
2.3 话题检测与跟踪技术-5
2.4 话题情感倾向性分析-5
2.5 话题发展趋势预测-6
2.6 本章小结-6
3 舆情监测系统分析-7
3.1 论坛的功能分析-7
3.1.1 系统体系结构分析-7
3.1.2 网页抓取-8
3.1.3 信息处理功能分析-9
3.1.4 舆情分析功能-9
3.1.5 系统展示功能分析-9
3.2 系统流程分析-9
3.3 系统数据库分析与设计-10
3.4系统设计要求-10
3.5 本章小结-11
4 网页抓取和信息预处理-12
4.1 网页抓取-12
4.1.1 网站分析-12
4.1.2 构建网络爬虫-13
4.2 信息预处理-13
4.2.1 HTMLPaser解析页面-13
4.2.2 中文分词-14
4.3 本章小结-14
5 舆情分析-15
5.1 热点主题发现-15
5.2 情感倾向性分析-15
5.3 本章小结-17
6 舆情监测系统实现-18
6.1系统登录-18
6.2帖子收集-18
6.3热度排名-19
6.4情感归纳-19
6.5本章小结-20
结论-21
致谢-22
参考文献-23