摘要:互联网的飞速发展,使得网络在媒体这一领域占据的地位也在日渐增长,甚至网络的发展已经到了不可或缺的地步。现今,大多数人表达对社会现状的态度和政治诉求的时候都是通过互联网,这样政府部门可以从互联网这个媒体中了解当前的民生,于是各级政府部门又将面临一个新的严峻问题—网络舆情信息采集和分析。
飞速发展的互联网,作为一个新生的媒体,吸引了各大运营商进军互联网,使得互联网的竞争十分激烈,新浪作为一个民众信息分享的平台,在众多互联网平台中占有一席之地,拥有大量的用户,是获取当前舆论信息的最佳平台之一。本论文就新浪微博为平台设计了一个网络舆情数据采集系统,该系统的主要功能有:获取指定用户当前的微博信息,查看微博的评论、用户的关注人。
该系统的核心技术为网络爬虫,使用Java编程语言和MySQL数据库实现。工作流程为,首先模拟登陆到新浪微博,获取当前页面的所有内容,分析出其中的微博信息、关注人链接、评论的链接,跳转到获取到的链接中获取数据,并将所有的数据存储到数据库中。
关键词: 网络舆情 网络爬虫 新浪微博 Java
目录
摘要
Abstract
1 引言-1
2 系统相关技术概述-2
2.1 Java技术简介-2
2.2 网络爬虫技术简介-2
2.3 MySQL数据库简介-4
2.4 本章小结-5
3 需求分析-5
3.1 系统功能需求分析-6
3.2 系统用例图-7
3.3 运行环境-7
3.4 本章小结-8
4 系统设计-8
4.1 系统结构分析-8
4.2 系统功能模块分析-9
4.3系统数据库设计-11
4.4 系统各模块设计-12
4.5 本章小结-16
5 系统实现-17
5.1 开发环境搭建-17
5.2 各模块实现-20
5.3 系统测试-31
5.4 本章小结-33
6 系统效果展示-33
6.1 效果展示-33
6.2 本章小结-38
7 结论-39
致谢-40
参考文献-41