摘 要:如今人类社会已经处于大数据爆炸式增长的时代,传统的信息存储和传播媒介已经逐渐为计算机所替代,并呈现出指数增长的趋势,成为21世纪最为重要的经济资源之一。
客户是商业银行得以生存的基础,更是银行与银行之间竞争的重要资源。在处理银行与用户之间的关系中,大数据十分重要,大数据能够客观可靠地为银行呈现决策依据、有效整合处理结构化数据和非结构化的数据、细分潜在用户和现有用户价值,合理地利用数据,成功将数据中的商业价值挖掘出来并加以利用。因此,在大数据时代,商业银行如何利用大数据,如何有效分析并且处理用户信息,如何发掘数据中的商业价值,如何进行营销,如何进行内容推送显得尤为重要。
作为掌握大量真实交易数据的商业银行,面对浩如烟海的信息时,如何实现银行内部与外部信息、结构性与非结构性数据的紧密结合,更加准确地识别信息,有效地对信息进行挖掘,将数据价值转化为经济价值,已经成为当前商业银行提升核心竞争力的重要途径之一。网络爬虫技术的快速发展成为商业银行提升信息精准获取和有效整合应用能力提供了全新的策略。
-系统由功能模块组成,采用B/S架构实现,开发平台为IntelliJ IDEA,采用Java语言基于SpringBoot、Maven框架进行开发。数据库基于银行既有的DB2数据库进行数据的存储和查询。系统经过测试后,以jar包的形式部署在服务器上,通过外部调用的形式实现网站数据的自动爬取,每天二十四小时数据吞吐量可达七至八万条。
关键词:网络爬虫;Java;DB2数据库
目录
摘要
Abstract
1 前言-1
1.1 背景及意义-1
1.2 阳光金融平台的建立-2
2 研究目标、内容和拟解决的关键问题-3
2.1课题的研究目标-3
2.2课题的研究内容-3
2.3拟解决的关键问题-3
3 方案的原理、特点及选择依据-3
3.1爬虫的简介-3
3.2爬虫框架的设计-4
3.3爬虫应用——数据发掘-5
4 网络爬虫系统需求分析-6
4.1系统的功能性需求-6
4.2系统的环境需求-6
5 网络爬虫系统总体设计-7
5.1 系统架构设计-7
5.2 系统主要功能-8
5.3技术分析-9
5.4数据库设计-9
5.4.1系统E-R图-9
5.4.2数据库逻辑设计-9
5.4.3数据库物理结构设计-11
6 网络爬虫系统详细设计-13
6.1框架搭建-13
6.2项目实现过程-16
6.2.1网页分析-16
6.2.2具体功能实现-20
7 系统测试-28
7.1测试概述-28
7.2测试用例-28
7.2.1功能性测试-28
7.2.2数据库测试-32
7.2.3性能测试-34
8问题及解决方法-34
结论-36
参 考 文 献-37
致 谢-38
附录-39