摘要:在21世纪的今天,人们开始进入大数据时代,传统的数据资料不再局限于书本文字形式,互联网成为了信息数据资料存储的关键,而如何有效的搜索并挖掘这些数据成为了一个难题,由此聚焦爬虫技术应运而生。就研究爬虫技术的现状,分析了国内外爬虫研究的多方面应用,如EbizSearch图书馆,STIP系统等其他主题搜索的聚焦爬虫系统都有着丰富的应用前景。
首先研究了搜索引擎和通用爬虫技术原理及模型,工作流程,了解通用爬虫的不足,进而研究典型的聚焦爬虫系统结构,重点分析了聚焦爬虫的技术以及它的算法,着重于分析“优先算法”并改进算法,利用JAVA的多线程原理,从而提高“查全率”。
根据聚焦爬虫技术发展的趋势由两部分构成:数据采集分布化、网页数据动态化。并使用AJAX,JavaScript技术研究动态化的网页爬虫系统,更好的进行目标搜索分析。通过使用神箭手云爬虫平台,对雪球网沪深股市的信息咨询进行爬取,实现爬虫技术在互联网金融领域的应用。
最后结合实例,通过支付宝信贷系统分析了聚焦爬虫在互联网金融行业的对数据资料特点,及其应用,更好的验证了聚焦爬虫在互联网金融领域的前景。
关键词聚焦爬虫;分析常见算法;AJAX;爬虫应用;互联网金融
目录
摘要
Abstract
1 绪论-1
1.1 研究背景-1
1.2 国内外研究现状-2
1.2.1 国外研究现状-2
1.2.2 国内研究现状-3
2 聚焦爬虫原理及其关键性技术研究-4
2.1 网络爬虫的概念-4
2.2 通用爬虫-5
2.2.1 通用爬虫的原理及模型-5
2.2.2 通用爬虫的不足-7
2.3 聚焦爬虫-7
2.3.1 聚焦爬虫的系统结构-7
2.3.2 聚焦爬虫的关键技术-10
2.4 分析常见算法-12
2.4.1 广度优先搜索算法-12
2.4.2 最佳优先搜索算法-13
2.4.3 算法的改进-14
3 网络爬虫分析及其在互联网金融的爬虫应用实现-16
3.1 网络爬虫技术的分析-16
3.1.1 数据采集分布化-16
3.1.2 网页数据动态化-16
3.2 互联网金融的爬虫应用实现-17
3.2.1 AJAX概述及其框架爬虫系统的实现-17
3.2.2 JavaScript概述-18
3.2.3 互联网金融的爬虫应用实现的具体操作-19
4聚焦爬虫技术原理在互联网金融领域的应用前景-22
4.1 互联网金融数据抓取特点-22
4.1.1 互联网上金融领域数据的特点-22
4.1.2 互联网金融领域网页数据的获取-22
4.2 聚焦爬虫技术原理在互联网金融领域的作用-23
4.2.1 网络舆情的监管-23
4.2.2 构建客户全景画像-23
4.2.3 提高危机意识-23
4.2.4 金融领域垂直搜索-24
4.3 聚焦爬虫与互联网金融结合实例-24
结论-28
致谢-29
参考文献-30
附录-31