摘要:本文运用统计学手法,基于python,采用爬虫技术设计了一种整合学术资源的方法,并将所爬取到的不同学术资源搜索引擎的信息进行相关性分析,按照关联度由高到低进行输出,输出的内容可包括各个学术资源的标题,URL地址以及摘要等等。这样就节省了用户去多个不同的学术资源搜索引擎上搜索的时间,防止了资源浪费。同时,也方便用户筛选学术资源信息,不用盲目的进行寻找。本文以Wiley, SpringerLink这两个学术资源搜索引擎为例进行了整合,最终成功地获得了所需信息,正确地输出了要寻找的学术资源,完成了平台整合功能。
该论文有图12幅,表1个,参考文献9篇。
关键词:学术资源搜索引擎 整合 爬虫 关联度分析 Python
目录
摘要
Abstract
1 绪论-1
1.1研究背景和研究意义-1
1.2 主要内容-2
2相关背景知识与理论-2
2.1 学术资源搜索引擎的概述-2
2.2 网络爬虫-3
2.3 Python语言-4
3学术资源整合平台的分析-5
3.1 概要-5
3.2 主要使用模块功介绍-6
3.3 相关性分析-7
4基于Wiley,SpringerLink平台资源整合的实现-7
4.1 Wiley学术资源搜索引擎爬取网页的实现-8
4.2 SpringerLink学术资源搜索引擎爬取网页的实现-12
4.3 Wiley,SpringerLink学术资源平台资源整合-15
5结论-23
参考文献-25
致谢-25