摘要:随着网络的不断发展,文献和信息用户不断增加,自动文摘被文献处理领域重视。自动文摘是本课题中处理文字或语义信息的一种方法,其中TextRank就是应用其原理建立拓扑结构图的代表性算法之一。本设计中的TextRank算法参考了PageRank算法,它将文章分成若干节点,其中这些节点是由几个文本单元(词项或句子)组成的,文本单元之间的相似度形成节点之间的边,从而构造出图模型。使用算法对其模型进行迭代计算直到收敛,并且对所有节点进行重新排序,最终会输出关键词或摘要。
论文阐述了基于TextRank的文章摘要提取方案的设计与实现过程。首先分析了课题的研究现状,接下来对TextRank算法进行介绍,然后介绍Python语言如何实现文章摘要自动提取,进行测试与分析,最后对文章进行总结。
关键词:TextRank;文章摘要提取;Python
目录
摘要
Abstract
第一章 绪论-1
1.1课题研究的背景与意义-1
1.2课题研究现状-2
1.2.1关键词提取研究现状-2
1.2.2自动摘要研究现状-3
1.3课题研究的内容及安排-4
1.3.1研究内容-4
1.3.2论文架构-4
第二章 方案的总体设计-5
2.1方案总体设计概述-5
2.2方案设计与分析-5
2.2.1提取摘要的基本概念-5
2.2.2TextRank算法-6
2.2.3TextRank算法提取关键词-11
2.2.4TextRank算法提取摘要-12
2.3 本章小结-12
第三章 方案的代码设计与实现-13
3.1Python相关软件安装-13
3.1.1Python2.7安装-13
3.1.2PyCharm软件安装-15
3.2中文库导入-19
3.3代码设计-22
3.3.1 TextRank算法提取关键词程序设计-22
3.3.2 TextRank算法提取摘要程序设计-23
3.4本章小结-24
第四章 文章摘要提取方案的测试与分析-25
4.1测试结果-25
4.1.1关键词测试结果-25
4.1.2摘要测试结果-27
4.2问题分析-29
4.3本章小结-29
结束语-30
致 谢-31
参考文献-32
附录-33