文本相似度计算方法_信息与计算科学.docx

需要金币：2000 个金币
资料目录：论文助手 > 论文(New) > SCI论文 >
转换比率：金钱 X 10=金币数量，例100元=1000金币
论文格式：Word格式(*.doc)
更新时间：2019-07-30
论文字数：7496
课题出处：（樊老师）提供原创资料
资料包括：完整论文

摘要：随着网络数字资源的日益丰富和网络环境对人们存取信息方式的改变，数字文档唾手可得，学术剽窃现象十分严重，同时网页数量增长极快，搜索效率有所下降。文本相似度监测方法研究可以防止以上现象的发生、扩散，在知识产权保护和信息检索中有着重要的应用。本文通过一些经典的算法，提出新算法，并通过实验与经典算法进行比较来验证算法。

关键词：相似度；空间向量模型；计算方法

摘要

Abstract

1 引言-1

1.1 研究背景及意义-1

1.1.1研究背景-1

1.1.2研究意义-1

1.2 研究现状-2

1.2.1国外研究现状-2

1.2.2国内研究现状-2

1.2.3存在的问题-3

1.3 研究内容及方法-3

1.3.1研究内容-3

1.3.2研究方法-3

2 文本相似度-4

2.1 文本相似度的基本概念-4

2.1.1文本相似度的定义-4

2.1.2文本相似度算法的特点-4

3 学术界经典算法及其特点介绍-5

3.1 向量空间模型-5

3.2 基于布尔特征的相似度计算方法-6

3.3 改进的文本相似度计算方法-6

3.2.1文本块的选择规则-7

3.2.2最长公共子串的相似度算法-7

3.2.3文本块映射成散列值-8

4 实验结果-9

5 结论-10

参考文献-12

致谢-13

提示：本站支持手机（IOS，Android）下载论文，如果手机下载不知道存哪或打不开，可以用电脑下载，不会重复扣费