摘要:随着网络数字资源的日益丰富和网络环境对人们存取信息方式的改变,数字文档唾手可得,学术剽窃现象十分严重,同时网页数量增长极快,搜索效率有所下降。文本相似度监测方法研究可以防止以上现象的发生、扩散,在知识产权保护和信息检索中有着重要的应用。本文通过一些经典的算法,提出新算法,并通过实验与经典算法进行比较来验证算法。
关键词:相似度;空间向量模型;计算方法
目录
摘要
Abstract
1 引 言-1
1.1 研究背景及意义-1
1.1.1研究背景-1
1.1.2研究意义-1
1.2 研究现状-2
1.2.1国外研究现状-2
1.2.2国内研究现状-2
1.2.3存在的问题-3
1.3 研究内容及方法-3
1.3.1研究内容-3
1.3.2研究方法-3
2 文本相似度-4
2.1 文本相似度的基本概念-4
2.1.1文本相似度的定义-4
2.1.2文本相似度算法的特点-4
3 学术界经典算法及其特点介绍-5
3.1 向量空间模型-5
3.2 基于布尔特征的相似度计算方法-6
3.3 改进的文本相似度计算方法-6
3.2.1文本块的选择规则-7
3.2.2最长公共子串的相似度算法-7
3.2.3文本块映射成散列值-8
4 实验结果-9
5 结论-10
参考文献-12
致谢-13