摘要:作为大数据时代的典型代表,维基百科这个巨大的知识库蕴藏着丰富的价值,逐渐成为知识挖掘领域的重点研究对象。整个维基百科的实体-链接形成了一个规模庞大、非常稠密的图结构,是一个优良的可供语义挖掘的语料库。
本课题从中文维基百科的内容和链接角度出发,构建了中文维基百科的实体-链接图谱,利用现代信息检索的技术,首先对数据进行了数据清洗、停用词过滤、中文分词等预处理工作。接着将实体的页面信息内容作为文本特征,利用TF-IDF的权重计算方法求得各实体页面内容的关键词。然后利用向量空间模型VSM,计算实体对应的文本向量之间的相关度,并通过余弦相似度计算该实体与每个与它有链接的实体间相似度的大小。最后实现了基于中文维基百科实体语义关联网络的可视化平台,该可视化平台能够展示维基词条间复杂的语义关系,便于进行链接的分析。
关键词:维基百科 语义相关度 实体-链接图谱
目录
摘要
Abstract
1绪论-1
1.1研究背景-1
1.2问题的提出-2
1.3相关工作-3
1.4本文主要工作-4
1.5论文组织-5
2中文维基百科链接图的构建-5
2.1中文维基简介-5
2.2链接抽取和链接图构建-8
3中文链接分析-9
3.1算法思路-9
3.2数据预处理-10
3.2.1数据清洗-11
3.2.2停用词过滤-11
3.2.3中文分词-12
3.3统计加权方法TF-IDF-13
3.4向量空间模型VSM-14
4可视化平台实现-16
4.1可视化平台的功能-16
4.2可视化平台的设计-17
4.3可视化平台的测试-18
5总结与展望-22
6致谢-23
参考文献-23