摘要:网页分类将信息准确筛选呈现给用户,提高信息检索的准确率,在数字图书馆、信息抽取等领域已经获得大范围的应用。本文使用模糊数学中的模糊综合评判和模糊聚类两种方法对军事、财经、法治、娱乐、体育五类网页进行分类。选取125个网页,根据词频和信息熵选取每类网页的特征词,利用综合评判和模糊聚类分别对50个网页进行分类。实验数据显示模糊综合评判的分类准确率高于模糊聚类分析,若想得到更加细致的分类,可先用模糊综合评判的方法对网页进行分类,再将属于同一类别的网页进行聚类分析对网页更进一步的分类。
关键词:网页分类;模糊数学;模糊聚类分析;模糊综合评判;特征提取
目录
摘要
Abstract
1 引 言-1
2 网页分类-1
2.1 知识介绍-1
2.2 网页分类具体方法及步骤-2
3 模糊综合评判-4
3.1 知识介绍-4
3.2 数学基础-5
3.3 模糊综合评判具体方法及步骤-5
4 模糊聚类分析-8
4.1 知识介绍-8
4.2 数学基础-8
4.3 模糊聚类分析具体方法和步骤-9
5 实验-10
5.1 模糊综合评判-10
5.1.1 网页分类-10
5.1.2 实验数据-19
5.1.3 实验分析-21
5.2 模糊聚类分析-21
5.2.1 网页分类-21
5.2.2 实验数据-21
5.2.3 实验分析-24
6 总结-25
参考文献-26
附录A 标题、导语、正文权重-27