摘 要:目前的协同聚类算法通过定义协同函数,计算和调整各数据子集之间的隶属度差异,来实现在聚类过程中融合其它相关数据集的信息.但是协同函数的存在同时会增加聚类中心和隶属度的推导和计算难度,还需要人工设置协同系数.为了用更简单的计算和更少的参数综合相关数据集的信息,实现协同聚类,本文引入了信息论中的信息熵,提出了一种改进的算法.即基于信息熵加权的协同聚类改进算法.
本文重新定义了协同聚类算法,给出了改进算法的主要思想.首先引入信息熵来衡量隶属度差异矩阵中所包含的不确定性信息,再根据有效信息量定义相似性距离中的权重,最后通过权重对聚类的贡献指标实现各子集之间的协同聚类.
本文在iris数据集上对改进算法进行了性能检验,与已有算法相比,改进算法能自适应地计算协同关系强度, 简化了参数设置和协同函数的复杂计算.实验结果显示,改进算法能充分利用数据子集中所蕴含的相关信息,具有较高的计算效率,聚类准确度也有明显的提高.
关键词:协同聚类;协同关系;信息熵;权重系数
目录
摘要
ABSTRACT
第1章 绪论-1
1.1背景及意义-1
1.2 基本框架-2
第2章 基于信息熵加权的协同聚类改进算法-5
2.1 模糊聚类:FCM算法-5
2.2 模糊协同聚类:HC-FCM算法-5
2.3 基于信息熵加权的协同聚类改进算法-7
第3章 程序设计-9
3.1 改进算法的主要步骤与结构流程-9
3.2 编程思路与代码实现-9
第4章 实验与结果分析-13
第5章 结论与展望-15
5.1结论-15
5.2不足之处及未来展望-15
参考文献-17
致 谢-19