摘要:随着大数据时代的到来,数据信息化发展成为核心方向,取得更大的竞争优势都是围绕着数据进行展开。聚类分析通常作为数据挖掘的关键算法之一,常见的聚类分析算法易受噪声数据影响,以及类的边缘数据分类是误差较大。针对此问题,本课题面向大规模数据采用密度峰聚类算法(DPCA)进行研究分析。
本文首先概述了大规模数据的信息挖掘的基本理论,阐述了DM的基本定义,以及其操作。并介绍了DM的主要算法,以及DM的相关应用。其次,在对数据相似性的研究之上,推导了数据聚类的基本理论,并详细地阐述了DPCA算法的原理。最后,采用DPCA对数据进行了类的划分,利用局部密度和高密度点之间的距离对目标数据的密度特性进行了分析,确定了数据可划分为四类,同时也确定了四个类的中心数据点。DPCA对数据分类的结果表明,DPCA算法能对边界不明确的数据集进行划分,且仅需计算一遍,能有效地克服类边缘的噪声数据。
关键词:大规模数据;密度峰聚类;聚类分析;DPCA
目录
摘要
Abstract
1 绪论-1
1.1 课题的研究背景及意义-1
1.2 国内外相关研究现状-2
1.3 本文主要研究内容和论文框架-3
2 大规模数据的信息挖掘概述-4
2.1 数据挖掘的定义-4
2.2 数据挖掘流程-4
2.3 数据挖掘算法-6
2.4 数据挖掘的应用-6
2.5 本章小结-7
3 聚类分析-8
3.1 相似性度量-8
3.2 聚类分析(CA)-9
3.3 基于密度峰的CA-9
3.3.1 数据密度的概念-10
3.3.2 基于密度峰聚类算法-11
3.4 本章小结-11
4 密度峰聚类在大规模数据挖掘中的应用-13
4.1 仿真软件简介-13
4.2 大规模数据的特征分析-13
4.3 面向大规模数据的DPCA-14
4.4 本章小结-16
结 论-17
参 考 文 献-18
附录A DPCA算法MATLAB代码-19
致 谢-28