摘 要:EM算法,也称为期望最大化算法,是用于估计Dempster,Laind和Rubin在1977年提出的最大似然参数的迭代优化策略。 它可以从不完整的数据集中执行参数。 高概率的估计是一种非常简单实用的学习算法。 该方法可广泛应用于丢失数据,截断数据,所谓的带噪声的不完整数据等的处理。 EM算法在诸如缺失数据的不完整数据下执行参数的最大似然估计或最大后验值。 估计一种有效的方法。
文章的首先主要介绍了EM算法的研究背景意义,国内外研究现状。接着,由于文章是为了分析缺失数据,故介绍了缺失数据的定义和缘由,并简介了缺失数据的模式分类以及相应的几种处理方法,并运用最常用的缺失数据处理方法处理了彩票数据的缺失问题。之后是EM算法的相关介绍,由似然函数引入,详细介绍了EM算法的定义性质。并在不同个数参数缺失的情况下分析了EM算法的相应运用。
在运用的基础上对靖江市民出行的缺失数据进行了统计分析。最后根据EM算法的缺点,介绍了比较常见的几种EM算法的改进。
关键词:EM算法,缺失数据,变量缺失
目录
摘要
Abstract
1 引言-1
1.1论文框架-1
1.2研究背景和意义-1
1.2国内外的研究现状
1.2.1缺失数据研究现状-2
1.2.2EM算法研究现状-4
2.1缺失数据边际化和符号-6
2.2缺失数据的产生原因及分类-7
2.2.1缺失数据的定义-7
2.2.2缺失数据产生的原因-7
2.3缺失数据的分类-8
2.3.1按照缺失数据的机制分类-8
2.3.2按照缺失数据的模式分类-9
图1.1数据缺失模式图-10
2.4缺失数据的处理方法-11
2.4回归借补解决普通问题-13
2.4.1曲线拟合原理-13
2.4.2曲线拟合的实现方法-14
2.4.3曲线拟合的实际运用-14
3 EM算法相关理论-16
5EM算法的改进-27
5.1EM算法缺点-27
5.2改进算法例举-27
5.2.1牛顿法-27
5.2.2增量EM算法-27
5.2.3懒惰EM算法-28
5.3总结与展望-29
参 考 文 献-30
致 谢-31