摘要:本文关注的对象是10086热线的用户满意度,为此选用了4494名用户从2012年3月至9月的真实调查数据进行分析。为找出用户满意度的主要影响因素,选用了决策树模型(包括REPTree决策树、Random Forest)和朴素贝叶斯分类器分别进行讨论,并对这三种方法进行了评价。对比后发现,虽然这三种方法得出的分类正确率及一些细微之处存在着差别,但大体上还是一致的。不过,三个模型中误分类为满意的观测都不少,占比很高。为此,尝试使用处理不平衡数据的方法,如过采样、欠采样和综合采样方法,并结合随机森林模型进行改进。其中,综合采样法在三种改进方法中效果最佳,欠采样法则效果最不理想。综合所有方法的结果,可以看出AVG_Wait_Time、AVG_Call_Time、Call_10086_Times 、Wait_Times等变量对用户满意度的影响较大:这些变量的值越大,则用户越容易对10086热线给出不满意的评价。据此,对10086热线提出了针对性的建议,包括及时接听热线电话、提供简洁到位的服务、完善热线服务功能等,以此弥补10086热线目前存在的问题,最终提高用户满意度。
关键词:用户满意度 决策树 朴素贝叶斯分类器 不平衡数据处理
目录
摘要
Abstract
前 言-3
第1章 背景介绍-4
第2章 数据来源介绍-6
第3章 模型的建立与求解-7
第3.1节 数据的预处理-7
第3.2节 决策树模型-8
3.2.1 REPTree-8
3.2.2 Random Forest-11
第3.3节 朴素贝叶斯分类器-12
第4章-模型的评价与改进-14
第4.1节 模型的评价-15
4.1.1 REPTree模型评价-15
4.1.2 Random Forest模型评价-15
4.1.3 朴素贝叶斯分类器评价-15
第4.2节 模型的改进-15
4.2.1 过采样法-16
4.2.2 欠采样法-18
4.2.3 综合采样法-20
第5章 给10086移动热线的建议-22
参考文献-23
致谢-23
附录-24