摘要:本文探究的是数据挖掘中的决策树分类。其中常见的基于属性选择度量(即信息方法)有ID3和C4.5算法。但是这些算法都不太完善,有一定的缺陷,在实际生活中不太实用。为此本文提议了改善后的基于信息熵的决策树分类算法,在一定程度上弥补了ID3不能处理连续属性和C4.5很容易采选取值比较多的属性等不足,在处理连续属性时也可以更好地将其离散化,并且算法复杂度较低。
为了验证本文提出的改进后的算法的优越性,将其应用到实际生活订外卖的问题中。通过分析影响人们订外卖的主观因素和客观因素,可以挖掘出消费者在特定条件下某个时间段选择是否订外卖的决策。
关键词:数据挖掘 信息熵 决策树 属性离散化
目录
摘要
Abstract
1 绪论-1
1.1本文的研究背景-1
1.2 决策树的国内外研究-1
2 关于决策树分类相关技术简介-2
2.1 数据挖掘应用背景-2
2.2 数据挖掘的概念-2
2.3数据挖掘发展历程-2
2.4数据挖掘主要解决的问题-3
2.5数据挖掘的一般过程-3
2.6数据挖掘技术-4
2.7决策树分类算法-4
2.7.1基本概述-4
2.7.2一般的决策树表现形式-5
2.7.3决策树算法分类流程-5
2.7.4决策树分类可以解决的问题-6
2.8 决策树的评判-7
3 基于信息的决策树分类算法-8
3.1 ID3算法-8
3.1.1属性选择度量的思想-8
3.1.2信息增益在ID3中的使用-8
3.1.3 ID3算法的介绍-9
3.2 C4.5算法的简介-10
3.3 CART算法的简介-10
3.4 上述算法的比较-10
4 基于信息熵的改进决策树算法-12
4.1 算法介绍-12
4.2 改进算法的理论支持-12
4.3 改进算法的主要思想-13
4.4 改进算法的连续属性处理过程-13
4.4.1连续属性值缺省的处理-13
4.4.2问题的描述-13
4.4.3改进算法中的几个概念定义-14
4.4.4算法描述-14
4.5 改进算法的决策树生成-16
4.6 改进算法的流程图-17
5 改进算法在订外卖中的应用-18
5.1实验环境-18
5.2 数据的来源-18
5.3 订外卖的需求分析和数据的处理-18
5.4 订外卖的属性值分析-21
5.5 订外卖中各个变量的分析-23
5.6 对订外卖决策的两者算法进行分析-24
5.6.1两种算法生成的树形图-24
5.6.2由决策树得出的决策树规则-25
5.6.3两种算法所得结果比较-25
5.7 结果分析-25
6 总结-26
参考文献-27
致谢-28