基于信息熵的决策树分类器初探.docx

  • 需要金币1000 个金币
  • 资料目录论文助手 > 大学本科 > 科技学院 >
  • 转换比率:金钱 X 10=金币数量, 例100元=1000金币
  • 论文格式:Word格式(*.doc)
  • 更新时间:2021-03-24
  • 论文字数:13459
  • 课题出处:(paiguoguo)提供原创资料
  • 资料包括:完整论文

支付并下载

摘要:本文探究的是数据挖掘中的决策树分类。其中常见的基于属性选择度量(即信息方法)有ID3和C4.5算法。但是这些算法都不太完善,有一定的缺陷,在实际生活中不太实用。为此本文提议了改善后的基于信息熵的决策树分类算法,在一定程度上弥补了ID3不能处理连续属性和C4.5很容易采选取值比较多的属性等不足,在处理连续属性时也可以更好地将其离散化,并且算法复杂度较低。

    为了验证本文提出的改进后的算法的优越性,将其应用到实际生活订外卖的问题中。通过分析影响人们订外卖的主观因素和客观因素,可以挖掘出消费者在特定条件下某个时间段选择是否订外卖的决策。

   关键词:数据挖掘 信息熵 决策树 属性离散化

 

目录

摘要

Abstract

1 绪论-1

1.1本文的研究背景-1

1.2 决策树的国内外研究-1

2 关于决策树分类相关技术简介-2

2.1 数据挖掘应用背景-2

2.2 数据挖掘的概念-2

2.3数据挖掘发展历程-2

2.4数据挖掘主要解决的问题-3

2.5数据挖掘的一般过程-3

2.6数据挖掘技术-4

2.7决策树分类算法-4

2.7.1基本概述-4

2.7.2一般的决策树表现形式-5

2.7.3决策树算法分类流程-5

2.7.4决策树分类可以解决的问题-6

2.8 决策树的评判-7

3 基于信息的决策树分类算法-8

3.1 ID3算法-8

3.1.1属性选择度量的思想-8

3.1.2信息增益在ID3中的使用-8

3.1.3 ID3算法的介绍-9

3.2 C4.5算法的简介-10

3.3 CART算法的简介-10

3.4 上述算法的比较-10

4 基于信息熵的改进决策树算法-12

4.1 算法介绍-12

4.2 改进算法的理论支持-12

4.3 改进算法的主要思想-13

4.4 改进算法的连续属性处理过程-13

4.4.1连续属性值缺省的处理-13

4.4.2问题的描述-13

4.4.3改进算法中的几个概念定义-14

4.4.4算法描述-14

4.5 改进算法的决策树生成-16

4.6 改进算法的流程图-17

5 改进算法在订外卖中的应用-18

5.1实验环境-18

5.2 数据的来源-18

5.3 订外卖的需求分析和数据的处理-18

5.4 订外卖的属性值分析-21

5.5 订外卖中各个变量的分析-23

5.6 对订外卖决策的两者算法进行分析-24

5.6.1两种算法生成的树形图-24

5.6.2由决策树得出的决策树规则-25

5.6.3两种算法所得结果比较-25

5.7 结果分析-25

6 总结-26

参考文献-27

致谢-28


支付并下载

提示:本站支持手机(IOS,Android)下载论文,如果手机下载不知道存哪或打不开,可以用电脑下载,不会重复扣费