摘要:当今开源软件界出现一匹黑马——数据挖掘工具Weka,Weka涵盖了很多能进行数据挖掘任务的数据挖掘策略:对数据进行处理、聚类、分类、关联还有全新的可视化交互式界面。Weka在中国的流行促使大家不断努力的完善Weka,在Weka工具上添加更多的机器学习算法,使Weka的功能越来越强大的同时界面也变得越来越友好,这些努力Weka可以和收费的数据挖掘工具抗衡。
本文主要内容是使用两种数据挖掘算法,决策树C4.5和关联规则Apriori算法,分别挖掘两个数据集。记录实验过程,分析评估实验结果,结论。由wages数据集挖掘结果可知:工资水平跟学历,社会经历,性别,和婚姻状态有关。由weather数据集结果可知:是否出去游玩跟温度,天气预报,天气状况有关。由iris数据集可知:鸢尾花的种类跟花瓣长度跟宽度有关。
关键词:Weka 数据挖掘 决策树 关联规则
目录
摘要
Abstract
引言
1 绪论-2
1.1 课题研究背景及意义-2
1.2 国内外数据挖掘的研究现状、进展及应用-2
1.3 课题意义-3
1.4 本文组织结构-3
2 WEKA工具下的数据挖掘-4
2.1 数据挖掘主要步骤-4
2.2 WEKA平台介绍-4
2.2.1 WEKA图形用户界面简介-5
2.2.2 各种图形用户界面功能简介-6
2.2.3 WEKA核心数据结构-6
3 WEKA工具下的决策树算法实验-8
3.1 决策树算法基本介绍-8
3.2 决策树算法评价指标-8
3.3 决策树算法性能分析-9
3.3.1决策树算法性能分析实验-9
3.3.2决策树算法性能分析结果-11
3.4 J4.8算法下的数据挖掘-14
3.4.1 数据集的准备-14
3.4.2 数据预处理-15
3.4.3 算法的运用-19
3.4.4实验结果-23
3.5 J4.8算法下挖掘另一个数据集-25
4 WEKA工具下的关联规则实验-29
4.1 关联规则基本介绍-29
4.2 关联规则经典算法——Apriori-29
4.3 Apriori算法下的数据挖掘-30
4.4 使用Apriori算法挖掘Weather数据集-32
结论
致谢
参考文献