摘要:随着国家不断调整教育结构,各高校不断扩招,学生和教师的数量大幅增长。给教学和管理工作带来了严峻的考验,由于缺乏必要的技术和手段,管理人员只能通过传统方法进行统计分析,未能发现数据背后重要的有效信息。
本文研究了基于校园卡数据的预测方法,利用校园卡数据,提取了图书馆借阅、校园卡消费、宿舍门禁、图书馆门禁、学生成绩等数据的数据特征。对这些数据进行数据预处理,从地点维度、时间维度、消费方式维度进行特征提取。利用机器学习XGBoost算法的方法来预测影响学生成绩的关联因素,得到图书馆学习天数,学习次数等重要影响因素,从而帮助同学改变学习方法,帮助老师改变教学方式。
关键词:机器学习;Python;XGBoost算法;关联规则
目录
摘要
Abstract
1 绪论-1
1.1研究背景及意义-1
1.2 国内外现状及发展趋势-1
1.2.1 国内现状及发展趋势-1
1.2.2 国外现状及发展趋势-1
1.3本文主要内容及结构安排-2
2.数据挖掘及机器学习综述-3
2.1数据挖掘-3
2.1.1 数据挖掘概念-3
2.1.2 数据挖掘过程-3
2.2 机器学习-4
2.2.1 机器学习概念-4
2.2.2 机器学习主要任务-4
2.2.3开发机器学习应用程序的步骤-5
2.2.4 Python语言-5
2.3 数据挖掘相关技术-6
2.3.1 关联规则算法-6
2.3.2 决策树算法-6
2.3.3聚类分析-6
2.4 本章小结-6
3 关联规则数据挖掘算法分析-7
3.1 关联规则-7
3.2关联规则经典算法Apriori算法-7
3.2.1 Apriori定义-7
3.2.2 Apriori算法的一般过程-7
3.3使用Apriori算法来发现频繁集-8
3.3.1 生成候选项集-8
3.3.2 组织完整的Apriori算法-8
3.4从频繁项集中挖掘关联规则-8
3.5本章小结-9
4 学生成绩数据关联因素分析的设计与实现-10
4.1 问题简述-10
4.2 数据准备-10
4.3 特征工程-10
4.3.1特征构造-10
4.3.2 特征处理-11
4.3.3特征选择-12
4.4 模型选择-12
4.4.1 Random Forest(随机森林)算法-12
4.4.2 GBDT算法-12
4.4.3 XGBoost算法-13
4.5模型融合及参数调优-13
4.5.1模型融合和模型选择的区别-13
4.5.2 模型融合方法-13
4.5.3 参数调优-14
4.6实验数据说明和处理-14
4.7实验评估指标-15
4.8实验结果-15
4.9 本章小结-15
结 论-16
参 考 文 献-17
附录A 程序-18
附录B 结果-20
致 谢-38