摘要:现如今,P2P网贷在中国迅速发展,其简化的借贷过程存在着巨大的风险。本文基于融360网站提供的竞赛数据,首先对数据进行合并、填补等预处理,其次通过特征工程构建新的属性,最后通过三种不同的单一分类模型和具有融合特征的分类模型分别对用户是否发生逾期行为进行预测。实验结果表明,三种单一分类模型中的逻辑回归具有较好的预测效果,梯度提升决策树相比于三种单一的分类模型具有更好的预测效果,特征工程在提升分类效果的过程中有着至关重要的作用。
关键词:P2P网贷;决策树;梯度提升决策树;信用预测
目录
摘要
Abstract
1 引 言-1
1.1 研究背景-1
1.2 研究意义-1
1.3 研究内容-2
2 相关文献综述-2
2.1 信用风险研究-2
2.2 信用风险预测模型-3
2.2.1 决策树-3
2.2.2 逻辑回归-3
2.2.3 随机森林-4
2.2.4 梯度提升决策树-4
3 P2P网贷用户信用数据描述与预处理-4
3.1 数据来源-4
3.2 数据描述-5
3.3 数据预处理-8
3.3.1 合并数据条目-8
3.3.2 构建哑变量-8
3.3.3 合并不同类型的数据-9
4 P2P网贷用户信用数据挖掘实验-9
4.1 特征工程-9
4.2 属性重要性分析-9
4.3 数据挖掘实验-10
4.3.1 评价指标AUC-10
4.3.2 决策树、随机森林和逻辑回归-10
4.3.3 梯度提升决策树-12
5 结论-13
参考文献-15
致谢-17