摘要:房屋价格预测一直以来都是受到社会关注的热点问题。由于单幢房价受多种复杂因素影响的原因,本文无法采用传统的以线性回归为基础的模型。正则化方法以及机器学习中的集成方法和神经网络模型则可以很好地预测这类非线性、不确定因素较多的复杂预测问题。
本文以美国爱荷华州埃姆斯市的房价数据为例,通过评估不同方法和模型进行房价预测的准确性,最终选择了集成方法中的Stacking方法,形成了综合Lasso(Least absolute shrinkage and selection operator)回归、GBRT(Gradient Boosting Regression Tree)、BP(Back Propagation)神经网络等三种方法的集成模型,并取得了较好的预测效果。本文主要完成了以下工作:
1. 通过查阅多种资料了解正则化方法和机器学习方法的原理和应用,以及如何建立各种所需方法的模型。
2. 分析了房价和其多种影响因素之间的相关性,研究各种影响因素的重要性并分析其与房价间的显示意义。
3. 根据不同的预测方法,采用Python语言建立模型、训练数据并得出了各个模型的预测准确度。通过比较各种方法,最终形成了综合Lasso回归、GBRT、BP神经网络三种方法的集成方法。该方法相比于其他方法有较大的性能提升,在测试集上取得了0.1186的对数均方误差根。
关键词:正则化;Lasso回归;集成方法;BP神经网络;房价预测
目录
摘要
Abstract
前 言-1
第一章-绪 论-2
1.1-选题背景与研究意义-2
1.2 相关研究工作-2
1.2.1 正则化方法-2
1.2.2 机器学习方法-3
1.2.3 房价预测-4
1.3 本文研究的主要内容。-4
1.4 本文研究的主要方法。-5
第二章 正则化方法和机器学习方法原理概述-6
2.1 线性回归和正则化方法-6
2.1.1 最小二乘线性回归-6
2.1.2 岭回归-7
2.1.3 Lasso回归-7
2.2 机器学习方法-8
2.2.1 集成方法-9
2.2.2 神经网络-12
2.3 本章小结-14
第三章 影响房屋价格的因素分析-15
3.1 影响单幢房屋价格的因素-15
3.1.1 房屋的自身因素-15
3.1.2 房屋的自然环境因素-15
3.1.3 房屋的社会环境因素-16
3.1.4 房屋的行政因素-16
3.2 影响房屋价格的因素与房价的相关性分析-16
3.2.1 房屋价格数据的统计情况-17
3.2.2 数值型变量的相关性分析-19
3.2.3 分类型变量的相关性分析-20
3.3 本章小结-22
第四章 基于正则化方法和机器学习的房价预测-23
4.1 实验方法及实验准备-23
4.1.1 数据预处理-23
4.1.2 数据集划分-23
4.1.3 实验方法-24
4.1.4 性能评估指标-24
4.2 各个模型的实验过程及测试结果-24
4.1.1 回归及正则化方法-24
4.1.2 Adaboost方法-25
4.1.3 GBRT方法-26
4.1.4 BP神经网络-28
4.3 基于stacking集成方法的房价预测模型-30
4.4 本章小结-31
第五章 结 论-32
5.1结论-32
5.2存在的问题及展望-32
参考文献-33
致谢-35