摘要:股票市场是一个非常复杂的系统,受众多可量化、不可量化的因素影响,这对一般的投资者来说很难从中发现其运行规律。数据挖掘作为一种从海量原始数据中挖掘出隐含的价值信息的手段,可以有效的针对股市特征,辅助投资者们降低投资风险、提高收益率。
本文收集整理了 2018 年第一季度上证 A 股中的 500 支上市股票为样本,选取 12 个有代表性的财务指标作为输入变量。运用因子分析,抽象出 5 个反映上市公司不同维度的能力因子,得出各个上市公司的因子得分和综合得分,根据综合得分将股票分为 3 类,将股票的分类类别作为输出变量。运用 CART 算法和 LM 神经网络算法,随机选取 80%的样本数据作为训练样本,用于模型建立;选取其余 20%数据作为测试样本,用于模型有效性的检测。最后对比两种分类算法的预测准确率,LM 神经网络算法对测试样本的预测准确率最高。对上市公司的综合得分进行分析,可以筛选出综合能力相对较高的股票所具有的共有特征,可以为投资者在定位绩优股、投资决策上提供帮助。
关键词:数据挖掘;决策树;神经网络;股票分类
目录
摘要
Abstract
第 1 章 绪论-4
1.1 研究背景及意义-4
1.2 国内外研究现状-4
第 2 章 数据挖掘与分类预测概述-5
2.1 数据挖掘步骤-5
2.2 数据挖掘算法-5
第 3 章 数据采集和数据处理-7
3.1 数据采集-7
3.2 数据探索分析-9
3.3 数据预处理-10
3.4 数据转换-10
3.4.1 因子分析介绍-11
3.4.2 因子分析实验-12
第 4 章 基于 CART 算法和 LM 神经网络的股票分类-17
4.1 基于 CART 算法的股票分类-17
4.2 基于 LM 神经网络的股票分类-18
第 5 章 分类模型评价-20
第 6 章 结论-22
参考文献-23
致谢-24