摘要:随着中国证券市场在十几年的时间里迅速发展,特别是股权分置改革的深入和全流通的时代的来临,截至2006年12月29日,沪深两市上市公司共有1421家,上市股票1507只,单单是年报中财务报表就是一个海量数据,因为对于中长期投资者而言,不仅需要利用这些信息选择出未来能够具有较高盈利水平又具有较好的成长性公司进行投资,而且同时又要过滤或排除由于会计调节带来的干扰信息,所以亟须象数据挖掘技术这样更为有效财务分析手段和工具。
数据挖掘其实是一个逐渐演变的过程,是在处理新的海量数据集和复杂结构数据过程中逐步形成的各种数据处理方法(如数理统计、人工智能和机器学习)的汇总。由于数据挖掘是各种理论指导下基于现实数据的实证方法,相对于完全基于传统财务会计理论的方法,它的客观性和实用性更强,更重要的是它非常高效。
本文就是尝试利用数据挖掘技术的方法研究上市公司财务分类与判定问题,实质就是进行财务状况分类器的建模,而分类器建模又涉及三种技术:数据预处理、可视化和数据挖掘技术。
数据预处理技术在这里主要应用体现在全面考察了反映公司的财务和非财务指标体系,并对不同数据库抽取出来的数据进行缺失值处理,并采用主成分分析法对指标体系进行降维处理,同时分别采用分层和聚类两种方法进行建模数据抽样对数据降维;数据的可视化技术应用在这里体现降维后的财务指标特征研究,同时将离群点标示出来并根据相关条件予以剔除。
数据预处理与可视化实际是建模工作的准备,而本文的核心部分在于财务状况分类器的建模。即根据样本数据分别运用Logistic回归模型、神经网络模型和决策树模型建立判别模型,为了保证模型的稳健可靠,在建立完模型以后,又采用数据拆分和时间序列数据两种方法对模型进行检验。
关键词: 数据挖掘 数据预处理 数据可视化 财务判别模型
本文首先从研究数据库抽取和合并原始数据,得到一个整个数据点相当于1408*154的稀疏的矩阵财务与非财务指标体系,由于种种原因,数据存在大量的缺失值,所以首先对原始指标数据进行缺失值处理,发现有13个财务指标和53支股票缺失值都超过15%,予以剔除。又得到一个1355*141的稠密矩阵,然后利用主成分分析法对财务指标体系进行降维处理,发现31个主成分的累计贡献率可以接近85%,为筛选出比较有代表性的财务指标,我们采用阀值因子的方法,利用三年的数据筛选出对主成分因子负荷较高的24个财务指标,并和非财务指标数据进行匹配,最后得到一个1299*35的样本数据。
在样本数据进行缺失值处理和可视化研究时发现,绝大部分的指标数据都不满足正态分布,所以只能对数据进行非参数检验,发现在三类公司在大部分指标上存在差异,在部分指标上还表现出显著差异,这说明通过建立合理的分类判别模型是可以将其区分的,而且会有比较高的准确度。
因为绝大部分的指标数据不是正态分布的,所以可以选择的建模方法就应该有所选择,所以本文采用Logistic回归、Exhaustive CHAID决策树、BP神经网络三种方法建立了相应的判别模型。
最后我们通过利用RLC曲线和聚类抽样的时间序列数据两个方法对模型进行检验,准确率在可以接受的范围内。