摘要:在这个信息化发展的大时代里,我们会发现无论在哪个领域都会用到或多或少的数学知识去解决一些必要的问题。比如在生物学研究中数学占了很大的比重。统计学,包括多元统计学,是生物信息学的数学基础之一。
本课题主要研究6种革兰氏阴性细菌分泌蛋白的分类问题。基于序列数据的分泌型蛋白质类型的预测仍然是一个具有挑战性的问题。在本文中,我们从特异性打分矩阵(PSSM)中提取了长程相关性信息。在17个不同间隔下,共提取了6800个特征,通过CFS特征选择方法去除冗余信息,选择了309个特征进行预测。为了验证我们方法的性能,采用了杰克刀检验和独立数据集测试方法通过支持向量机进行分类预测,其总精度分别是93.60 %和100.0 %。我们的研究结果与现有方法的比较表明,我们的方法对分泌蛋白类型预测是有效的。
关键词:特征选择;相关系数;支持向量机算法
目录
摘要
Abstract
1 生物信息学-1
1.1 生物信息学的基本概念及目标-1
1.2 生物信息学的研究方向和发展前景-1
1.2.1生物信息学的研究方向-1
1.2.2 生物信息学的发展前景-2
2 机器学习方法介绍-3
2.1机器学习方法的意义及分类-3
2.1.1机器学习方法的意义-3
2.1.2机器学习方法的分类-3
2.2 特征选择-4
2.3 支持向量机(SVM)的原理-5
3 分泌蛋白的统计方法与研究-9
3.1 分泌蛋白的介绍及其研究价值-9
3.2数据集和方法-10
3.2.1 数据集-10
3.2.2 特征提取-10
3.2.3 特征选择与值的选择-12
3.2.4 分类算法的构建-13
3.3 预测评价-13
3.4 结果-13
结 论-16
参 考 文 献-17
致 谢-19