摘要:由于生物学研究的飞速进展,生物信息学等实现不同领域的多个应用程序,现在它已应用于生物,数学,物理等领域。生物信息学是一个有体系的科学,生物和生物信息学及相关内容是我们需要第一项去研究的。今天的生物学不限于观察和实验,理论和计算方面也将在它的领域中发挥了巨大的作用。本课题的主要任务对蛋白质结构预测方法进行了研究。
我们通过支持向量机对蛋白质结构类进行预测,并采用了11个特征,其中,本文提出了基于蛋白质二级结构序列中E,H和C间隔序列的偏度的3个特征,其余8个特征是以前研究者提出的。本文基于支持向量机,通过杰克刀检验,对25PDB、1189和640三组数据集来训练和测试我们的方法,三组数据的总精确度均在80%以上,说明我们的的方法是有效的。
关键词:生物信息学;支持向量机;间隔序列偏度
目录
摘要
Abstract
1.生物信息学的简介-1
1.1 生物信息学的背景和定义-1
1.2 生物信息学研究对象-2
1.2.1 核酸-2
1.2.2蛋白质-3
1.3生物信息学的研究内容-5
1.3.1序列比较-5
1.3.2蛋白质结构的比较和预测-5
1.3.3基因表达数据分析-5
2 蛋白质结构类预测-7
2.1 研究背景-7
2.2蛋白质的二级结构-8
2.2.1蛋白质二级结构的形式-8
2.3预测方法-9
2.3.1同源性(Homology)方法-9
2.3.2统计/经验算法─ Chou-Fasman和GOR方法-9
2.3.4物理化学方法-10
3 用支持向量机预测蛋白质结构类-11
3.1蛋白质结构数据集-11
3.2蛋白质结构特征的提取-11
3.3支持向量机-13
3.4 刀切法检验与算法性能评估-16
3.5偏态系数、偏度、标准(变异)系数-16
3.5.1偏态系数-16
3.5.2偏度-17
3.5.3标准(变异)系数-17
3.6间隔序列-18
3.7 我们的预测结果-18
结 论-21
参考文献-22
致 谢-24