摘 要: 随着DNA测序技术的发展,人类基因组和其它模式的生物基因组将要被完全测序,需要被检测的DNA序列数量急剧增加。目前,蛋白质序列数据库的数据积累的速度非常快,但已知结构的蛋白质相对比较少。而且通过实验方法确定蛋白质结构的过程仍然非常复杂,代价较高。因此通过理论分析方法来解决蛋白质结构预测问题一直都是一个亟待解决的问题。本文对蛋白质二级结构预测的相关问题进行了研究。这是因为氨基酸序列决定了蛋白质的空间结构,而蛋白质的空间结构决定了蛋白质生理功能的多样性。利用BP人工神经网络模型预测蛋白质二级结构的基本原理是利用标准蛋白质数据库提供足够的已知氨基酸一维序列作为神经网络的训练集样本,然后对其进行正交编码,将其转化为相关信息输入到网络中,训练网络各权值参数和阈值参数,使得学习目标达到最小,即网络达到基本稳定。然后取未知蛋白质序列进行预测,使用已知的蛋白质序列作为测试集,可以将经过神经网络预测的结果与经过试验实际观测得到的结果作比较,从而计算该神经网络的预测精度。预测精度是衡量算法预测准确度的唯一办法。采用本文中设计的神经网络对标准数据库的蛋白质二级结构预测准确率相对较高,但同时也有其不足之处。本课题为自选课题,拟通过将之前学习过的人工智能算法运用到生物网络数学建模中。
关键词:数学规划;蛋白质结构预测;正交编码;神经网络算法
目 录
摘 要
ABSTRACT
第1章 绪论-1
1.1 课题的研究背景及意义-1
1.2 蛋白质结构预测的目的-2
1.3 本课题的主要工作任务-3
1.4 研究方法-3
第2章 研究对象-4
2.1蛋白质结构及其基本理论-4
2.1.1 蛋白质分子的结构简介-4
2.1.2蛋白质二级结构分类-6
2.2 课题相关领域的研究和发展-7
2.2.1 蛋白质二级结构预测现状及存在的问题与发展前景-7
2.3 人工神经网络方法-8
2.4 神经网络参数的选择-10
2.4.1 窗口的选择-10
2.4.2 隐含层的选取原则-11
2.4.3 BP网络的相关参数[18]-12
2.5 数据集的选取-12
2.6 数据编码-16
2.6.1 预处理-16
2.6.2 正交编码-17
2.7 数据的向量化-18
2.7.1 滑动窗口法-18
2.8 BP网络性能的评价-19
2.9 实验进行过程-20
第3章 实验结果-22
3.1 循环次数选择结果-22
3.2 训练函数选择结果-22
3.3 最佳窗口的选择结果-22
3.4 最佳隐含层的确定-23
第4章 讨论-25
4.1 编码方式的的选择-25
4.2 网络学习函数选择的情况-25
4.3 其它情况-25
第5章 结论与展望-27
5.1结论-27
5.2不足之处及未来展望-27
参考文献-28
致谢-30