摘要: 生物信息学是通过统计学、信息学、应用数学和计算机科学的方法来进行生物学的问题的研究。生物信息学的研究对象就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索、处理及利用。
本文提出了基于蛋白质序列的k-字间隔序列,并提出了间隔序列的伪丰度的概念。k取值为2时,我们通过一个400维的向量表示蛋白质序列,最后通过欧式距离构建了距离矩阵,通过邻接法重构了26种冠状病毒的进化树。我们所构建的进化树的各分支与序列的来源是高度一致的,说明我们的方法对冠状病毒的进化分析是有效的。
关键词:间隔序列;伪丰度;k字
目录
摘要
Abstract
1、生物信息学-1
1.1 生物信息学概念-1
1.2 生物信息学的研究对象-1
1.2.1 核酸-1
1.2.2 DNA-1
1.2.3 RNA-2
1.2.4 蛋白质-2
1.3 生物信息学的发展前景-3
2、 进化分析的特征提取方法和进化树构建方法-5
2.1已有的特征统计方法-5
2.1.1基于统计特征法-5
2.1.2基于图形表示法-5
2.2进化树的构建方法-7
2.2.1 基于距离构建法-8
2.2.2 邻接法-8
2.2.3 用PHYLIP进行进化树构建-9
3 冠状病毒进化树构建-10
3.1冠状病毒介绍-10
3.1.1冠状病毒分类-10
3.1.2冠状病毒的传播方式-10
3.2 数据集-11
3.3 我们方法构建的进化树-12
结论-14
参考文献-15