摘要:经历生物数据爆炸时期的我们,如何对这样大量的信息进行研究学习,是一个很大的难题,所以我们要找出能解决这个问题的方法手段。对于这样复杂而且数量巨大的生物数据,以前的传统方法已经不能够满足统计分析这些数据的需求了。生物信息学就是在这种情况下产生的。
目前,在生物信息学的众多课题之中,分子进化分析和比较基因组学是相对比较主要的。对已知的基因组进行多个层次的比较的学科就是比较基因组学。物种间或者生物个体的比较分析对分析有关于生物医药学和农业科学中的问题是必不可少的手段和方法。为了推测生物的进化进程,我们要借助生物之间排列和排列的比较。
本文基于统计学中偏度的定义,提出了间隔序列偏度的特征,分别在字长k=7时构建了48种戊型肝炎病毒和30种哺乳动物线粒体基因的进化树,通过与经典结果的比较说明我们的方法是有效的。
关键词:生物信息学;生物进化分析;序列比较
目录
摘要
Abstract
1 生物信息学-1
1.1 生物信息学产生的背景-1
1.1.2 生物信息学的定义-1
1.2 生物信息学的研究对象和发展前景-1
1.2.1 生物信息学的研究对象-1
1.2.1.1 核酸-2
1.2.1.2 关于-2
1.2.1.3 关于-2
1.2.1.4 蛋白质-2
1.2.2 生物信息学的发展前景-3
2 生物进化分析的方法-4
2.1 生物序列分析中的比对方法-4
2.1.1 两两序列比对模型-4
2.1.2 多序列比对模型-5
2.2 生物序列分析中的非比对方法-5
2.2.1 生物序列的图形表示方法-6
2.2.2特征向量表示方法-6
2.2.3 信息压缩方法-6
3 生物进化分析中的新的统计方法-7
3.1 进化树的构建方法-7
3.2 两组数据集-8
3.2.1 48种戊型肝炎病毒-8
3.2.2 30种哺乳动物线粒体基因-13
3.3 k-字间隔序列-17
3.4 统计方法的数值选择-17
3.4.1 关于众数-17
3.4.2 关于偏度-19
3.4.3 基于k-字间隔序列偏度的进化分析方法-19
3.4.4 基于k-字间隔序列的偏度构建进化树-20
结 论-21
参 考 文 献-22
附录A(用MATLAB构建进化树的程序)-24
致 谢-25