摘要:经历生物数据爆炸时期的我们,如何对这样大量的信息进行研究学习,是一个很大的难题,所以我们就应该要去找出能解决这个问题的办法。对于这样复杂而且数量巨大的生物数据,以前的传统方法已经不能够满足统计分析这些数据的需求了。生物信息学就产生在这样的环境里了。
本文中,我们提出了k字间隔序列的概念来反映k字在DNA序列中的分布情况,并将k字间隔序列的Lempel-Ziv(LZ)复杂度作为k字特征,构建了一个4k维的特征向量,通过欧式距离构建距离矩阵,并通过邻接法构建了三组数据的进化树。当k的取值从2到7时,我们分别构建了进化树,通过比较发现k的值取7时,构建的进化树比较可靠。通过与经典结果进行比较,说明了我们方法的有效性。
关键词:k字;LZ复杂度;进化树
目录
摘要
Abstract
1.1 生物信息学产生的背景-3
1.1.2 生物信息学的定义-3
1.2 生物信息学的研究对象和发展-3
1.2.1 生物信息学的研究任务与发展前景-3
1.2.1 核酸-4
1.2.2 DNA-4
1.2.3 RNA-4
2 进化树构建方法-5
2.1比对方法-5
2.2非比对方法-6
2.2.1 图形表示模型-6
2.2.2信息复杂度模型-8
2.3 进化树构建方法-9
2.3.1 基于距离构建法-10
3 基于LZ复杂度的进化树构建-11
3.1 数据集介绍-11
3.1.1 30种哺乳动物线粒体基因-11
3.1.2 24种脊椎动物的转铁蛋白-14
3.1.3 48种戊型肝炎病毒-16
3.2 信息提取方法介绍-19
3.3 构建的进化树-19
结 论-23
参 考 文 献-23
致 谢-24