统计方法在分泌蛋白分类中的应用研究.doc

  • 需要金币1000 个金币
  • 资料目录论文助手 > 论文题目 > 工业工程 >
  • 转换比率:金钱 X 10=金币数量, 例100元=1000金币
  • 论文格式:Word格式(*.doc)
  • 更新时间:2018-12-19
  • 论文字数:8142
  • 课题出处:(Yangbaobao)提供原创资料
  • 资料包括:完整论文

支付并下载

摘要:在这个信息化发展的大时代里,我们会发现无论在哪个领域都会用到或多或少的数学知识去解决一些必要的问题。比如在生物学研究中数学占了很大的比重。统计学,包括多元统计学,是生物信息学的数学基础之一。

    本课题主要研究6种革兰氏阴性细菌分泌蛋白的分类问题。基于序列数据的分泌型蛋白质类型的预测仍然是一个具有挑战性的问题。在本文中,我们从特异性打分矩阵(PSSM)中提取了长程相关性信息。在17个不同间隔下,共提取了6800个特征,通过CFS特征选择方法去除冗余信息,选择了309个特征进行预测。为了验证我们方法的性能,采用了杰克刀检验和独立数据集测试方法通过支持向量机进行分类预测,其总精度分别是93.60 %和100.0 %。我们的研究结果与现有方法的比较表明,我们的方法对分泌蛋白类型预测是有效的。

 

关键词:特征选择;相关系数;支持向量机算法

 

目录

摘要

Abstract

1 生物信息学-1

1.1 生物信息学的基本概念及目标-1

1.2 生物信息学的研究方向和发展前景-1

1.2.1生物信息学的研究方向-1

1.2.2 生物信息学的发展前景-2

2 机器学习方法介绍-3

2.1机器学习方法的意义及分类-3

2.1.1机器学习方法的意义-3

2.1.2机器学习方法的分类-3

2.2  特征选择-4

2.3 支持向量机(SVM)的原理-5

3 分泌蛋白的统计方法与研究-9

3.1 分泌蛋白的介绍及其研究价值-9

3.2数据集和方法-10

3.2.1 数据集-10

3.2.2 特征提取-10

3.2.3  特征选择与值的选择-12

3.2.4   分类算法的构建-13

3.3 预测评价-13

3.4   结果-13

结   论-16

参 考 文 献-17

致    谢-19


支付并下载

提示:本站支持手机(IOS,Android)下载论文,如果手机下载不知道存哪或打不开,可以用电脑下载,不会重复扣费