-(zh-hans:生物信息学;zh-hant:生物资讯学)-
生物-(zh-hans:信息;zh-hant:资讯)-学利用
应用数学、
信息学、
统计学和
计算机科学的方法研究
生物学的问题。目前的
生物信息学基本上只是
分子生物学与
信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的
生物学数据,其研究工具是
计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。目前主要的研究方向有:
序列比对,
基因识别,基因重组,蛋白质结构预测,基因表达,蛋白质反应的预测,以及建立进化论的模型。
生物学技术往往生成大量的
嘈杂数据。与
数据挖掘类似,生物信息学利用数学工具从大量数据中提取有用的生物学信息。生物信息学所要处理的典型问题包括:重新组装在
散弹法DNA测序过程中被打散的DNA序列,从
蛋白质的
氨基酸序列预测蛋白质结构,利用mRNA
微阵列或
质谱仪的数据检验
基因调控的
假说。
某些人将
计算生物学作为生物信息学的同义词处理,在英文版的
Wikipedia里就是如此;但是另外一些人认为
计算生物学和生物信息学应当被当作不同的
条目处理,因为
生物信息学更加侧重于
生物学领域中计算方法的使用和发展,而
计算生物学强调应用
信息学技术对
生物学领域中的假说进行检验,并尝试发展新的理论。
序列分析
1977年,
噬菌体Φ-X174成为第一个被完整测定
基因组顺序的
生物体。自此以后,越来越多生物体的
DNA序列被人类测定。通过对这些序列的分析,人们希望获知其中对应
蛋白质编码的
基因和
基因调控序列。不同
物种间的基因比对既能够解释和预测他们
蛋白质的功能的相似性,又能够揭示不同物种间的联系。由于数据量巨大,依靠人工分析
DNA序列早已变得不切实际,这使得人们不得不采用计算机分析数千种生物体的数十亿个核苷酸组成的
DNA序列。由于
DNA序列中普遍存在
变异现象,这些计算机程序需要识别大量相关但是不完全相同的序列。即便是在DNA测序的过程中,也存在着不确定的因素。在DNA测序的
散弹法(The Institute for Genomic Research依此技术测定了第一个细菌的
基因组)中,完整的DNA链被打散为成千上万条长约600到800个
核苷酸的DNA片段。这些DNA片段的两端相互重叠,只有依照正确的顺序组合,才能还原为完整的
DNA序列。对于较大的基因组,
散弹法能够迅速的测定DNA片段的序列,但将它们组装起来的工作则相当复杂。在人类基因组计划中,该基因重组过程花费了几个月的CPU时间(on a circa-2000 vintage DEC Alpha computer)。由于现今几乎所有基因序列均由
散弹法测定,
基因重组算法是信息生物学研究的重点课题。
基因组中并不是所有的
核苷酸都构成
基因,所以序列分析的另一个研究课题是对
基因组中的
基因和
基因调控序列进行自动识别。在较高等的生物体中,
DNA序列的大部分并没有明显的作用。但是,这些所谓的“
垃圾DNA”却可能具有未被识别的功能。
基因组注释
在
基因组学中,对基因和其他生物特征的标注称为基因组注释。1995年,Owen White(在1995年完成的人类首次为独立的生物体——流感嗜血杆菌——测序的工作中,他是组员之一)设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征,并能够初步的分析它们的功能。大多数现今的注释系统的与之类似,但用以分析DNA序列的软件在不断进化之中。
在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。
显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比对(progressive alignment)的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要的,尤其是对保守的区域。
计算进化生物学
进化生物学研究物种的起源和演化。引入信息学到进化生物学中,使得研究者能够:
- 通过度量DNA序列的改变研究众多生物体间的进化关系(超越了以前基于身体和生理特征观察的研究方法)
- 通过整个基因组的比对,研究更为复杂的进化论课题,如基因复制,基因横向迁移等
- 为种群进化建立复杂的计算模型,以预测种群随时间的演化
- 保存大量物种的遗传信息
未来的研究工作包括重建业已相当复杂的
进化树。
计算进化生物学常常与采用
遗传算法的计算机科学相混淆。后者受到生物进化原理的启发,发展出一套软件用于改进配方、算法、集成电路设计等等。
生物多样性的度量
对一个特定的
生态系统,小到一层生物膜、一滴海水、一铲泥土,大到整个地球,其中全体物种的基因组成分可被定义为这个生态系统的
生物多样性。搜集各物种的名称、描述、分布、遗传信息、地位、种群大小、栖息地,和各生物体间的相互作用等信息,可以建立一个数据库。有专门的软件用于搜寻、分析和可视化这些信息,更重要的是,它们还能够帮助人们相互交流这些信息。计算机能够模拟相应的模型,以计算种群动态演变,遗传健康状态等等。
该领域的一个重要前景是为濒危物种建立基因银行,即将各物种的基因组信息保存下来。这样即便在将来这些物种灭绝了,人类也可能利用它们的基因组信息重新创造出它们。
-->