生物信息学

来自生物云教育
跳转至: 导航搜索


学科体系
海洋生物学
理论生物学
生物力学
生物数学
生物统计学
神经信息学
结构基因组学
结构生物学
计算生物学
计算神经科学
量子生物学

随着人类基因组计划的不断推进,运用理论模型和数值计算研究生命科学,已经成为一门最吸引人的新兴学科,是当今生命科学和自然科学的核心领域和最具活力的前沿领域之一。生物信息学以现代分子生物学数据作为主要研究对象,发展理论模型和计算方法,揭示以基因组信息结构为主的生物复杂性,以及生长、发育、遗传、进化等生命现象的根本规律。

目录

生物信息学的定义

  • 广义:指生命科学与数学、计算机科学和信息科学等交汇融合所形成的一门交叉学科。它应用先进的数据管理技术、数学分析模型和计算软件对各种生物信息(特别是分子生物学信息)进行提取、储存、处理和分析,旨在掌握复杂生命现象的形成模式与演化规律。
  • 狭义:专指应用信息技术储存和分析分子生物学数据,尤其是基因组测序产生的分子序列及其相关数据,也被称为分子生物信息学。分子生物信息学以现代分子生物学数据作为主要研究对象,发展理论模型和计算方法,揭示以基因组信息结构为主的生物复杂性,以及生长、发育、遗传、进化等生命现象的根本规律。
  • 生物信息学利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。目前的生物信息学基本上只是分子生物学与信息技术(尤其是互联网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
  • 生物信息学可以定义为对分子生物学中两类信息流的研究(Altman,1998)。其中第一类信息流源于分子生物学的中心法则:DNA序列被转录为mRNA序列,后者被翻译为蛋白质序列。蛋白质序列继而折叠为具功能的三维(3D)结构。按照达尔文理论,这些功能被生物体的环境所选择,从而驱动群体中DNA序列的进化。因此,第一类的生物信息学应用关注于中心法则中任一阶段的信息传递,包括DNA序列中基因的组织与控制、确定DNA中的转录单位、从序列预测蛋白质结构以及分子功能分析。  第二类信息流是基于科学方法:提出关于生物学活动的假设,设计实验以验证这些假设,评估结果与假设的相容性,然后根据实验数据对原假设作扩展或修正。第二类的生物信息学应用关注于这一流程中的信息传递,包括产生假设、设计实验、通过数据库将实验结果组织起来、检验数据与模型的相容性以及修正假设的各个系统。
  • 某些人将计算生物学作为生物信息学的同义词处理;但是另外一些人认为计算生物学和生物信息学应当被当作不同的条目处理,因为生物信息学更侧重於生物学领域中计算方法的使用和发展,而计算生物学强调应用信息学技术对生物学领域中的假说进行检验,并尝试发展新的理论。

生物信息学的主要研究方向

生物学技术往往生成大量的嘈杂数据,与数据挖掘类似,生物信息学利用数学工具从大量数据中提取有用的生物学信息。生物信息学所要处理的典型问题包括:重新组装在霰弹枪定序法测序过程中被打散的DNA序列,从蛋白质的氨基酸序列预测蛋白质结构,利用mRNA微阵列或质谱仪的数据检验基因调控的假说。

  • 上游:1.数据库管理技术。 2.数据仓库、数据挖掘与数据库中的知识发现技术。 3.分布式计算(网格计算等)。 4.图像处理和可视化技术。
  • 中游:1.数据库的构建。 2.算法建立。 3.统计模型建立。 4.工具软件开发。
  • 下游:1.建立特定方向或自己的专用数据库。 2.数据库检索的技术。 3.数据分析:序列分析、进化分析等。

序列分析/基因组注释

  • 在1990 年正式启动人类基因组计划之后, DNA 测序工作由量变到质变, 出现了一系列革命性的发展. 当该计划于2003 年全面完成后, 生物学家并没有局限于人类的基因组计划, 而是利用人类基因组计划所解决的一些诸如物理图谱构建、高通量序列测定、序列拼接等关键技术, 运用于其他生物的基因组序列的研究计划.面对“海量”的基因组数据,基因组生物信息学所处理的对象十分复杂和庞大,不可避免地涉及大量的分析工作如分析DNA语义和识别基因等,要用到大量数学方法。1977年,噬菌体Φ-X174成为第一个被完整测定基因组序列的生物体。自此以后,越来越多生物体的DNA序列被人类测定。通过对这些序列的分析,人们希望获知其中对应蛋白质编码的基因和基因调控序列。不同物种间的基因比对既能够解释和预测他们蛋白质的功能的相似性,又能够揭示不同物种间的联系。由于数据量巨大,依靠人工分析DNA序列早已变得不切实际,这使得人们不得不采用计算机分析数千种生物体的数十亿个核苷酸组成的DNA序列。由于DNA序列中普遍存在变异现象,这些计算机程序需要识别大量相关但是不完全相同的序列。即便是在DNA测序的过程中,也存在着不确定的因素。在DNA测序的霰弹枪定序法(The Institute for Genomic Research依此技术测定了第一个细菌的基因组)中,完整的DNA链被打散为成千上万条长约600到800个核苷酸的DNA片段。这些DNA片段的两端相互重叠,只有依照正确的顺序组合,才能还原为完整的DNA序列。对于较大的基因组,霰弹枪定序法能够迅速的测定DNA片段的序列,但将它们组装起来的工作则相当复杂。在人类基因组计划中,该基因重组过程花费了几个月的CPU时间(on a circa-2000 vintage DEC Alpha computer)。由于现今几乎所有基因序列均由霰弹枪法测定,基因重组算法是信息生物学研究的重点课题。
  • 基因组中并不是所有的核苷酸都构成基因,所以序列分析的另一个研究课题是对基因组中的基因和基因调控序列进行自动识别。在较高等的生物体中,DNA序列的大部分并没有明显的作用。但是,这些所谓的“垃圾DNA”却可能具有未被识别的功能。

在基因组学中,对基因和其他生物特征的标注称为基因组注释。1995年,Owen White(在1995年完成的人类首次为独立的生物体——流感嗜血杆菌——测序的工作中,他是组员之一)设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征,并能够初步的分析它们的功能。大多数现今的注释系统的与之类似,但用以分析DNA序列的软件在不断进化之中。

  • 在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。
  • 显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比对(progressive alignment)的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要的,尤其是对保守的区域。
  • 计算机辅助基因识别:DNA 序列是遗传信息的源泉,他对蛋白质的编码是我们所感兴趣的重要内涵。在DNA 序列分析方面,识别编码区域或寻找基因是最关键的。由于存在大量的DNA 序列数据,发展识别编码区域和基因的算法是最大限度利用生物分子数据的重要环节。在过去10 年中,已发展了一些用于识别翻译和转录特征以及功能位点的算法,功能位点包括启动子、起始密码、剪切位点、内含子、外显子等。严格受约束的位点可以被准确定义,对这些位点的识别仅仅是字符串匹配的问题。否则,一般采用模式识别方法进行识别。一种定量的方法就是利用加权矩阵来表示在位点内每个位置核苷酸的出现频率,这可用于检测局部特征信号。
  • 非编码区分析和DNA 语言研究:在人类基因组中,编码部分进展总序列的3%~5%,其他通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA 序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA 上的编码蛋白质的区域(基因),这部分序列只占基因组的1%。99%非编码区蕴含的信息将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA 序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。

计算进化生物学

进化生物学研究物种的起源和演化。引入信息学到进化生物学中,使得研究者能够:

  • 通过度量DNA序列的改变研究众多生物体间的进化关系(超越了以前基于身体和生理特征观察的研究方法)
  • 通过整个基因组的比对,研究更为复杂的进化论课题,如基因复制基因横向迁移
  • 种群进化建立复杂的计算模型,以预测种群随时间的演化
  • 保存大量物种的遗传信息
  • 重建业已相当复杂的进化树

计算进化生物学常常与采用遗传算法的计算机科学相混淆。后者受到生物进化原理的启发,发展出一套软件用于改进配方、算法、集成电路设计等等。

比较基因组学

比较基因组学的核心课题是识别和建立不同生物体的基因或其他基因组特征的联系。这些跨基因组的联系使得我们能够跟踪基因组的进化过程。基因组进化由多个不同层次的事件完成。在最低的层次,单个核苷酸上发生了点变异。在较高的层次,大的染色体片段经历了复制、横向迁移、逆转、调换、删除和插入等过程。在最高的层次上,整个基因组会经历杂交、倍交内共生等变异,并迅速产生新的物种。

基因表达分析

多种生物学技术可以用于测量基因的表达,如DNA微阵列表达序列标签(expressed sequence tag),基因表达连续分析(serial analysis of gene expression),大规模平行信号测序(massively parallel signature sequencing),多元原位杂交法(multiplexed in-situ hybridization)等。上列所有方法均严重依赖于环境并會产生大量高雜訊的数据。生物信息学致力于发展一套统计学工具以从中提取有用的信息。

生物多样性的度量

对一个特定的生态系统,小到一层生物膜、一滴海水、一铲泥土,大到整个地球,其中全体物种的基因组成分可被定义为这个生态系统的生物多样性。搜集各物种的名称、描述、分布、遗传信息、地位、种群大小、栖息地,和各生物体间的相互作用等信息,可以建立一个数据库。有专门的软件用于搜寻、分析和可视化这些信息,更重要的是,它们还能够帮助人们相互交流这些信息。计算机能够模拟相应的模型,以计算种群动态演变,遗传健康状态等等。该领域的一个重要前景是为濒危物种建立基因银行,即将各物种的基因组信息保存下来。这样即便在将来这些物种灭绝了,人类也可能利用它们的基因组信息重新创造出它们。

蛋白质结构预测

蛋白质结构预测是生物信息学的重要应用。蛋白质氨基酸序列(也称为一级结构)可以容易的由它的基因编码序列获得。在绝大多数情况下,在蛋白质的原生环境中,其结构由它的氨基酸序列唯一的决定。蛋白质的结构对于理解蛋白质的功能十分重要。这些结构信息通常被称为二级、三级、四级结构。目前尚没有普遍可行方案实现这些结构的准确预测;大多数方案为启发式的。

  • 同源性是生物信息学中的一个重要概念。在基因组的研究中,同源性被用以分析基因的功能:若两基因同源,则它们的功能可能相近;在蛋白质结构的研究中,同源性被用于寻找在形成蛋白质结构和蛋白质反应中起关键作用的蛋白质片断。在一种被称为同源建模的技术中,这些信息可与已知结构的蛋白质相比较,从而预测未知结构的蛋白质。目前为止,这是唯一可靠的预测蛋白质结构的方法。人类血色素和豆类血色素间的相似性是以上方法的一个实例。两种血色素有相同的功能,均能够在各自的生物体内运输氧气。尽管它们的氨基酸序列大不相同,它们的蛋白质结构几乎一样。
  • 蛋白质结构预测:从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认(Threading) 方法属于这一范畴。虽然经过30 余年的努力,蛋白结构预测研究现状远远不能满足实际需要。

蛋白质表达分析

通过蛋白质微阵列技术或高通量质谱分析对生物标本进行测量所获得的数据中,包含有大量生物标本内蛋白质的信息。生物信息学被广泛的应用于这些数据的分析。对于前者,生物信息学所面临的问题与RNA微阵列数据分析中遇到的问题相似;对于后者,生物信息学将所获得的大量质谱数据与通过已知蛋白质数据库预测的数据进行比较,并使用复杂的统计学方法进一步分析。

调控分析

调控是指当细胞受到外信号刺激之后其内发生的一系列反应过程的总和。生物信息学技术被用于分析调控的各个步骤。例如,基因表达的数据可用于分析基因调控。对于一个单细胞生物体,我们可以用生物芯片技术观察受到不同外界刺激、处于细胞周期不同状态的细胞,并将采集到的数据利用聚类算法分析,以寻找表达相似的基因或样本。该结果可用于多种深入的分析。

生物系统模拟

系统生物学通过对细胞子系统的计算机模拟,分析这些细胞过程间的复杂联系,并将分析结果可视化。例如,人工生命就通过计算机模拟简单的生物形式,以帮助人类了解进化过程。

药物开发

  • 药物开发(主要经费来源)。生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得在不同组织在正常/疾病状态下基因表达的差异,通过搜索这些数据库,可以得到候选基因作为药物靶标,特异性地针对某一种疾病。另外,还可根据蛋白质功能区和三维结构的预测来对药物靶标进行鉴定,以便早期了解所研究蛋白的属性,预测它是否适用于药物作用。人类基因组计划的目的之一在于阐明人类蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。分子生物学、大分子晶体学和多维核磁技术的发展,对受体结构、功能关系和对受体(或受体-配体复合物) 结构解析的研究不断深入。在此前提下,利用分子力学、分子动力学、量子化学的计算方法,结合图形学显示系统,研究配体和受体之间本质的分子相互作用力模式,从而指导药物设计,已成为当今药物化学发展的前沿领域。由此产生了以受体结构为基础的药物分子设计方法(Structure- Based Drug Design,SBDD)。应用SBDD方法已产生了许多有希望的治疗药物,包括已用于临床治疗艾滋病、癌症及其他疾病的药物。另一方面,在受体结构还未被阐明的情况下,通过对系列化合物三维构效关系的研究提出药效团模型,以与生物活性密切相关的化学功能基团在三维构象空间中的特异性排布为限定条件进行小分子三级数据库搜索,以产生新型结构特征的先导化合物,构成计算机辅助药物分子设计的另一研究方向。

其它

  • 计算生物学(Computational biology),计算机在生物学中的应用的一个分支,侧重于发展理论模型和计算方法(包括信息处理中的模型和算法)。20世纪80年代计算机科学与技术发展,以及生物化学、分子生物学的系统论建立,1989年在美国召开了生物化学系统论与生物数学的国际会议,讨论了生物系统理论的计算机模型研究方法,开创了计算生物学的发展,属于早期计算系统生物学家的研讨会;因此,后来改为国际分子系统生物学会议(ICMSB,参见第10届会议),第11届国际分子系统生物学会议在中科院-德国马普上海计算生物学研究所成功举办。化学生物学、计算生物学与合成生物学,构成系统生物学与系统生物工程的实验数据、数学模型与工程设计的方法体系,即系统生物技术,带来了21世纪系统生物科学的全球迅速发展时期。当前,计算生物学和生物信息学在研究的方法和对象上已无显著区别,在基因与蛋白质的计算机辅助设计、比较基因组分析、生物系统模型、细胞信号传导与基因调控网络研究、专家数据库、生物软件包等领域发挥重要作用。其著名分支如:
    • 计算分子生物学(Computational molecular biology)
    • 计算神经生物学(Computational neurobiology)
  • 医学信息学(Medical binformatics),是医学和计算机科学的结合科学,是医学发展的必经阶段,是一门新兴交叉学科。医学信息学是信息技术学和各医疗卫生科学的交叉科学。医学信息学这一术语始于20世纪70年代后期。在此以前是用另一些术语表达的,如医学计算机科学,医学信息科学,计算机在医学中,卫生信息学,还有更为专一化的名词如护理信息学,牙科信息学等等。在信息学中,也许可以分出三个不同的研究层次:基础计算机科学、应用方法信息学以及应用信息学。医学信息系统的开发研究主要属于第三个层次。计算机科学研究所开发医学信息学的软件功能越强大越全面,医学信息学越能开展其应用方法的研究。当然在这种专业性很强的研究中,需要专业知识的参与。
  • 分子(DNA)计算(Molecular computing)———溶液中的计算,DNA作为信息存储载体,计算机技术在概念上的突破。分子计算计划就是尝试利用分子计算的能力进行信息的处理。分子计算机的运行靠的是分子晶体可以吸收以电荷形式存在的信息,并以更有效的方式进行组织排列。凭借着分子纳米级的尺寸,分子计算机的体积将剧减。此外,分子计算机耗电可大大减少并能更长期地存储大量数据。计算机由部件组成。分子计算中所使用的生物分子及生物分子片段、工具酶都是物质或由物质组成。继承计算机科学已有的概念并发展之, 我们把组成计算机的物质部分称为硬件;应用层与生物算法控制层中的程序和数据都是思维的逻辑表述, 它们指挥着硬件的操作, 我们称其为软件。在上层(部件) 的概念中, 硬件和软件是一组属于形式逻辑中反对对立的两个方面。根据中介数学系统对中介对象的描述, 我们把既包含硬件属性又包含软件属性的部件称为中介件。酶是物质, 但它能对DNA和RNA 进行控制(如连接、切割等等),所以它又具有软件的性质, 因此酶也属于中介件。
  • 寄生虫与流行病学(应用的范例)。
  • 神经科学(图像数据)。
  • 微阵列(基因功能分析的支撑技术)数据分析。
  • 等等……

生物信息学的网络资源

生物信息学在线词典


生物信息学的中文参考书

[Mayer2013] 〔奥〕迈尔(Mayer,B.), 组学数据生物信息学:研究方法与实验方案. 北京:科学出版社, 2013. ISBN 9787030359308 题目链接到Google学术搜索
[Robert2012] Robert F·Weaver 著,李亦学 等译, 理解生物信息学. 北京:科学出版社, 2012. ISBN 9787030328328 题目链接到Google学术搜索
[李军2008] 李军,张莉娜,温珍昌, 生物软件选择与使用指南. 北京:化学工业出版社, 2008. ISBN 9787122023179 题目链接到Google学术搜索
[梁艳春2011] 梁艳春 等著, 生物信息学中的数据挖掘方法及应用. 北京:科学出版社, 2011. ISBN 9787030326584 题目链接到Google学术搜索
[波恩2012] [美]波恩,[美]魏西希 编,刘振明 等译, 结构生物信息学. 北京:化学工业出版社, 2009. ISBN 9787122031808 题目链接到Google学术搜索
[王俊2008] 王俊,丛丽娟,郑洪坤 , 常用生物数据分析软件. 北京:科学出版社, 2008. ISBN 9787030206220 题目链接到Google学术搜索
[薛庆中2012] 薛庆中, DNA和蛋白质序列数据分析工具. 北京:科学出版社, 2012. ISBN 9787030345097 题目链接到Google学术搜索
[陈铭2012] 陈铭,何华勤,徐程等著, 生物信息学. 北京:科学出版社, 2012. ISBN 9787030332059 题目链接到Google学术搜索
  • 乔纳森•佩夫斯纳著,孙之荣译,生物信息学与功能基因组学,化学工业出版社,2006
  • 孙啸,生物信息学基础,清华大学出版社,2005
  • T K Attwood, D J Parry-Smith著,罗静初等译。生物信息学概论。北京:北京大学出版社,2002
  • 张成岗,贺福初,生物信息学方法与实践。北京:科学出版社,2002
  • 李衍达,孙之荣等译,生物信息学:基因和蛋白质分析的实用指南。北京:清华大学出版社,2000
  • 《新药药物靶标开发技术》2006年版,高等教育出版社,ISBN 7-04-018953-4
  • 张东晖等译。生物信息学——机器学习方法。北京:中信出版社,2003
  • 蒋彦,基础生物信息学及应用,北京:清华大学出版社,2003
  • 钟扬,赵亮,赵琼,简明生物信息学,高等教育出版社,2001
  • 赵国屏,生物信息学,科学出版社,2002
  • 钟扬,王莉,张亮主译,生物信息学,高等教育出版社,2003
  • 郝柏林,张淑誉,生物信息学手册,上海科学技术出版社,2002
  • 邹凌云,生物信息学高性能计算系统使用介绍,第三军医大学生物信息学中心,2003