生物统计学

来自生物云教育
跳转至: 导航搜索


学科体系
海洋生物学
理论生物学
生物信息学
生物力学
生物数学
神经信息学
结构基因组学
结构生物学
计算生物学
计算神经科学
量子生物学

生物统计学(有时也称生物计量学)是统计学的原理和方法在生物学研究中的应用,是一门应用数学,即用数理统计的原理和方法,分析和解释生物界的种种现象和数据资料,以求把握其本质和规律性。随着科学技术的发展与生物学研究的深入,所研究问题与所获数据的复杂程度都在不断增加,从而促进与刺激了计算机软件技术和现代应用生物统计方法的飞速发展。

目录

生物统计学的定义

生物统计学(Biostatistics)或生物计量学(Biometrics)是统计学在生命科学中的应用,包括科学研究设计、资料的搜集、整理、综合归纳、表达及分析等方面的内容。进行任何科学研究都离不开调查或试验,进行调查或试验首先必须解决的问题是:如何合理地进行调查或试验设计。 生物统计学是应用数理统计的原理和方法处理生物学中的各种数量资料,从而透过现象揭示生物学本质的一门科学,是科学研究与实践应用的基础工具。

 生物统计生物计量似乎可以通用,但是生物计量趋向于指生物学(或主要是农学)方面的应用,而非医学方面的。现在的趋势是把生物计量用于指代一门完全不同的学科。

生物统计的根本任务

在实际研究工作中常常碰见这样的情况:由于调查或试验设计不合理,以至于无法从所获得的数据提取有用的信息,造成人力、物力和时间的浪费。若调查或试验设计方法好,用较少的人力、物力和时间即可收集到必要而有代表性的资料,从中获得可靠的结论,达到调查或试验的预期目的,收到事半功倍之效。通过调查或试验能获得一定数量的数据,这些数据常常表现出程度不同的变异。例如测量100头猪的日增重所获得的100个数据,彼此不完全相同,表现出一定程度的变异。产生这种变异的原因,有的己被人们所了解。例如品种、性别、年龄、初始重、健康状况、饲养条件等不同,使得所测的猪的日增重表现出差异。另外还有许多内在和外在的因素还未被人们所认识。由于这些人们已了解的因素和人们尚未认识因而无法控制的因素的作用,使得通过调查或试验得来的数据普遍具有变异性。所以进行调查或试验还必须解决的第二个问题是:如何科学地整理、分析所收集得来的具有变异的资料,揭示出隐藏在其内部的规律性。因此在生物学、医学、农学等研究中,合理地进行调查或试验设计、科学地整理、分析所收集得来的资料是生物统计的根本任务。

主要的统计方法

生物统计通过研究样本来了解总体,用样本的统计量来估计总体的参数。生物统计从统计学、运筹学、经济学,以及更一般的数学等领域获得定量方法。统计方法是指用以收集数据、分析数据和由数据得出结论的一系列方法。统计方法通常可分为两类:描述统计方法和推断统计方法。

描述统计方法

  描述统计方法是指通过图表的方式对数据进行处理显示,进而对数据进行定量的综合概括的统计方法。

推断统计方法

  推断统计方法是指根据样本数据去推断总体数量测度的方法。

基本概念与常用术语

生物统计学的发展简史

  • 最初卓有成效地把古典概率论引进统计学的是法国天文学家、数学家、统计学家拉普拉斯(P.S. Laplace,1749~1827)。

在理论上,1781年拉普拉斯在“论概率”一文中,建立了概率积分,为计算区间误差提供了有力手段。1781~1786年提出“拉普拉斯定理”(中心极限定理的一部分),初步建立了大样本推断的理论基础。在实践上,拉普拉斯于1786年写了一篇关于巴黎人口的出生、婚姻、死亡的文章,文中提出根据法国特定地方的出生率来推算全国人口的问题。他抽选了30个市县,进行深入调查,推算出全国总人口数。尽管其方法和结果还相当粗糙,但在统计发展史上,他利用样本来推断总体的思想方法,为后人开创了一条抽样调查的新路子。

  • 德国大数学家高斯(C.F.Gauss,1777~1855)

在学生时代,高斯就开始了最小二乘法的研究。1798年完成最小二乘法的整个思考结构,正式发表于1809年。 调查、观察或测量中的误差,不仅是不可避免的,而且一般是无法把握的。高斯以他丰富的天文观察和在1821~1825年间土地测量的经验,发现观察值x与真正值μ的误差变异,大量服从现代人们最熟悉的正态分布。他运用极大似然法及其他数学知识,推导出测量误差的概率分布公式。“误差分布曲线”这个术语就是高斯提出来的,后人为了纪念他,称这分布曲线为高斯分布曲线,也就是今天的正态分布曲线。高斯所发现的一般误差概率分布曲线以及据此来测定天文观察误差的方法,不仅在理论上,而且在应用上都有极重要的意义。

  • 最早提出生物统计思想的是比利时数学家Qutelet L.A.J.凯特莱,他试图把统计学的理论应用于解决生物学、医学和社会学中的问题。
  • 1866年,G.J.孟德尔揭示了遗传的基本规律,这是最早运用数理统计于生物实验的一个成功的范例(见孟德尔定律)。
  • 1889年,F.高尔顿在《自然的遗传》一 书中,通过对人体身高的研究指出,子代的身高不仅与亲代的身高相关,而且有向平均值“回归”的趋势,由此提出了“回归”和“相关”的概念和算法,从而奠定了生物统计的基础。
  • 高尔顿的学生K.皮尔逊进一步把统计学应用于生物研究,提出了实际测定数与理论预期数之间的偏离度指数即卡方差(x2)的概念和算法,这在属性的统计分析上起了重要作用。1899年,他创办了《生物统计》杂志,还建立了一所数理统计学校。
  • 皮尔逊的学生W.S.戈塞特对样本标准差作了许多研究,并于1908年以“Student”的笔名将t-检验法发表于《生物统计》杂志上。此后,t-检验法就成了生物统计学中的基本工具之一。
  • 英国数学家R.A.费希尔指出,只注意事后的数据分析是不够的,事先必须作好实验设计。他使实验设计成了生物统计的一个分支。
  • 费希尔的学生G.W.斯奈迪格把变异来源不同的均方比值称为F值,并指出当F值大于理论上 5%概率水准的F值时,该项变异来源的必然性效应就从偶然性变量中分析出来了,这就是“方差分析法”。
  • G.W. Snedecor斯奈迪格提出方差分析法。
  • Yates、Yule等发展了一系列的试验设计
  • Newman和S.Pearson建立了统计推断的理论。
  • G.W.Snedecor建立了统计试验室并出版了“Statistical Methods Applied to Experiment in Agriculture and Biology”。²Waecl建立了序贯分析和统计决策函数的理论。
  • Cochran和Cox系统归纳了试验设计和抽样方法研究的进展,出版“Experimental Design”和“Sampling Technique”。

上述这些方法对于农业科学、生物学特别是遗传学的研究,起了重大的推动作用,20世纪20年代以来,各种数理统计方法陆续创立,它们在实验室、田间、饲养和临床实验中得到广泛应用并日益扩大到整个工业界。70年代,随着计算机的普及,使本来由于计算量过大而不得不放弃的统计方法又获得了新的生命力,应用更为广泛,并在现代科技中占有十分重要的地位。

应用现状和未来需求

生物学是一门实验科学。不管你从事的是生物学的哪一个分枝,都不可能完全脱离实验,只进行逻辑推理。而实验所得到的结果几乎无例外地都带有或多或少的不确定性,即实验误差。在这种情况下不用统计学要想得到正确的结论是不可能的。可以毫不夸张地说,作为一个实验科学工作者,离开了统计学就寸步难行。

应用现状

生物统计被应用到下面这些领域的研究问题中:

  • 公共卫生,包括流行病学、 营养学和环境卫生学
  • 基因组学和族群遗传学
  • 医学
  • 生态学
  • 生物检定法
  • 农学

因为生物学和医学研究的问题很多,生物统计学把它的领域范围扩大到包括所有用于回答这些问题的定量的而不只是统计的模型。临床试验的设计和分析是统计在医学上最被公众所知的应用。统计学方法也开始综合到生物信息学和医疗信息学中。

未来需求

  • 传统方法的改进
    • 多重比较 (微阵列)
    • 主成分 (主成分曲线)
    • 似然分析 (随机过程的似然分析)
  • 新方法
    • machine learning
    • neural network
    • 随机过程:有限 Markov 链、点过程,Gaussian 随机场
    • 隐 Markov 模型和Monte Carlo 算法
  • 高通量和高复杂性的数据收集
    • 高速计算机和传感器以及某些实验科学可产生海量数据(例如人类基因组)
    • 需要新工具来组织和提取重要信息。
    • 对于具有大量变量的巨型数据,需要更广泛的有偏估计理论。

生物统计专业

生物统计专业几乎都是研究生院的。通常设在公共卫生学院并和医学院、林学院、农学院联合,或者是统计系的一个应用方向。 在美国和中国,都有一些大学有专门的生物统计系,很多其他一流大学把生物统计的教授合并到统计(或其他)系。若干生物统计系已经改名为Biostatistics and Bioinformatics. 很多有生态研究学科的大学设有一门生物统计课,用于通过一些例子介绍象单变量或多变量数据集的假设检验这样的概念,通常还包括或者另设后续的试验设计课。

参考资料

  • 李春喜主编,生物统计学,科学出版社,2008年第四版, ISBN 978-7-03-021573-4
  • 生物统计学,杜荣骞编. 北京:高等教育出版社,1999.
  • 生物统计学,陆建身,赖麟主编. 北京:高等教育出版社,2003.
  • 生物统计学(面向21世纪课程教材),张勤,张启能主编. 中国农业大学出版社,2002年.
  • 生物统计学,董时富主编. 北京:科学出版社,2002.
  • 现代应用生物统计方法:S-Plus的使用/Steve Selvin著;吕旌乔译=Modern applied biostatistical methods:using S-Plus.—北京:北京大学医学出版社,2008, ISBN 9787810719926.
  • 生物统计学导论(国外大学生物学优秀教材影印版), Thomas Glover & Kevin Mitchell. 北京,清华大学出版社,2001.
  • 生物统计学,谢邦昌等主编. 中国统计出版社,2003.
  • 明道绪, 生物统计附试验设计, 2002年, 北京, 中国农业出版社, ISBN 978-7-109-07551-1
  • 田间试验和统计方法(农学专业用),南京农业大学主编,农业出版社,1991年第二版.
  • R语言及Bioconductor在基因组分析中的应用, 孙啸,谢建明,周庆 等著, 北京:科学出版社,2007. ISBN 9787030166654.
  • R语言实战,[美]Robert I. Kabacoff 著,高涛 等译, 北京:人民邮电出版社,2013. ISBN 9787115299901.

外部链接