生物统计学

2019-06-11 10:35

第一章

科学研究是人类认识自然、改造自然、服务社会的原动力。自然科学：

1理论科学：主要用推理的方法（演绎、归纳）进行研究 2实验科学：主要通过周密设计的试验进行探索生物学领域中所涉及的学科大多属于实验科学。常用的研究方法：1科学试验 2抽样调查一、科学研究的基本过程

1.对研究的命题形成一种认识或假说

2.根据假说涉及的内容安排相斥的试验或抽样调查

3.根据试验或调查资料进行推理，肯定或否定或修改假说，从而形成结论。二、科学研究的基本方法 1、选题

课题的选择决定了研究创新的潜在可能性。选题时必须明确其意义与重要性。

理论性研究注重在未来学科发展上的重要性。应用性研究注重对未来生产发展的作用和潜力。 2、文献

科学的发展是累积性的，通过对文献的了解可以把研究者推到研究的顶层，避免少走弯路。选题要有文献的依据，设计研究内容和方法更需文献的启示。 3、假说

假说的概念：假说是根据已知的科学事实和科学原理，对所研究的问题及其规律性提出的一种假定性的推测和说明。

构成假说的基本要素：事实基础，背景理论对现象、规律的猜测，推导出的预言和预见。例如大陆飘移，是一个著名的假说。人们发现，非洲西部的海岸线和南美东部的海岸线彼此形状相吻合。1910年，德国地球物理学家魏根纳依据已知的力学原理、海岸形状、地质和古气候方面的有限数量的科学材料，提出了大陆不是固定的，而是可以飘移的假定。 4、假说的检验

假说的检验方法：逻辑分析和实践检验两个步骤。逻辑分析：判断假说的可检验性。实践检验：分为直接检验和间接检验。

直接检验:即用观察和实验直接观测科学假说的实质内容，以证实或否证科学假说。间接检验：即用观察和实验观测来检验假说基本命题所推演出来的结论或预言。通常用逻辑推演与实践证明相结合的方式。 5、试验的规划与设计

围绕检验假说而开展的试验，需要全面、仔细地规划与设计。试验所涉及的范围要覆盖假说涉及的各个方面，以便对待检验的假说作出无遗漏的判断。

注意：生物学试验中结果的“1重演性”及比较试验中的“2唯一差异性原则”。 1在试验条件相当的情况下，重复试验应得到相同的试验结果。 2除需要比较的因素以外，其余的因素必须保持在同一水平。

观察值(observation):将每次所取样品测定的结果称为一个观察值，记为yi。例如：测定绵农4号小麦品种的株高，得到以下数值(单位：cm)： 90、91.5、93、89、90.8 其中的每一个数值就是一个观察值。

如果没有误差，上述观察值就不会出现差异，并始终保持一个恒定的值，这个值称为理论值或真值，以μ表示。

由于误差是客观存在的，所以：观察值＝真值＋误差用代数式表示为： yi＝ μ＋εi

式中εi代表误差，故：εi＝ yi－ μ 误差(error):观察值与真值之间的差异。误差的分类：

随机误差：完全是偶然的，找不出确切原因引起的误差，也称偶然性误差。系统误差：有一定原因引起的误差，也称偏差。

准确性：观察值与理论值之间的符合程度。精确性：指观察值之间的符合程度。下面用例子说明误差与准确性和精确性之间的关系。系统误差使数据偏离了其理论值，影响数据的准确性。随机误差使数据相互分散，影响了数据的精确性。

系统误差来源于各种研究领域中，可能产生的、有一定原因的系统偏差。

随机误差来源于试验过程中各种偶然因素的影响，试验的环节愈多，时间愈长，随机误差发生的可能性及波动性便愈大。

系统误差源自某种系统性原因，它的规律性比较明显。

随机误差就个体而言，很难寻找它的规律性；但对一个比较大的群体，也有规律可循。如数量性状的随机误差在理论上服从正态分布。 1.2.4 试验误差的层次性

这里用一个例子说明误差的层次性问题：

取100个30g大豆种子的样品测定蛋白质含量。第一层次的误差：来源于抽样引起的误差。

第二层次的误差：从30g种子中取2g进行分析，要求测定两次，两次测定结果若相差太大还需进行第三次测定。可见第二层次的误差来源于测定过程的误差。 1.3 生物统计学的概念

定义：生物统计学是以概率理论为基础，研究生命科学中随机现象规律性的方法论科学。生物学是一门实验科学。不管你从事的是生物学的哪一个分枝，都不可能完全脱离实验，只进行逻辑推理。而实验所得到的结果几乎无例外地都带有或多或少的不确定性，即实验误差。在这种情况下不用统计学要想得到正确的结论是不可能的。可以毫不夸张地说，作为一个实验科学工作者，离开了统计学就寸步难行。希望大家通过这门课程的学习，能够掌握常用的统计方法，尤其是它们的条件，适用范围、优缺点等，从而能够应用它们去解决实践中遇到的问题。

1.4 生物统计学的主要内容

1、提供整理和描述数据的科学方法

我们用教材P20的例子来说明这个问题。 2、提供由样本推论总体的科学方法

所谓总体（Population)就是由性质相同的个体所组成的集团。统计学上所涉及的总体，其中的个体数（总体容量）N一般情况下趋于无穷大。因此无法对总体进行研究。

N例如：计算总体平均数

??1 N这个公式十分简单，把总体中所有观察值相加，再除以观察值个数就行了，但由于N→∞，我们无法完成计算。

样本（Sample):是总体的一部分。其容量用n表示，样本容量n一般都不是很大，因而，可

n以计算出样本的平均数：

y?1 n因此统计学的重要任务之一，就是用样本的结果去推断总体的结果。 3、提供通过误差分析以鉴定处理效应的科学方法

例如有两个小麦品种A和B，A品种每公顷产量为5000kg，B品种每公顷产量为4500kg，两个品种之间相差500kg。

是否可以下结论说：A品种比B品种产量高？答案是：否！

因为： yA＝ μA＋εi yB＝ μB＋εi yA与yB之间的差异有两种可能：

其一： μA与μB之间存在差异（但我们无法计算）其二：误差的影响。

4、提供探索事物间互相联系的科学方法。

5、提供进行科学试验设计的一般方法和重要原则。 1.5.1 生物统计学的发展

17世纪Pascal和Fermat的概率论

18世纪De Moiver、Laplace和Gauss的正态分布理论

19世纪达尔文研究生物界的连续变异；孟德尔发现性状分离、独立分配遗传规律；Karl Pearson研究进化问题，创建了Biometrika杂志；Glaton研究了亲子身高的回归问题。 20世纪以来， Gosset发现了t分布

Fisher提出了方差分析、建立了试验设计的三大原理、并提出了随机区组、拉丁方等试验设计，尤其是1925年出版的“Statistical Methods for Reasarch Workers”形成了试验统计学较为完整的体系。

Yates、Yule等发展了一系列的试验设计。

Neyman和E.S.Pearson建立了统计推断的理论。 Snedecor建立了统计试验室并出版了“Statistical Methods Applied to Experiment in Agriculture and Biology”。

Wald建立了序贯分析和统计决策函数的理论。

Cochran和Cox系统地归纳了试验设计和抽样方法研究的进展，出版了“Experimental Design”和“Sampling Technique”。

第二章

次数分布和平均数、变异数 2.1 总体及其样本

总体(population):具有相同性质的个体组成的集团。

无限总体(infinite population)：总体中包含的个体数目有无穷多个，这种总体称为无限总体。有限总体(finite population)：总体中包含的个体数目有限，这种总体称为有限总体。观察值(observation)：每一个体的某一个性状、特性的测定数值叫做观察值。变数(variable)：观察值集合起来，称为变数。例如：测定8个人的身高，得到以下数据： 160、167、175、180、158、169、173、170、

参数(parameter)：由总体的全部观察值而算得的总体特征数，如总体平均数，称为参数。样本(sample)：从总体中抽出的一部分个体的集合。

统计数(statistic)：测定样本中的各个体而得到的样本特征数，如平均数。估计值(estimate)：统计数是总体相应参数的估计值。随机样本(random sample)：从总体中随机抽取的样本。样本容量(sample size)：样本中包含的个体数，用n表示。一、数量性状资料

数量性状(quantitative trait)：的度量有计数与量测两种方式。

1、不连续或间断性变数(discontinuous or discrete variable)：指用计数方法获得的数据。 2、连续性变数(continuous variable)：指称量、度量或测量方法得到的数据。二、质量性状资料

质量性状(qualitative trait)：指能观察而不能量测的性状。 1、统计次数法

2、给予每类性状以相对数量的方法。一、间断性变数资料的整理二、连续性变数资料的整理以140行水稻试验的产量为例 1、数据排序(sort)

2、求极差(range) R=Max(1?n)－Min (1?n) 本例中：R＝254－75＝179g

3、确定组数和组距(class interval) 组距＝R/组数

因而必须先确定组数。组数的确定，可参照以下的因素：（1）观察值个数的多少；（2）极差的大小；（3）便于计算；（4）能反应出资料的真实面貌。样本大小与组数多少的关系可参照教材表3.5(P38)

本例，观察值的个数为140，可分8－16组，假定分为12组，则组距＝179/12＝14.9，为方便起见，组距定为15g。

4、选定组限(class limit)和组中点值(组值,class value)

首先选定第一组的中点值，这一点选定后，则该组组限确定，其余各组的中点值和组限也随之确定。第一组的中点值以最接近最小观察值为好，这样可以避免第一组内次数过多，能正确地反映资料的规律性。

例中，选定第一组的中点值为75g，则第二点的中点值为75＋15＝90g，余类推。每组有两个组限，数值小的为下限(lower limit)，数值大的为上限(upper limit)。

第一组的下限为该组中点值减1/2组距，即75－（15/2)=67.5g，上限为中点值加1/2组距，即75＋（15/2)=82.5g。故第一组的组限为76.5－82.5。按照此法计算出其余各组的组限，就可写出分组数列。

5、观察值按分组数列的各组组限归组。 140行水稻产量的次数分布

三、属性变数（质量性状）资料的整理把资料按各种质量性状进行分类，分类数等于组数，然后根据各个体在质量属性上的具体表现，分别归入相应的组中，即可得到属性分布的规律性认识。下表是某水稻杂种二代植株米粒的分离情况：

2.2.3 次数分布图一、方柱形图

方柱形图(histogram)适用于表示连续性变数的次数分布。

横轴为分组数列，纵轴为分布次数。横坐标与纵坐标的长度要有合适的比例(一般为5：4或6：5为好)，绘成的图形才能明显表明次数分布情况。 140行水稻产量次数分布方柱形图二、多边形图

多边形图(polygon),以每组中点值为横坐标，以次数为纵坐标。三、条形图

条形图(bar diagram)适用于间断性变数和属性变数资料。一般横坐标表示间断的中点值或分类性状，纵坐标表示次数。四、饼图

饼图(pie diagram)适用于间断性和属性资料，用以表示这些变数中各种属性或各种间断性数据观察值在总观察值个数中的百分比。一、平均数的意义

平均数(average)是数据的代表性，表示资料中观察值的中心位置，并且可以资料的代表而于另一组资料相比较，借以明确两者之间相差的情况。二、平均数的种类

1、算术平均数(arithmetic mean)：一个数量资料中各个观察值的总和除以观察值的个数所得的商，记作

2、中数(median)：将资料内所有观察值从大到小排列，居中间位置的观察值称为中数，记作Md

例如： 1、2、3、4、5 中数是3

1、2、3、4、5、6 中数是： (3+4)/2=3.5

3、众数(mode)：资料中最常见的一数，或次数最多一组的中点值，称为众数，记为Mo。例如：在资料23、24、23、22、23、25、20、23、中 Mo＝23

4、几何平均数(geometric mean)：n个观察值，其乘积开n次方，即为几何平均数，用G代

n表。 G?nyyy...y??yyy...y?1/n123123nnyi2.3.2 算术平均数的计算方法 _y?y2?y3?...yni?1y?1?1、直接以观察值进行计算 nn2、若样本较大，且已分组，可采用加权法计算算术平均数，即以组中值代表该组出现的观察值以计算平均数。 _?fiyi??fyy?n ?fi利用140行水稻产量资料计算每行平均产量 _fy2?75?7?90?...?1?25522110 y????157.93(g)n140140

若采用直接法进行计算，平均数等于157.47。因此，两者的结果十分接近。 2.3.3 算术平均数的重要特性

1、样本各观察值与其平均数的差数（简称离均差，deviation from mean)的总和为0。即：

n__

???(y?y)??(y?y)?0iii?1

共7页:

生物统计学.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档