究疾病发生的因果关系和评价预防措施的效果。 请比较发病率和患病率的不同。
答:发病率表示一定时期内,在可能发生某病的一定人群活过的总人年中,新发生的某病病历数,其分子是新病历数,分母是总人年数;患病率,又称现患率,指某时点上受检人数中先患某种病的人数,通常用于描述病程较长或发病时间不易明确的疾病的患病情况,其分子包括新旧病例数,分母是受检总人数。在一定的人群和时间内,发病率和患病率有密切关系,两者与病程(D)的关系是:PR=IR×D。
请比较死亡率与病死率的不同。
答:死亡率与病死率的分子是一样的,均表示因某病死亡的人数,但死亡率的分母是总人年数,侧重反映发生的强度,或单位时间内死亡的概率;病死率的分母是患某病的人数,反映疾病死亡的概率。 相对数的动态指标有哪几种?各有何用处?
答:相对数的动态指标即其动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。
绝对增长量是说明某相对数在一定时期增长的绝对值;发展速度与增长速度均为相对比,说明某相对数在一定时期的速度变化;平均发展速度是各环比发展速度的几何均数,说明其相对数在一个较长时期中逐期(如逐年)平均发展变化的程度。
动态数列的两个要素:时点或时期、统计指标 可以进行预测的统计指标有哪些?
相对比、动态数列(根据平均发展速度公式计算几年后达到的指标)、线性回归(利用回归方程进行统计预测,预测就是将预报因子(自变量X)代入回归方程对预报量进行估计)
第四章 统计表与统计图
统计表的结构
1、标题2、标目3、线条4、数字5、备注 编制统计表应注意的事项 1、简明扼要,重点突出。 2、合理安排主语和谓语的位置。 3、表内数据要认真核对、准确可靠。 依次写出箱式图中涉及到的各个取值。
答:由大到小的次序为:极大值、P75、中位数、P25和极小值。 直方图中各矩形的高度等于频数(或频数),对吗?
答:对于各组距相等的情形,该说发是对的。若某些组段的组距与多数阻段所取组距不同时,例如前者是后者的k倍,则该不等距组段的高度为频数(频率)除以k。确切地说,组段对应的面积等于频数(频率)。 统计表的列表原则是什么?
答:一是重点突出,简单明了;二是主谓分明,层次清楚,符合逻辑。 线图和半对数线图的主要区别是什么?
答:线图的纵轴尺度为算术尺度,用以表示某指标随时间的变化趋势;半对数线图的纵轴尺度为对数尺度,用以表示某指标随时间的增长或减少速度。 绘制统计表、统计图的原则和基本要点是什么?
答:编制统计表的原则:①重点突出,一张表只表达一个中心内容。不要把过多的内容放在一个庞杂的大表里,宁愿用多个表格表达不同指标和内容。②统计表就如完整的一句话,有其描述的对象(主语)和内容(宾语)。通常主语放在表达左边,作为横标目;宾语放在右边,作为纵标目。由左向右读,构成完整的一句话。③简单明了,文字、数字与线条尽量简洁。
编制统计表的要求:①标题:概括说明表的内容,必要时注明时间和地点,字数一般不超过20个。常见缺点:过于简单;过于繁琐;题意不确切、具体。②
标目:简明确切,有单位的要注明单位。常见缺点:标目层次过多;含意不确切;有单位的标目没有注明单位。③线条:④数字:一律用阿拉伯字表示;准确;整齐:同一指标的小数位数应一致;位次对齐。表内不留空格:暂缺或未记录,用?表示;不应出现数字,用 “—”表示;数字为零,用“0”表示。⑤备注:非表中必要的元素,一般不列入表内,必要时可用“*”标出,写在表的下面。
绘制统计图的原则:①标题:放在图的下方。②标目:横标目—说明横轴的内容,通常为分组因素;纵标目—说明纵轴的指标和单位,通常为被描述事物的指标。③刻度:坐标轴的刻度单位。④图例:对统计图中的线条、颜色进行说明,位于右上角或下方中间位置。
绘制统计图的要求:①按资料的性质和分析目的选用适合的图形:间断性资料 — 条图、圆图、百分条图;连续性资料 — 线图、直方图。②每一张统计图都要有标题,简明扼要地说明图形要表达的主要内容,必要时应注明资料收集的时间和地点。标题一般位于图的下方。③条图、散点图、线图和直方图都有纵、横坐标轴,要标明尺度,纵轴尺度自下而上,横轴尺度自左而右,数量一律由小到大,并等距标明。条图与直方图纵坐标从0开始,要标明0点位置。纵横坐标长度的比例一般为5?7。④比较不同事物时,宜选用不同的线条或颜色表示,并附图例加以说明。图例一般放在图的右上角的空隙处,也可放在图下方的适当位置。
在统计描述中,统计表和统计图分别起着什么作用?
答:在统计描述过程中,统计表展示统计数据的结构、分布和主要特征,便于在进一步分析中选择和计算统计量。在学术报告和论文中常用统计表代替冗长的文字叙述,表达主要的研究结果、数据、指标和统计量,方便读者作比较和掌握主要研究结果。统计图将统计数据形象化,让读者更易于领会统计资料的核心内容,易于做分析比较,并且可以给读者留下深刻的印象。 常用的统计图有哪几种,各适用于什么类型资料?
答:常用的统计图有直条图、直方图、圆图或构成比直条图、线图和统计地图。直条图适用于比较独立分类组的统计指标,直方图适用于描述频数分布,圆图和构成比直条图适用于描述构成比,线图适用于描述某统计量随时间或另一统计量变化而变化的趋势,统计地图适用于描述统计指标的地理分布。 条图:用等宽直条的长短表示相互独立的各项指标数量的大小。 百分条图:用于表示事物内部各部分的比重或所占比例
圆图:用途与百分条图相同,它用圆的面积表示事物的全部,用各扇形的面积表示各个组成部分所占比例
线图:是用线段的升降表示统计指标的变化趋势,或某现象随另一现象的变迁情况,适用于连续型变量
半对数线图:用于表示事物的发展速度(相对比)。其横轴为算术尺度,使线图上的数量关系变为对数关系。
散点图:用点的密集程度、趋势表示两变量间的相关关系。 直方图:常用于表示连续型变量的频数或频率分布。 统计地图:主要用于表示某种现象在地域空间上的分布 箱式图:用于描述连续变量的分布特征。 统计表与统计图有何联系和区别?
答:统计表和统计图都是清晰地、有条理地展示数据,让读者易于领会统计资料的核心内容,易于做比较分析。统计图将统计数据形象化,可以给读者留下深刻的印象。但统计图只能提供概略的情况,而不能获得确切数值,因此不能完全代替统计表,常需要同时列出统计表作为统计图的数值依据。 统计表和统计图的用途是什么?
统计工作中,用统计表和统计图的形式说明资料在数量方面的大小,变动趋势,分布情况以及相互关系,以代替冗长的文字叙述,使结果一目了然,便于阅读,
便于分析和比较。
第五章 常用概率分布
医学参考值范围确定的方法是什么? 答:百分位数法和正态分布法。 正态分布曲线的位置与形状的特点?
答:(1)关于χ=μ对称。(2)在χ=μ处取得该概率密度函数最大值,在χ=μ±σ处有拐点。(3)曲线下面积为1。(4)μ决定曲线在横轴上的位置,μ增大,曲线沿横轴向右移;反之,μ减小,曲线沿横轴向左移。(5)σ决定曲线的形状,当μ恒定时,σ越大,数据越分散,曲线越“矮胖”; σ越小,数据越集中,曲线越“瘦高” 控制图的基本原理。
答:如果某一波动仅仅由个体差异或随机测量误差所致,那么观察结果服从正态分布;依据标准正态分布曲线下面积的分布规律性,确定出现概率非常小的若干情况作为异常标准吗如果出现相应结果则判为异常。 正态分布的特征
1、正态曲线在横轴上方,均数处最高。2、正态分布以均数为中心,左右对称。 3、正态分布有两个参数:均数μ是位置参数、标准差σ是变异度参数。 4、正态曲线下面积有一定的分布规律。5、有些指标不服从正态分布,但通过适当的变换(transformation)后服从正态分布 标准正态分布(u分布)与t分布有何异同?
相同点:集中位置都为0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(自由度是无限大时)
不同点:t分布是一簇分布曲线,t 分布的曲线的形状是随自由度的变化而变化,标准正态分布的曲线的形状不变,是固定不变的,因为它的形状参数为1。 t分布为抽样分布,标准正态分布(u分布)为理论分布。t分布比标准正态分布的峰值低,且尾部翘得要高。随着自由度的增大,t分布逐渐趋近于标准正态分布。即当自由度v→∞时,t分布→标准正态分布。
动范围。习惯上是确定包括95%的人的界值。 95%双侧医学参考值范围的两种计算方法及公式
(1)正态分布法:1-α参考值范围公式,双侧: ;单侧:X> 或。 S?<1.96(2)百分位数法:1-α参考值范围公式,双侧:(P2.5, P97.5) ;单侧:> P5或< P95。
试述正态分布的面积分布规律。
答:正态分布的面积分布规律是:(1)X轴与正态曲线所夹面积等于1或100%;(2)区间 的面积为68.27%,区间 的面积为95.00%,区间 的面积为99.00%。
第六章 参数估计基础
标准差与标准误有何区别和联系?
区别:(1)含义不同: ①s描述个体变量值(x)之间的变异度大小,s越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。②标准误是描述样本均数之间的变异度大小,标准误 越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。
(2)与n的关系不同: n增大时,①s→σ(恒定)。②标准误减少并趋于0(不存在抽样误差)。
(3)用途不同: ①s:表示x的变异度大小,计算cv,估计正常值范围,计算标准误等②:参数估计和假设检验。
联系: 二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。
试比较标准差和标准误的关系与意义。
答:标准差是描述个体值变异程度的指标,为方差的算术平方根,该变异不能通过统计方法来控制。而标准误则是指样本统计量的标准差,均数的标准误实质是样本均数的标准差,它反映了样本均数的离散程度,也反映了样本均数与总体均数的差异,说明了均数的抽样误差。 试举例说明均数的标准差与标准误的区别与联系。
答:例如某医生从某地2000年的正常成年男性中,随机抽取25人,算得其血红蛋白的均数 为138.5g/L,标准差S为5.20g/L,标准误 为1.04g/L。在本例中标准差就是描述25名正常成年男性血红蛋白变异程度的指标,它反映了这25个数据对其均数的离散情况。因此,标准差是描述个体值变异程度的指标,为方差的算术平方根,该变异不能通过统计方法来控制。而标准误则是指样本统计量的标准差,均数的标准误实质是样本均数的标准差,它反映了样本均数的离散程度,也反映了样本均数与总体均数的差异,说明了均数的抽样误差。本例均数的标准误 ,此式将标准差与标准误从数学上有机地联系起来了,同时看出通过增加样本含量方法可以减少标准误。 t分布图形的特征?
答:(1)单峰分布,以0为中心,左右对称;(2)ν越小,t值越分散,曲线的峰部越矮,尾部越高;(3)随着ν逐渐增大,t分布逐渐接近标准正态分布;当ν趋向∞时,t分布趋近标准正态分布。
t分布曲线是单峰的;关于t = 0对称;自由度越大, t值越小 t分布的界值
给定自由度v,t分布曲线的双侧尾部面积为?时对应的t值,记为并称 为t的双侧界值 ;单侧界值 :一侧尾部面积为?时对应的t值;对称性得:单侧
曲线下面积X?u?S=2双侧曲线下面积;同样的尾部面积,t分布的界值要大于标准正态
分布的界值
总体分布的形态和样本含量对样本均数的抽样分布会产生何种影响?
答:无论原始数据的总体分布形态如何,即对于任意分布而言,在样本含量足够大时,其样本均数的分布近似于正态分布,且样本均数的均数等于原分布的均数,样本均数的标准误有公式(6-1)计算。
t分布与正态分布的关系
自由度v较小时, t分布与标准正态分布相差较大,并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积
当自由度 时, t分布逼近于标准正态分布。 正态分布的应用
1、估计医学参考值范围2、质量控制图:利用正态分布规律检查和确认可疑值的性质。 正常波动或系统误差。3、正态分布是很多统计方法的理论基础 (1)估计频数分布,(2)制定参考值范围,(3)质量控制:为了控制实验中的检测误差,常以±2 s作为上、下警戒值,以±3 s作为上、下控制值。(4)统计分析方法的基础。
什么是医学参考值范围?估计医学参考值范围如何正确选用统计方法? 答:医学参考值范围是指所谓“正常人”的解剖、生理、生化等指标的波动范围,亦称正常值范围。如95%的参考值范围包括了95%的观察值,而有5%的观察值不在这一范围内。 估计医学参考值范围确定方法:
(1)正态分布法:适用于正态或近似正态分布的资料 根据正态分布规律,将正态曲线下的百分面积
(相当于正常值范围的百分数)在横轴上的对应点作为正常值范围的界值 (2)百分位数法:该法是利用百分位数计算正常值范围,可用于任何分布资料,尤其偏态分布资料。双侧界值(P2.5, P97.5);单侧上界P95;单侧上界P5 简述医学参考值范围含义并写出95%双侧医学参考值范围的两种计算方法及公式。
答:医学参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波
???样本均数的标准误的意义是什么?与原变量的标准差有何区别与联系? 答:样本均数的标准误可以反映样本均数之间的离散程度及抽样误差的大小。标准误与标准差的区别:(1)前者表示均数变异的指标,后者是表示观察值变异的指标。(2)用途不同,标准差与均数结合估计参考值范围,计算变异系数,长度愈小愈好。精确性与变量的变异程度大小、样本例数和1-α取值有关。在样本例数确定的情况下,二者是矛盾的。一般情况下,在可信度确定的情况下,增加样本例数,可减少区间长度,提高精度。
第七章 假设检验基础
和标准误等;标准误用于估计参数的可信区间,进行假设检验等。(3)它们与样本含量n的关系不同,当样本含量n足够大时,标准差趋向稳定,而标准误随的增大而减小。联系:当样本量n一定时,标准误随标准差的大小而变化。 用同一个样本统计量分别估计总体参数的95%置信区间和99%置信区间,哪一个估计的精度更好?为什么?
答:95%置信区间的精度要好于99%置信区间。因为置信度或置信水平有95%提高到99%时,置信区间由窄变宽,估计的精度下降。
满足什么条件时可以采取正态近似法估计总体概率的置信区间?
答:当n足够大,且样本频率p和1—p均不太小时,如np与n(1—p)均大于5时,可用正态近似法求总体概率的置信区间。 参考值范围与置信区间有何区别?
答:区别:(1)意义不同:参考值范围是指通知总体中包括一定数量(如95%或99%)个体值的估计范围。可信区间是指按一定的可信度来估计总体参数所在范围。(2)计算方法不同。
可信区间:从总体中作随机抽样,每个样本可以算出一个可信区间,如95%可信区间,意味着100次抽样,算得100个可信区间,平均有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误)。5%是小概率事件,实际发生的可能性小,因此,在实际应用中就认为总体均数在算得的置信区间内, 这种估计方法会冒5%犯错误的风险。
参考值范围:指同质总体中大多数个体变量值的分布范围。95%参考值范围指同质总体中95%的个体值分布在此范围内。它与标准差有关,各个体值变异越大,该范围越宽,分布也越分散。 抽样误差的结果
各样本均数不一定等于总体均数;样本均数间存在差异;样本均数的分布规律:围绕总体均数上下波动;样本均数的变异:由样本均数的标准差描述。 抽样误差来源:个体变异;抽样
表现:样本统计量与总体参数间的差异;样本统计量间的差异
何谓抽样误差?分别写出均数的抽样误差和率的抽样误差的描述指标及计算公式。
答:总体中的个体间存在变异,在进行抽样研究时,样本的统计量不等于总体参数,这种误差称为抽样误差。均数的抽样误差:常用样本均数的标准差 (简
称标准误)反映均数抽样误差的大小。??x? (S理论值SX?)X, (估计值)。率的抽样误差:常用率的标准误n 反映率的抽样误差的大小。n (理论值), (估计值)。
抽样研究中如何才能控制或减小抽样误差? 答:合理的抽样设计,增大样本含量。
何谓抽样误差?为什么说抽样误差在抽样研究中是不可避免的?
答:由抽样造成的样本统计量与样本统计量,样本统计量与总体参数间的差异 因为个体差异是客观存在的,研究对象又是总体的一部分,因此这部分的结果与总体的结果存在差异彩是不可避免的 什么是可信区间,可信区间有哪两个要素?
答:可信区间:按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间(confidence interval, CI),又称置信区间。
可信区间的两个要素:①准确性:又称可靠性,反映为可信度1-α的大小,显然可信度愈接近1愈好。②精确性:常用可信区间的长度CL-CU来衡量。当然
何谓假设检验?可以举例说明。
首先建立检验假设,然后在该假设下进行随机抽样,计算得到该统计量及其极端情形的概率,如果概率较小,则拒绝该假设,如果概率不是小概率,则接受该假设,这个过程称为假设检验。
假设检验的理论依据是什么?(或者问基本思想)
答:采用逻辑上的反证法,利用“小概率思想”。小概率思想是是指概率事件(p<0.05或p<0.01)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;如可能性大,则还不能认为假设不成立。
假设检验采用小概率反证法的原理,根据研究的目的提出检验假设,根据现有的样本信息,基于小概率事件的推断原理,判断是否有充分的证据支持或否定预先设定的假设 假设检验的一般步骤。
答:(1)根据研究目的建立假设,确定检验水准
(2)根据样本统计量的抽样分布规律,选择适当的统计方法,计算检验统计量 (3)确定P值,做出推断结论
建立检验假设,确定检验水准时应注意什么?
①假设检验总是相对于总体而言②相互对立,缺一不可。③不仅考虑有无差异,还反映了差异的方向——单双侧。假设检验的单双侧应该结合专业知识进行判断。若无充分的理由选择单侧,应采用双侧检验较为稳妥。
什么是假设检验中的两类错误?什么是检验效能?其大小与哪些因素有关? 答:假设检验中的第一类错误是指“拒绝了实际上成立的H0假设”时所犯的错误,当H0成立时犯第一类错误的概率等于检验水准α。假设检验中的第二类错误是指“不拒绝实际上不成立的H0假设”时所犯的错误,其概率通常用β表示,其大小与抽样误差大小及设定的检验水准α有关。1-β为假设检验的检验效能,也就是两个总体确实有差别时检出该差别的能力。
假设检验的两类错误之间的区别与联系是什么?了解这两类错误有何实际意义?
答:假设检验时,拒绝实际上成立的H0,犯第Ⅰ类错误,俗称“弃真”错误;不拒绝实际上并不成立的H0,犯第Ⅱ类错误,俗称“存伪”错误。犯第Ⅰ类错
?X误的概率用α
表示,假设检验时,根据研究者的要求来确定;犯第二类错误的
概率用β表示,它只有与特定的H1结合起来才有意义。对于某一具体的检验来说,当样本含量n一定时,α越小,β越大;α越大,β越小。 了解这两类错误的实际意义在于,若在应用中要重点减少α(如一般的假设检验),则取α=0.05;若在应用中重点减少β(如方差齐性检验、正态性检验或想用一种方法代替另一种方法的检验等),则取α=0.10或0.20甚至更高。 减少I型错误的主要方法:假设检验时设定? 值 减少II型错误的主要方法:提高检验效能。 提高检验效能的最有效方法:增加样本量。 如何选择合适的样本量:实验设计
试述假设检验中 I 型错误与 II 型错误的意义及关系。
答:拒绝了实际上成立的H0,这类“弃真”的错误称为Ⅰ型错误(typeⅠerror)或第一类错误;不拒绝实际上不成立的H0,这类“存伪”的错误称为Ⅱ型错误(typeⅡerror)或第二类错误。Ⅰ型错误的概率用α表示,是根据研究者的要求在计算检验统计量之前设定的。Ⅱ型错误的概率用β表示,一般地,β的大小和样本例数、α值、两总体的实际差距有关,它只有与特定的H1结合起来才有
意义,而通常的检验假设其总是非特定的,所以β值的大小很难确切估计。仅知道样本例数确定时,α越小,β越大,反之,α越大,β越小。所以α和β是相互制约的,可以根据研究要求适当控制。要同时减少α及β,唯一的方法是增加样本例数,当样本例数确定后,可以通过选定α来控制β。若重点减少α,一般取较小的α;若重点减少β,一般取α=0.05,α=0.1或更高,因为虽属未知,但估计比取α=0.01时小些。
假设检验时,一般当P<0.05时,则拒绝H0,理论根据是什么?
答:P值是指从H0规定的总体随机抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量值(如t值或u值)的概率。当P<0.05时,说明在H0成立的条件下,得到现有检验结果的概率小于通常确定的小概率事件标准0.05。因小概率事件在一次试验中几乎不可能发生,现的确发生了,说明现有样本信息不支持H0,所以怀疑原假设H0不成立,故拒绝H0。在下“有差别”的结论的同时,我们能够知道可能犯Ⅰ型错误的概率不会大于0.05(即通常的检验水准),这在概率上有了保证。
假设检验中?和P的区别何在?
答:?和P均为概率,其中?是指拒绝了实际上成立的H0所犯错误的概率,是进行统计推断时预先设定的一个小概率事件标准。P值是由实际样本获得的,在H0成立的前提条件下,出现等于及大于(或/和等于及小于)现有样本获得的检验统计量值的概率。在假设检验中通常是将P与?对比来得到结论,若P≤?,则拒绝H0,接受H1,有统计学意义,可以认为??不同或不等;若P> ?,则不拒绝H0,无统计学意义,还不能认为??不同或不等。 检验假设中P值的意义是什么?
答:如果总体状况与H0一致,统计量获得现有数值以及更不利于H0的数值的概率。
能否说假设检验的p值越小,比较的两个总体指标间差异越大?为什么? 答:不能,因为P值的大小与总体指标间差异大小不完全等同。P值的大小除与总体差异大小有关,更与抽样误差大小有关,同样的总体差异,抽样误差大小不同,所得的P也会不一样,抽样误差大小实际工作中主要反映在样本量大小上。
P值越小,不能说差异越显著或者是差异越大,只能说统计学结论越可靠,发现差异的把握越好。统计学结论值说明总体的参数之间有无差异,以及得出这种结论的可靠程度。具体差异的大小,要经专业判,统计学结论要和专业结论结合起来,才能做出最终的判断。 请你谈谈对假设检验结论的认识。
由于假设检验的结论是依据小概率事件一次试验实际不可能发生的原理进行的,因此当拒绝检验假设时可能犯I型错误,当接受检验假设时可能犯II型错误。
如何确定检验水准?
答:检验水准确定需根据研究设计的类型、研究目的、变量类型及变异水平、样本大小等诸多因素。
怎样正确选用单侧检验和双侧检验?
答:单双侧检验首先应考虑所要解决的问题的目的,根据专业知识来确定。若从专业知识判断一种方法的结果可能低于或高于另一种方法的结果,则用单侧检验;在尚不能从专业知识判断两种结果谁高谁低时,用双侧检验。若研究者对低于或高于两种结果都关心,则用双侧检验;若仅关心其中一种可能,则取单侧检验。一般认为双侧检验较保守和稳妥,单侧检验由于充分利用了另一侧的不可能性,故更易得出有差别的结论,但应慎用。 t检验的应用条件是什么?
答:(1)随机事件,(2)来自正态分布总体,(3)均数比较时,要求两总体方差相等。
对单样本t检验要求资料服从正态分布;对配对t检验要求差值服从正态分布;对两样本t检验则要求两组数据均服从正态分布,且两样本对应的两总体方差相等,对两小样本尤其要求方差齐性。
简述t检验的具体步骤,如何进行检验结果判断?
步骤:(1)建立假设和确定检验水准α;(2)计算统计量;(3)确定P值;(4)判断结果。结果的判断:P >α,接受H0,差异无显著性,可认为差异是由抽样误差所致。P ≤α,拒绝H0,差异有显著性,可认为样本间存在差异。 简述假设检验的注意事项。
答:假设检验的注意事项:①假设检验时可能犯两类错误;②选择检验方法要注意符合其应用条件;③正确理解假设检验的结论;④当差别无显著性时,有两种可能;⑤统计学的显著性与否和日常生活中的显著性概念不同;⑥单侧检验与双侧检验
1、严密的研究设计2、根据设计要求和资料的类型选择适当的检验方法 3、正确理解P值的含义 4、正确理解和解释统计学结果
第八章 方差分析
方差分析的基本思想是什么?
答:方差分析的基本思想是把全部观察值间的变异按设计和需要分解成两个或多个组成部分,然后将各个部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。 方差分析的应用条件是什么?
答:(1)各样本是相互独立的随机样本,(2)都采自正态总体,(3)各个总体方差相等。
方差分析的用途有哪些?
方差分析应用广泛,可用于:①两个或多个样本均数间的比较;②分析两个或多个因素间的交互作用;③回归方程的线性假设检验;④多元线性回归分析中偏回归系数的假设检验等。本章主要介绍完全随机设计资料的方差分析、配伍组设计资料的方差分析及重复测量数据的方差分析。
试比较完全随机设计和随机区组设计资料的方差分析基本思想。 (1)完全随机设计资料的方差分析
完全随机设计(completely random design):亦称成组设计。该设计仅涉及一个研究因素,k个不同的水平(k个分组)。用单因素方差分析(one-way ANOVA)。三种变异:SS总=SS组间+SS组内 (2)随机区组设计资料的方差分析
随机区组设计(random block design):又称配伍设计,是配对设计的扩展。 四种变异:SS总= SS处理+ SS区组+ SS误差,ν总=kb-1 在完全随机设计方差分析中SS组间、SS组内各表示什么含义?
答:SS组间表示组间变异,指各处理组样本均数大小不等,是由处理因素作用(如果有)和随机误差造成的;SS组内表示组内变异,指各处理组内变量值大小不等,是由随机误差造成的。 方差分析存在问题
方差分析结果提供了各组均数间差别的总的信息,但尚未提供各组间差别的具体信息,即尚未指出哪几个组均数间的差别具有或不具有统计学意义。为了得到这方面的信息,可进行多个样本间的两两比较。 重复测量设计与随机区组设计的区别
在于重复测量的时点不能随机分配给受试对象,时间因素仅为受试对象的伴随因素;各时点之间的效应指标存在相关关系。而随机区组设计的特征是区组内受试个体同质且彼此独立,只是接受的处理不同。 重复测量设计的优缺点 1、优点:
(1)每一个体作为自身的对照,克服了个体间的变异。分析时可更好地集中于
处理效应。
(2)因重复测量设计的每一个体作为自身的对照,所以研究所需的个体相对较少,因此更加经济。 2、缺点:
(1)滞留效应(carry-over effect) :前面的处理效应有可能滞留到下一次的处理。
(2)潜隐效应(latent effect):前面的处理效应有可能激活原本以前不活跃的效应。
(3)学习效应(learning effect):由于逐步熟悉实验,研究对象的反应能力有可能逐步得到了提高。
重复测量资料方差分析的前提条件
1、正态性,处理因素的各处理水平的样本个体之间是相互独立的随机样本,其总体均数服从正态分布 (个体内不独立);
2、方差齐性,相互比较的各处理水平的总体方差相等,即具有方差齐同; 3、各时间点组成的协方差阵(covariance matrix)具有球形性(sphericity/circularity)特征或复合对称性(compound symmetry)。 多个样本均数的两两比较能否用t检验或u检验?
每次犯第一类错误的概率0.05,10次都犯的概率不是0.05,而是:5/45≈0.11远大于0.05,不是小概率事件,会把本来无差别的两个总体均数判断为有差别。应用方差分析
两两比较的方法很多:有多重比较(multiple)、线性对比(linear contrast)、正交对比(orthogonal contrasts)等。常用的是多重比较,进一步又可分为以下两种情况:
(1)探索性研究(exploratory research),涉及每两个均数的比较。可采用SNK(Student-Newman-Keuls)法、Bonfferoni t 检验、??。
(2)证实性研究(confirmatory research),如多个处理组与对照组的比较,某一对或几对在专业上有特殊意义的均数间的比较等。可采用Dunnett-t检验、LSD-t检验(Fisher’s least significant difference t test)等,也可以用Bonfferoni t 检验。 数据变换的目的和方法:
目的:将原始资料变换成适用于检验方法的资料 方法:对数变换、平方根变换、倒数变换等。
为什么在方差分析的结果为拒绝H0、接受H1之后,对多个样本均数的两两比较要用多重比较的方法?
答:方差分析的备择假设H1是g个总体均数不全相等,拒绝H0,接受H1,只说明g个总体均数总的来说有差别,并不说明两两总体均数都有差别。若想进一步了解哪两两总体均数不等,则需进行多个样本均数间的多重比较。 两因素析因设计和随机区组设计的区别。书P151 小结4 对不符合方差分析假定条件的资料的分析方法。书P152 小结8 书P152课后简答:
1、方差分析师用于研究哪种数据的统计方法
2、方差分析的基本思想是什么?总离均差平方和以及总自由度怎样计算? 3、两样本t检验与完全随机设计资料的方差分析有何关系?配对样本t检验与随机区组设计资料的方差分析又有何关系? 4、举例说明何谓交互效应?并绘制交互效应图。
5、SNK-q检验Dunnett-t检验都可用于均数的多重比较,它们有何不同? 6、数据变换在资料处理中有什么作用?
第九章 x2
检验
完全随机设计的两样本率比较时,如何正确选择统计分析方法(写出相应的计算公式)。
(1)当总例数n≥40且所有格子的T≥5时,用x2检验的基本公式或四格表资料x2
检验的专用公式;当P ≈α时,改用四格表资料的Fisher确切概率法。公式为: ,v=(行数-1)(列数-1)
(2)当n≥40但有1≤T<5时,用四格表资料x2检验的校正公式 ;或改用四格表资料的Fisher确切概率法的连续性校正法: , (3)当n<40,或T<1时,用四格表资料的Fisher确切概率法。 x2检验的基本思想是什么?
答:①x2检验的基本思想:其计算公式为 ,式中A代表实际频数;T代表理论频数;而x2值反映了实际频数与理论频数的吻合程度,其中 反映了某个格子实际频数与理论频数的吻合程度。若检验假设H0成立,实际频数与理论频数的差值会小,则x2值也会小;反之,若检验假设H0不成立,实际频数与理论频数的差值会大,则x2
值也会大。 说明x2检验的用途。
答:x2
检验的用途较广。通常多用于①推断两个总体率或构成比之间有无差别;②推断多个总体率或构成比之间有无差别;③多个样本率的多重比较;④两个分类变量之间有无关联性;⑤频数分布拟合优度的x2检验。 两样本率比较的u检验与x2检验有何异同?
答:两样本率比较时,若对同一资料同时进行u检验与x2检验,在不校正的情况下,x2=u2;但u检验通常用于大样本,而x2检验可用于大样本或小样本。 对于四格表资料,如何正确选用检验方法?
答:(1)首先应分清是两样本率比较的四格表资料还是配对设计的四格表资料。 (2)对于两样本率比较的四格表资料(独立样本2X2列联表资料),应根据各格的理论值T和总例数n的大小选择不同的x2
计算公式:①当n≥40且所有的T≥5时,用x2
检验的基本公式 或四格表资料x2
检验的专用公式 ,②n≥40,且任一理论频数T有1≤T<5,用四格表资料x2检验的校正公式 或 (或用四格表资料的Fisher确切概率法);③当n<40,或T<1时,用四格表资料的Fisher确切概率法。
若资料满足两样本率u检验的条件,也可用u检验。
(3)对于配对设计的四格表资料,若检验两种方法的检测结果有无差别时:①(b+c) ≥40, ;②(b+c) <40, 。 说明行×列表资料x2检验应注意的事项。(书P164)
答:(1)行×列表中的理论频数不应小于1,或1≤T<5的格子数不宜超过格子总数的1/5。
(2)多个样本率比较,若所得统计推断为拒绝H0,接受H1时,只能认为各总体率之间总的来说有差别,但不能说明任两个总体率之间皆有差别。要进一步推断哪两个总体率之间有差别,需进一步做多个样本率的x2分割或多重比较。 (3)对于有序的R×C表资料不宜用x2检验。对于R×C表的资料要根据其分类类型和研究目的选用恰当的检验方法。 说明R×C表的分类及其检验方法的选择。
答:(1)分类:R×C表可以分为双向无序、单向有序、双向有序属性相同和双向有序属性不同4类。
(2)检验方法的选择:①双向无序R×C表:若研究目的为多个样本率(或构成比)的比较,可用行×列表资料的x2检验;若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用行×列表资料的x2
检验以及Pearson列联系数进行分析。②单向有序R×C表:若R×C表中的分组变量是有序的,而指标变量是无序的,此种单向有序R×C表资料可进行行×列表资料的x2检验分析其构成情况;若R×C表中的分组变量为无序的,而指标变量是有序的,此种单向有序R×C表资料宜用秩和检验分析。③双向有序属性相同的R×C表:宜用一致性检验分析两种检测方法的一致性。④双向有序属性不同的R×C表:若研究目的如为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序R