课件1：质量分析中的常用统计技术 - 图文(2)

2019-05-26 17:16

已知：均数3250，标准差360，求变量介于2800 ~ 3500的比例（概率、合格率）？已知平均值为8.23,标准差为1.7502, 求置信度为95%的正常值范围?3.2.4 正态性检验正态分布检验包括三类：JB检验、KS检验、Lilliefors检验，用于检验样本是否来自于一个正态分布总体。Jarque-Bera检验。正态分布的偏度（三阶矩）S=0，峰度（四阶矩）K=3，若样本来自正态总体，则他们分别在0，3附近。基于此构造一个包含x2(卡方)统计量：NORMINV返回指定平均值和标准偏差的正态累积分布函数的反函数。语法NORMINV(probability,mean,standard_dev)Probability 正态分布的概率值。Mean 分布的算术平均值。Standard_dev分布的标准偏差。?S2(K?3)2?JB?n???624??其中：n为样本容量，S为样本概率分布的偏度，K为样本概率分布的峰度。若总体服从正态分布，则J-B统计量值与0无显著差异，即其P值大于0.05。1. 计算偏度：SKEW(number1,number2,...)2. 计算峰度：KURT(number1,number2,...) 3. 计算J-B统计量值4. 计算P值：CHIDIST(x, degrees_freedom)，其中X为J-B统计量计算值，degrees_freedom为2。例：X平均标准误差中位数众数标准差方差峰度偏度区域最小值最大值求和观测数最大(1)最小(1)置信度(95.0%)1.158136360.030747631.1465#N/A0.144219180.020799174.180325950.095385960.7970.7611.55825.479221.5580.7610.0639432Y平均标准误差中位数众数标准差方差峰度偏度区域最小值最大值求和观测数最大(1)最小(1)置信度(95.0%)0.0829230.0017250.082950.08380.0080936.55E-050.6736770.2379050.03610.06570.10181.8243220.10180.06570.0035885.1683250.0754593.3 统计检验在质量分析中的应用在大多数情况下，分析测试都是采取抽样检验，通过样本测试对总体的某个或某些特征进行估计与作出推断。在分析测试中，统计检验的任务大致上可分为两类，一类是检验统计假设是否正确，另一类是由样本值来估计总体的置信区间。分析测试是一个复杂的过程，存在着多种因素的影响以及因素之间的交互影响，使得一组测定值内各测定值之间或一组测定值同另一组测定值之间存在着差异。统计检验就是正确区分这种差异究竟是由于分析测试过程受到不可避免的偶然因素的影响而造成的，还是由于测试条件的改变而引起的。J-B=1.310433P=0.51932962统计检验是由样本的测定值来推断总体的特性。既然是推测，当然不可能有100%的把握，因此，在作统计推断时，应该而且必须指明统计推断的可靠程度。可靠程度用显著性水平（a）或置信度（1-a）来表示，在统计上，显著性水平通常取10%、5%、1%，置信度取90%、95%、99%。在分析测试中通常选取5%的显著性水平和95％的置信度作为统计推断的标准，但这不是一成不变的，而要根据具体情况灵活地掌握。作为一般的原则是，当试验条件改变容易实现，花费较小时，可以选取较大的显著性水平值，较小的置信度，因为显著性水平取得较大，出现认为有显著性差异的概率也就较大，统计上允许的合理置信区间较窄，这时只要测定值有较小的变化，在统计上则已认为有显著性差异了。从实际工作考虑，试验条件的改变，工艺的变革，虽然效果不是很大，但因耗费小，总的看来仍是合算的。反之，如果试验条件的改变耗费很大，或者在事关重大的检验中，应取较小的显著性水平，较大的置信度。3.3.1 离群值的检验在实验中，得到一组数据之后，往往有个别数据与其他数据相差较远，这一数据称为离群值，又称异常值或可疑值或极端值。如果在重复测定中发现某次测定有失常情况，如在溶解样品时有溶液溅出，滴定时不慎加入过量滴定剂等，这次测定值必须剔除。若是某次测定并无失误而结果又与其他值差异较大，则对于该异常值是保留还是剔除，应按一定的统计学方法进行处理。检验离群值的方法是假定被检验的一组测量值是来自同一正态总体，给定一个合理的显著性水平a。根据a和样本容量n确定一个误差限度，即相应的统计检验的临界值。因此，凡是检验离群值的实验统计量超过临界值，就有（1-a）的置信度认为它不属于随机误差的范围，此数据应予舍去。其方法有多种，这里只介绍3倍标准偏差准则。3倍标准偏差准则（拉依达准则）是最常用也是最简单的离群值检验准则，它是以测量次数充分大为前提，但通常测量次数皆较少，因此3倍标准偏差准则只是一个近似的准则（适用于测量次数大于10次时）。对于某一测量列，若各测量值只含有随机误差，则根据随机误差的正态分布规律，其残余误差（又称残差）落在±3标准偏差以外的概率约为0.3%，即在370次测量中只有一次其残余误差│vi│＞3s。如果在测量列中，发现有大于3标准偏差的残余误差的测量值，即残差vi?xi?x（i=1，2，…，n）s?例对某量进行15次等精度测量，测得值为：28.39，28.39，28.40，28.41，28.42，28.43，28.40，28.30，28.39，28.42，28.43，28.40，28.43，28.42，28.43。试判别该组数据中是否含有异常值。解：根据这组数据可以计算得：15x?115?xi?1ni?28.4042i?(x?x)i2n?1??v2i3s?3?vi?1n?1?3?0.033?0.099n?1这组数据中：最大值的列差为│v6│=│28.43-28.404│=0.026最小值的列差为│v8│=│28.30-28.404│=0.104显然│v8│＞3s 由拉依达准则可知x8=28.30为异常值，应予剔除。│vi│＞3s 则可以认为它含有粗大误差，应予剔除。习惯上我们把含有粗大误差测量值称为异常值或离群值。 3.3.2 平均值的检验在质量分析和试验研究中，经常对未知总体(分析或研究对象)提出一些假设问题。如对工艺参数经过优化后，想知道参数优化后，加工质量是否得到改进等。这时，我们对总体的情况往往已有一种“看法”，如“质量是否得到改进”、“优化前后加工质量是否不同”、“有害成分是否降低”等，希望通过样本来验证这种“看法”是否正确，这就是所谓的统计假设检验（统计检验）。在分析测试中，也常遇到两个平均值的比较问题，如测定平均值和标样名义值的比较，不同分析人员或用不同分析方法测定的平均值的比较，对比性试验研究等均属于此类问题。上述问题可用t检验或u检验来解决。从统计的观点来看，如果样本都是由同一总体中抽出的，由有限次测定得到的各平均值，尽管在数值上并不一定相等，但彼此之间的差异在约定的显著性水平下应该是不显著的。反之，如果t或u检验证明，计算的统计量t或u大于相应自由度和显著性水平下的临界值，这表明两个平均值不属于同一总体，引起平均值之间的差异不能仅仅归因于偶然误差，除偶然误差之外，还必有某个固定因素在起作用，这个固定因素正是区分不同总体的因素。3.3.2.1 假设检验的理论依据实际生活经验：将硬币抛N次,观察其出现正面和反面的次数。如果硬币均匀，那么出现正反面的次数应该相差不大；如果不均匀，那么出现正反面次数应该相差较大。我们的推断：如果出现正反面次数相差不大，那么硬币均匀；反之，则不均匀。推断中隐藏的概率思想（依据）：正常情况下，硬币是均匀的（）。如果硬币均匀，则出现正反面次数相差较大的可能性就很小,而概率很小的事件在一次试验中几乎不会发生；如果小概率事件发生了（即出现了正反面次数相差较大的情况）,则拒绝原假设，判断硬币不均匀（）。3.3.2.2 假设检验的方法和步骤假设检验的步骤步骤1 设立两个假设（原假设和备择假设）步骤2 选择检验统计量步骤3 决定拒绝域及接受域(决策法则)步骤4 计算检验统计量(或将检验统计量与临界值比较)步骤5 下结论应用实例1根据历年资料，已知某卷烟牌号烟支单重量为0.88g，标准偏差为0.025g，现某班加工过程中抽检20支样品的平均重量为0.91g 。小概率原理：如果事件发生的概率很小，则它在一次试验中出现的可能性就很小，当概率小于一个规定的界限时，就认为该事件不可能发生。问题：1）烟支重量是否发生变化？2）烟支重量是否增重？3）烟支重量是否减轻？步骤1：设立两个假设1）H0：μ＝μ0(＝0.88)；H1：μ≠μ2）H0：μ≤μ3）H0：μ≥μ 原假设H0的符号备择假设H1的符号拒绝域 00双尾检验f(x)000(＝0.88) (＞0.88)(＜0.88) xL*1-?/2(≤0.88)；H1：μ＞μ(≥0.88)；H1：μ＜μ双尾检验 = ? 在左右两尾假设检验的符号左尾检验右尾检验 ? ? 在左尾 ? ? 在右尾 ???0xU*?值 ?/2 ? ? 单尾检验f(x)设立假设的原则以反面主张做为原假设。把需要等待验证的结论设为备择假。需要等待验证的结论是指那些猜测的、可能的、预期的结论或新的状况。原假设对应于大概率，备择假设对应于小概率。假设检验是期望用小概率的事实去推翻原假设所代表的结论。把不能轻易否定的结论设为原假设，这些结论一般指原有的理论、原有的看法(声明) 、原有的状况,或者是说那些保守的、历史的、经验的、广为公认的结论。错误地拒绝某一假设的后果较错误地接受或不拒绝该某一假设的后果为严重者，将该假设设为原假设。将他人的主张做为原假设，亦即假定他人的主张是真实的。x ?f(x)x*??3x1-????0x* 两类错误?类错误当H0为真，而拒绝H0所发生的错误，称为?类错误(type ?error)。型?错误的概率为α，表示为两个错误如何选择一般认为型?错误的后果会比较严重，因此希望?较小；换言之，希望在证据相当足够充分下才可推翻H0。在假设检定中，发生型?错误、型??错误均可能发生损失，但损失的大小通常未知，就像法官判案一样，型?错误（嫌疑犯无罪而被误判有罪）的损失较为严重，因此一般均将?设得较小，?通常值为0.01、0.05及0.10。真实情况 H0为真 H1为真 ??p(拒绝H0H0为真)α又称为为显著水平(significance level)。??类错误当H0为假(或H1为真)，而不拒绝H0所发生的错误，称为??类错误(type???error)。型??错误的概率以β表示：??p(不拒绝H0H0为假) 决策不拒绝H0 1??(正确机率) ?(错误机率) 拒绝H0 1??称为检出力，表示H0为假，不拒绝H0的概率。?(错误机率) 1??(正确机率) 3.3.2.3单个总体平均值的检验设立假设单个总体平均数的假设检验(运用Excel中的函数也可一步完成)选择检验的样本统计量决定决策法则Yes抽样并进行检验一、Z（u）检验1）总体方差已知时统计差异是否显著No接受该假设Z?x??0?xx??0sx?x??nsn2）总体方差未知,但n>30时拒绝该假设Z?sx?3）应用实例1根据历年资料,已知某卷烟牌号烟支单重量为0.88g,标准偏差为0.025g,现某班加工过程中抽检20支样品的平均重量为0.91g .试判定烟支重量是否发生变化?(1)建立假设.H0:μ= 0.88g, H1:μ≠0.88g;确定显著性水平,双尾α=0.05.（）0.91?0.88(2)计算统计量.Z??5.3665633）应用实例1 续根据历年资料,已知某卷烟牌号烟支单重量为0.88g,标准偏差为0.025g,现某班加工过程中抽检20支样品的平均重量为0.91g .试判定烟支重量是否增重?(1)建立假设.H0:μ≤0.88g, H1:μ＞0.88g；确定显著性水平,单尾α=0.05.（）(2)计算统计量.0.02520Z?0.91?0.880.02520?5.366563(3)确定H0成立的概率,作出推断结论.双尾：??????=NORMSINV(0.975) = 1.95996????=NORMSINV(0.025) = -1.95996双尾：P值=2*（1-NORMSDIST(5.366563)）=8.03E-08(3)确定H0成立的概率,作出推断结论.右尾：????=NORMSINV(0.95) = 1.64485右尾：P值=1-NORMSDIST(5.366563)=4.013E-08因为z?z0.975,说明H0成立的概率小于0.05,所以拒绝H0,接受H1。推论：该班加工的烟支重量发生了显著变化.因为z?z0.95接受H1。，说明H0成立的概率小于0.05，所以否定H0，推论：该班加工的烟支重量显著增重.4）应用实例1 再续（）根据历年资料,已知某卷烟牌号烟支单重量为0.88g,标准偏差为0.025g,现某班加工过程中抽检20支样品的平均重量为0.91g .试判定烟支重量是否增重?ZTEST(array,u0,sigma)返回Z检验的单尾概率值。对于给定的假设总体平均值u0，ZTEST返回样本平均值大于数据集（数组）中观察平均值的概率，即观察样本平均值。Array ——为用来检验u0的数组或数据区域。U0——为被检验的值。Sigma——为样本总体（已知）的标准偏差，如果省略，则使用样本标准偏差。说明：双尾概率的计算P值=2*MIN(ZTEST(array,u0,sigma), 1 -ZTEST(array,u0,sigma))。推论：该班加工的烟支重量显著增重. 二、t 检验当样本取自正态总体,但方差未知,且n<30时应采用t检验.t?x??0sxsx?sn说明:查临界值：TINV(probability，degrees_freedom)Probability——为对应于双尾t 分布的概率。Degrees_freedom——为分布的自由度。单尾t 值可通过用两倍概率替换概率而求得。如果显著水平为0.05 而自由度为10 ，则双尾值由TINV(0.05,10) 计算得到，它返回2.28139。而同样显著水平和自由度的单尾值可由TINV(2*0.05,10) 计算得到，它返回1.812462。查P值：TDIST(x, degrees_freedom, tails)X——为需要计算分布的数值，即t 统计量计算值。Degrees_freedom——为表示自由度的整数。如果tails = 1，单尾。如果tails = 2，双尾。因为不允许x < 0，当x < 0 时要使用TDIST，应该注意TDIST(-x,df,1) = 1 –TDIST(x,df,1) = P(X > -x) 和TDIST(-x,df,2) = TDIST(xdf,2) = P(|X| > x)。应用实例2已知某标准烟叶样品中糖含量为20.70mg/L，现用某方法测定样品11次,测定结果的平均值为21.037mg/L，标准偏差为1.05 mg/L，问该方法的测定结果是否有显著差异。(1)建立假设.H0:μ= 20.70, H1:μ≠20.70；确定显著性水平，双尾α=0.05.(2)计算统计量.应用实例3已知某地烟叶样品36个,测得六六六平均含量为0.325 mg/kg，标准偏差为0.068 mg/kg，若标准规定六六六≤0.3 mg/kg,问该地烟叶六六六含量是否超标。(1)建立假设.H0:μ≤0.3 , H1:μ＞0.3;确定显著性水平,单尾α=0.05,则双尾α=0.1(2)计算统计量.21.037?20.70t??1.0641.0511t?t0.05t?0.325?0.30.06836?2.206=TINV(2*0.05,35)=TINV(0.05,10)(3)确定H0成立的概率,作出推断结论.按df=11-1=10,查t 临界值表,得t0.05(10)=2.228因为否定H1.，说明H0成立的概率大于0.05，所以接受H0，=TDIST(1.064,10,2)=0.3123(3)确定H0成立的概率,作出推断结论.按df=36-1=35,查t 临界值表,得t0.1(35)=1.69因为t?t0.05接受H1.，说明H0成立的概率小于0.05，所以否定H0，推论:该地烟叶六六六含量已超标。=TDIST(2.206,35,1)=0.0170推论:该方法的测定结果是没有显著差异。应用实例4已知卷烟纸生产厂家提供定量的检测值为26.5g/m2,现对一批卷烟纸进行抽样检验,按标准检测20个样,得平均值为27.3g/m2,标准偏差为0.169g/m2,问生产厂家检测结果是否可信?(1)建立假设.H0:μ=26.5 , H1:μ≠26.5；确定显著性水平，双尾α=0.05(2)计算统计量.27.3?26.5t??21.170.16920TINV(0.05,19)(3)确定H0成立的概率,作出推断结论.按df=20-1=19,查t 临界值表,得t0.05(19)=2.09因为t?t0.05接受H1.，说明H0成立的概率小于0.05，所以否定H0，3.3.2.4 两个总体平均值的检验一、成组资料特点:两个样本的观测值是从各自总体中随机抽取的,两个样本之间的观测值没有任何关联性,即两个样本彼此独立.两组数据以进行相互比较,来检验其差异显著性.1）u检验(z-检验: 双样本均值分析)已知两个正态总体方差, H0:μ1= μ2,则有(x?x2)?(?1??2)x1?x2u?1??x?x?1?212以H0：?1??2为前提n1?n2推论:生产厂家检测结果不可信。=TDIST(21.17,19,2)=1.13E-14当两个正态总体方差未知,但样本容量大于30时,可用两个样本方差代替两个总体方差.应用实例5 为研究某新型香料对卷烟质量的影响,设喷施该香料与喷清水对照处理,各处理制作样品32个,共64个样品.评价各样本某感官质量的结果如下:对照42.541.343.741.041.844.042.541.343.741.041.844.042.541.343.741.0处理47.648.246.347.946.049.047.648.246.347.946.049.047.648.246.347.9对照41.844.042.541.343.741.041.844.042.541.343.741.041.844.042.541.3处理46.049.047.648.246.347.946.049.047.648.246.347.946.049.047.648.2应用实例6设两台卷烟机卷制卷烟的单支重量的总体标准偏差分别为0.025g,0.023g,分别抽检16支烟的单支重量。问两2卷烟机的单支重量有无显著差异.分析结果如下(结论:无显著差异)。1 号机0.890.900.900.900.900.890.890.900.910.910.890.920.932 号机0.900.910.900.910.900.900.900.890.890.910.870.880.91z-检验: 双样本均值分析对照42.353131.293538320-18.9901.64485401.959964处理47.5251.0832z-检验: 双样本均值分析平均已知协方差观测值假设平均差zP(Z<=z) 单尾z 单尾临界P(Z<=z) 双尾z 双尾临界平均已知协方差观测值假设平均差zP(Z<=z) 单尾z 单尾临界P(Z<=z) 双尾z 双尾临界1 号机2 号机0.9023080.8976920.0006250.000529131300.4898650.3121151.6448540.6242291.959964 2）t检验相当于EXCEL中的t-检验:双样本异方差假设和双样本等方差假设.当两个正态总体方差未知,但样本容量小于30时,用两个样本方差代替两个总体方差.双样本t检验，严格地说，在检验前要先进行方差检验，根据方差检验结果确定是等方差还是异方差。等方差时的统计量t?(x1?x2)?(?1??2)sx1?x2sx1应用实例7 为研究某卷烟品牌在两个生产点加工质量是否存在差异,分别从各加工点随机取6个样,共12个样,某质量指标评价结果如下:(1)假设两样本方差双样本等方差假设”,检验两样本均值有无显著化,用“t-检验: (2)假设两样本方差,检验两样本均值有无显著变化,用“t-检验: 双样本异方差假设”t-检验: 双样本等方差假设t-检验: 双样本异方差假设?x2?s12df1?s22df2df1?df2(1n1?1n2)df?n1?n2?2s1s2?n1n222t?异方差时的统计量(x1?x2)?(?1??2)sx?x1sx1?x2?df?(s12n1?s22n2)2(s12n1)22n1?1?(s22n2)2?2n2?1对照42.5041.3043.7041.0041.8044.00处理47.6048.2046.3047.9046.0049.00平均方差观测值合并方差假设平均差dft StatP(T<=t) 单尾t 单尾临界P(T<=t) 双尾t 双尾临界对照处理42.3833347.51.5576671.32661.438833010-7.388271.17E-051.8124612.35E-052.228139平均方差观测值假设平均差dft StatP(T<=t) 单尾t 单尾临界P(T<=t) 双尾t 双尾临界对照42.383331.5576676010-7.388271.17E-051.8124612.35E-052.228139处理47.51.326应用实例8设对总糖测定方法进行调整,调整前后分别对某样品连续检测10次,问检测方法调整前后检测数据的平均值有无显著变化? (1)假设两样本方差,检验两样本均值有无显著变化,用―t-检验: 双样本等方差假设‖(2)假设两样本方差,检验两样本均值有无显著变化,用―t-检验: 双样本异方差假设‖t-检验: 双样本等方差假设调整前调整后16.0116.010.1210.08988910100.1054440182.45E-140.51.73406312.100924t-检验: 双样本异方差假设调整前平均方差观测值假设平均差dft StatP(T<=t) 单尾t 单尾临界P(T<=t) 双尾t 双尾临界调整后―等方差与异方差‖问题对于不平衡试验用―等方差与异方差‖计算出的t值和自由度是不同的，相应的P值也有差异。对于平衡试验用―等方差与异方差‖计算出的t 值是相同的，相应的自由度和P值一般也是相同的。因此，试验应尽可能是平衡试验，即两个处理的样本量应相等。两个或多个处理下方差相等的情况称为方差齐性，从严格意义上说，任何两个处理的方差都不会完全相同，我们说方差齐性也只是认为两个处理的方差相差不大，其方差的差异不足以影响统计分析结果的正确性，同时采用平衡试验还可降低方差的差异的影响。若试验前能知道方差是非齐性的，则应增大方差大的样本量。实际应用中多数情况下方差是齐性的，而方差分析的前提是方差齐性，所以等方差的假设是普遍的。平均方差观测值合并方差假设平均差dft StatP(T<=t) 单尾t 单尾临界P(T<=t) 双尾t 双尾临界16.0116.010.1210.089889100182.45E-140.51.73406312.10092410z检验与t 检验的区别与联系Z检验主要适用于方差已知的试验数据,或方差未知但样本数量大于30个以上的试验数据;t检验主要适用于方差未知且样本数量小于30的试验数据;对于方差未知且样本数量大于30个以上的试验数据, Z检验与t检验的结果较为接近的.应用实例9 二、成对资料特点:(1)将受试对象按要求配成对子,对同一配对分别进行两种处理,经推断两种处理有无差别;(2)对同一受试对象处理前后的某指标进行比较,以推断该处理效果有无差别.统计量1ndidn?i?1t???ssdndf?n?11n?dini?1?(d?d)ii?1nn?1n应用实例10选生长期、发育进度、植株大小和其他方面皆比较一致的两株烟草构成, 共得七组,每组中一株接种A处理病毒, 另一株接种B处理病毒, 以研究不同的处理方法对病毒钝化的效果,得结果为病毒在烟株上产生的病痕数目.t-检验: 成对双样本均值分析应用实例11两分析人员测定10个样品中某成分的含量,问两分析人员的测定结果是否有系统误差?应用―t-检验: 成对双样本均值分析‖.认为两分析人员的测定结果无系统误差. 样品12345678910A人员798108119898B人员11710109101091111t-检验: 成对双样本均值分析A人员B人员8.79.81.3444441.5111111010-0.1247309-1.941180.0420751.8331140.084152.262159组别1234567处理A1013835206处理B25121415122718平均方差观测值泊松相关系数假设平均差dft StatP(T<=t) 单尾t 单尾临界P(T<=t) 双尾t 双尾临界处理A处理B9.28571417.5714333.238137.61905770.60734506-4.149920.0030061.943180.0060122.446912平均方差观测值泊松相关系数假设平均差dft StatP(T<=t) 单尾t 单尾临界P(T<=t) 双尾t 双尾临界

共4页:

课件1：质量分析中的常用统计技术 - 图文(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档