第7章 资料整理

2019-05-24 21:55

第七章 资料整理

资料整理是任何调查工作的重要组成部分。调查工作所得大量数据和资料包含有各种信息,这些信息常是错综、复杂和多维的。它们有直接的,也有间接的,甚至是无关的。它们常因互相干扰影响而含糊不清,它们需要通过筛选、加工处理、去伪存真和分析整理后才能从中提炼出工作中所需要的有用信息,充分显示出它们之间的内在关系。所以资料整理既是细致的规整清理工作;也是技术性很高的综合研究工作;此外资料整理的第三个任务是将所获成果、认识用简明的形式表达出来,供他人检查验收或用户使用。

资料整理工作包括数据处理与报告编写两部分工作。数据处理又可分原始数据质量评价与资料综合和解释两部分。资料综合和解释包括水文地球化学场特征值的确定和水文地球化学场与研究对象之间关系的研究.

第一节 数据评价

在工作中常需要对原始数据质量予以评价,例如对分析误差进行评估、对分析质量进行检查、检出不合适的数据等。评估分析误差、检查分析质量的方法有回归分析、方差分析、符号检验法和统计量t等方法;检出不合适的离群数据的方法有均值均方差法、Pearson Stephen法、Grubbs法、Dixon 等方法。

一、回归分析检验分析误差

当一批水样由不同人员在不同实验室分析时,结果之间总会有误差。作为水文地质人员,重要的是检查这些误差是否是系统误差。系统误差有绝对系统误差和相对系统误差两种,一元线性回归方程可以帮助确定这两种系统误差。

例7-1-l 某实验室新添一台激光测铀仪,为了检查新仪器是否会产生系统误差,用人工方法配制了一些标准铀溶液,并采集了若干天然水样,同时用新仪器和珠球分析两种方法测定水中铀含量,分析结果列于表7.1.1。

由于水中铀含量服从对数正态分布,故将表中数据换算为对数值,进行回归分析,得如下回归方程,

y=a+bx

式中a=0.08;b=1.029

回归系数?为?????,查附表?得,样品数????、?????时,检验相关系数的临界值ra为??????(见表7.1.2),故回归方程显著,两种分析方法的分析结果具有相关关系。回归方程中的a为系统误差,等于0.08,取反对数值,为1.2(10-7克/升),激光荧光法比珠球法偏高1.2×10-7 g/L ;(b-1)/1为相对误差,(1.029-1)/1=0.029,即两种方法分析结果偏差 2.9%。

表7.1.1 水中铀含量分析结果(10-7克/升)

样品号 分析方法 激光测铀 珠球分析 样品号 分析方法 激光测铀 珠球分析 样品号 分析方法 激光测铀 珠球分析 1

1 2 3 4 5 6 7 8 9 10 14.8 85.1 1.3 9.7 165.9 14.8 2.7 3.9 22.9 6.0 10.2 74.1 1.5 8.9 120.2 13.2 1.2 1.4 21.4 7.1 11 12 13 14 15 16 17 18 19 20 363.1 223.1 43.6 5754.0 10.0 2.2 3.2 3.7 758.6 3.1 219.0 182.0 28.8 4070.0 5.0 1.4 4.1 3.3 509.0 1.8 21 22 23 24 25 26 27 28 29 30 457.1 6.3 1.5 2.0 4.1 53.7 5.0 1445.4 5370.3 2290.8 316.0 4.1 2.2 2.6 4.8 40.7 3.0 1000.0 2820.0 1290.0

二、检验不合适的离群数据

1. Pearson Stephen法

当最大值和最小值均为可疑时,可采用此法剔除离群值。

设有一组由小到大排列的数据x1, x2, ……, xn,按下式计算极差R和标准差S的比值,将它与Pearson Stephen表(表7.1.3)中的临界值对比,检出不合适的离群值。

R?Sxn?x11n(xi?x)2?n?1i?1

(7.1.1)

式中:R-最大、最小值之差; S-方差

例7-1-2 一个金的标准样由15个实验室做了考核分析,其结果如下:25.60,26.56,26.70,26.76,26.78,26.95,27.06,27.10,27.18,27.20,27.39,27.48,27.63,28.01。问其中有无离群值? 解: 经计算知s=0.551,代入上式有

给定?=0.05, 由Pearson Stephen表(见表7.1.3)可查得临界值为4.17,故认为25.6和28.01中的任一个或两个均可能为离群值。

R28.01?256.??4.38S0551.

2. Grubbs法

上例中已知x=27.02,因(27.02一25.60)>(28.01一27.02),故可用Grubbs法先检验25.60是

否为离群值。

(7.1.2)

查Crubbs表(表7.1.4),得临界值为T0.05,15 = 2.409,T1> T0.05,15,故认为25.06为离群值。 剔除25.06,从新计算剩下14个数据的平均值,得x=27.12,S=0.401,再计算大值的离群情况。

(7.1.3)

查Crubbs表,得临界值为T0.05,14 = 2.371,Tn< T0.05,14,故认为28.01不是离群值。

T1?x?x127.02?25.06??2.57S0.551

Tn?xn?x28.01?27.12??2.219S0.401

2

rta?a表7.1.2 检验相关系数的临界值(ra)

f?t2

f=N-2 α 0.10 0.05 0.01 1 0.98769 0.99692 0.999877 1 2 0.90000 0.95000 0.99000 2 3 0.8054 0.8783 0.95873 3 4 0.7293 0.8114 0.91720 4 5 0.6694 0.7545 0.8745 5 6 0.6215 0.7067 0.8343 6 7 0.5822 0.6664 0.7977 7 8 0.5494 0.6319 0.7646 8 9 0.5214 0.6021 0.7348 9 10 0.4973 0.5760 0.7079 10 11 0.4762 0.5529 0.6835 11 12 0.4575 0.5324 0.6614 12 13 0.4409 0.5139 0.6411 13 14 0.4259 0.4973 0.6226 14 15 0.4124 0.4821 0.6055 15 16 0.4000 0.4683 0.5897 16 17 0.3887 0.4555 0.5751 17 18 0.3783 0.4438 0.5614 18 19 0.3687 0.4329 0.5487 19 20 0.3598 0.4227 0.5368 20 25 0.3233 0.3809 0.4869 25 30 0.2960 0.3494 0.4487 30 35 0.2746 0.3246 0.4182 35 40 0.2573 0.3044 0.3932 40 45 0.2428 0.2875 0.3721 45 50 0.2306 0.2732 0.3541 50 60 0.2108 0.2500 0.3248 60 70 0.1954 0.2319 0.3017 70 80 0.1829 0.2172 0.2830 80 90 0.1726 0.2050 0.2673 90 100 0.1638 0.1946 0.2540 100 注:当f>100时,可先按t分布临界值表,查出自由度为f的临界值ta,然后按下式计算ra。

表7.1.3 同时检验最大最小值的舍弃限表(Pearson-Stephen表)

n 显著性水平(α) 显著性水平(α) 0.05 0.025 0.01 0.005 0.05 0.025 0.01 0.005 3 1.999 2.000 2.000 2.000 30 4.89 5.06 5.26 5.40 4 2.429 2.439 2.445 2.447 35 5.05 5.21 5.42 5.57 5 2.753 2.782 2.803 2.813 40 5.16 5.34 5.56 5.71 6 3.012 3.056 3.095 3.115 45 5.25 5.45 5.67 5.83 7 3.222 3.282 3.338 3.369 50 5.35 5.54 5.77 5.93 8 3.399 3.471 3.543 3.585 55 5.43 5.63 5.86 6.03 9 3.552 3.634 3.720 3.772 60 5.51 5.70 5.94 6.10 10 3.685 3.777 3.875 3.935 65 5.57 5.77 6.01 6.17 11 3.800 3.903 4.012 4.079 70 5.63 5.83 6.07 6.24 12 3.910 4.020 4.134 4.208 75 5.68 5.88 6.13 6.30 13 4.000 4.120 4.244 4.325 80 5.73 5.93 6.18 6.35 14 4.090 4.210 4.340 4.431 85 5.78 5.98 6.23 6.40 15 4.170 4.290 4.44 4.53 90 5.82 6.03 6.27 6.45 16 4.24 4.37 4.52 4.62 95 5.86 6.07 6.32 6.49 17 4.31 4.44 4.60 4.70 100 5.90 6.11 6.36 6.53 3

18 19 20 25 4.37 4.43 4.49 4.71 4.51 4.57 4.63 4.87 4.67 4.74 4.80 5.06 4.78 4.85 4.91 5.19 150 200 500 1000 6.18 6.39 6.94 7.33 6.39 6.60 7.15 7.45 6.64 6.84 7.42 7.80 6.82 7.01 7.60 7.99 表7.1.4 Grubbs舍弃界限T值

n 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 上侧概率(α) 0.05 1.153 1.463 1.672 1.822 1.938 2.032 2.110 2.176 2.234 2.285 2.331 2.371 2.409 2.443 2.475 2.504 2.532 2.557 2.580 2.603 2.624 2.644 2.663 2.681 2.698 2.714 2.730 0.025 1.155 1.481 1.715 1.887 2.020 2.126 2.215 2.290 2.355 2.412 2.462 2.507 2.549 2.585 2.260 2.651 2.681 2.709 2.733 2.758 2.781 2.802 2.822 2.841 2.859 2.876 2.893 0.01 1.155 1.492 1.749 1.944 2.097 2.221 2.323 2.410 2.485 2.550 2.607 2.659 2.705 2.747 2.785 2.821 2.854 2.884 2.912 2.939 2.963 2.987 3.009 3.029 3.049 3.068 3.085 0.005 1.155 1.496 1.764 1.973 2.139 2.274 2.387 2.482 2.564 2.636 2.699 2.755 2.806 2.852 2.894 2.932 2.968 3.001 3.031 3.060 3.087 3.112 3.135 3.157 3.178 3.199 3.218 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 60 70 80 90 100 上侧概率(α) 0.05 2.745 2.759 20773 2.786 2.799 2.811 2.823 2.835 2.846 2.857 2.866 2.877 2.887 2.896 2.905 2.924 2.923 2.931 2.940 2.948 2.956 3.025 3.082 3.130 3.171 3.027 0.025 2.908 2.924 2.938 2.952 2.965 2.979 2.991 3.003 3.014 3.025 3.036 3.046 3.057 3.067 3.075 3.085 3.094 3.103 3.111 3.120 3.128 3.199 3.257 3.305 3.347 3.383 0.01 3.103 3.119 3.135 3.150 3.164 3.178 3.191 3.204 3.216 3.228 3.240 3.251 3.261 3.271 3.282 3.292 3.302 3.310 3.319 3.329 3.336 3.411 3.471 3.521 3.563 3.600 0.005 3.236 3.253 3.270 3.286 3.301 3.316 3.330 3.343 3.356 3.369 3.381 3.393 3.404 3.415 3.425 3.435 3.445 3.455 3.464 3.474 3.483 3.560 3.622 3.673 3.716 3.754 复习思考题

1. 2. 3.

4.

资料整理工作的目的是什么? 资料整理工作包括那些方面? 你知道评价数据的方法有哪些?

系统误差可用什么方法来检查?不合适的离群数据可用什么方法来剔除?

第二节 水文地球化学场特征值的确定

数据处理和解释主要是为了说明水文地球化学特征。体系的特征由元素水文地球化学场的特征值:背景值和特殊(异常)值,水文地球化学场的分布特征,各种水文地球化学场之间的成因和空间关系等组成。

元素含量在天然水体系中的空间分布特征称为水文地球化学场。水文地球化学场有背景场和异常场之分。背景水文地球化学场是指未受局部或特殊(矿化、污染源等)因素影响的水文地球化学分布空间。背景值是背景场的代表性的特征值,也称作为底数,一般用中值或平均值来表示。它可因地质、水文地质、水文地球化学环境、自然地理和人为条件以及区域面积不同而不一。异常值是相对于背景值或自然底数而言,是指含量相对背景值的偏离。因其偏离程度不同,可区分有偏高、增高和异常值。由上可见,确定背景值是水文地球化学研究的基础工作。 在保证样品分析工作质量的前提下,自然底数的确定是否正确,决定于水文地球化学分区或统计单元的确定是否合理,统计计算方法选择得是否得当,样品的代表性及数量是否合乎要

4

求。

在确定自然底数时,常根据与水中元素含量变化关系密切的因素(如气候、地貌、岩石基本类型、地下水类型、水的化学成分、水文地球化学环境等)进行统计单元的划分。在气候因素的影响表现明显的地区,甚至需分别确定出各微气候单元的自然底数,或求出一年之内不同季节(如早季和雨季)的自然底数。

一、背景值的确定

对地表水系而言,根据水中元素的含量变化情况,应按照水系、汇水区域、河流的上、中、下游或两岸不同岩系的河流段落,求出水中元素含量的底数。并根据研究任务的需要,确定是否要求出不同季节或洪水与枯水期的底数。 以下介绍几种确定自然底数的常用方法。

1. 散点法

这是一种粗略的直观作图统计法。它是以横座标表示不同的水文地球化学分区或不同的统计单元,再分别划出它们的纵座标,以表示水中元素含量的高低。然后将所有取样点的分析结果,按相对应的统计单元分别点绘于纵轴附近,即成散点图(图7.2.1)。在散点图上找出散点分布较密段落的上下界限、分别做为底数上限和下限。取该段落内散点密度最大地位置的含量值,做为底数。当散点分布均匀,难以找出密度最大位置时,则可取该段落的中位数(图中的II)、中间点(图中的III),或以该段落所有样品的平均值(铀、镭取对数平均值),做为自然底数。 由这种方法所确定的底数显然不够准确,其结果往往因人而异。它仅适用于野外工作阶段初步确定底数之用,或在资料整理过程中做为划分统计单元的参考,剔除离散点的依据。

2. 正态分布展直法

微量金属元素和放射性元素的水文地球化学性质和野外实际资料都说明,它们在天然水中的含量和浓度处于底数状态时,服从于统计规律。其中氡浓度服从正态分布,铀、镭含量服从对数正态分布。

5


第7章 资料整理.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:第七章 工业用钢习题参考答案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: