图3模型建立过程
3.2 模型假设
我们假设在食品生命周期的各个环节中由于生产、加工、运输、流通、销售等等环节产生的损失可以忽略不计;同时由于国内对于原料环节的数据没有建立严密的监控网络,无法获得有效的数据,因此在建立模型时只考虑食品流通环节的污染物含量分布。实际中,由于某些食品的原料来源不可考察,因此会存在一些本地生产的食品原料来源于进口的情况。在建立食品污染物含量分布模型时,我们也不考虑这种情况。
3.3 模型建立
设某类食品污染物(比如南方一区、秋季豆制品中无机污染物铅)的含量分布是一个随机变量,用X来表示。那么X的分布函数F(x)应该由本地生产的食品中污染物含量分布函数F1(x),本地生产的食品中出口部分的污染物含量分布函数F2(x)以及进口食品中污染物的含量分布函数F3(x)三部分加权而成,如公式(4)所示。
F(x)?a1F1(x)?a2F2(x)?a3F3(x) (4)
其中,a1、a2、a3分别是三类食品中污染物分布函数的权值,a2应该是负权值,a1和a3是正权值。
10
根据人们的经验,食品中污染物的含量值总是非负的,而且污染物含量越高的概率密度应该是越小。呈现出类似图4所示的右偏分布。在文献[[4]]指出化学污染元素铅的含量分布呈对数正态分布。
图4对数正态分布的概率密度图
因此,我们可以使用对数正态分布作为建立污染物分布模型的基础。于是食品污染物分布的模型建立变成了一个参数估计的问题。即三种食品中污染物的分
;1?,1,)布函数都可以用不同参数的对数正态分布来描述:F1(x)?F(x?F2(x)?F(x;?2,?2),F3(x)?F(x;?3,?3),其中F(x;?,?)是公式(5)所示的对
数正态分布的分布函数,其中?1,?1,?2,?2和?3,?3分别是三种食品中污染物分布对应的对数正态分布函数参数。
(lnu-?)?x1[-]2?2edu, x?0,?F(x;?,?)???02??u (5)
?0, x?0,?2其中?和?2分别是随机变量对数的平均值和随机变量对数的方差。 结合上述分析,我们可以假设食品中污染物分布模型是一个分布函数满足公式(6)所示的随机变量X。
F(x)?a1F(x;?1,?1)?a2F(x;?2,?2)?a3F(x;?3,?3) (6)
其中F(x;?,?)是公式(5)所示的对数正态分布的分布函数,a1、a2、a3分别是三类食品中污染物分布函数的权值。
11
3.4 参数的估计
3.4.1
样本数据的获取与处理
模型中考虑的因素包括本地生产的食品中污染物含量的分布和进出口食品中污染物含量的分布。可以利用的数据包括食品生产过程中的检测数据,卫生部门抽检监测的数据、进出口口岸的检验检测数据以及食品进出口的比例。 3.4.2
权值的确定
公式(6)中的a1,a2,a3分别对应这国内生产的食品中污染物含量的分布权值、出口的食品中污染物含量的分布权值以及进口食品中污染物含量的权值。这三个权值可以由食品进出口的比例的数据来确定。比如某种食品每年生产的量为q1,出口的量为q2,进口的量为q3。则a1,a,的权值分别为:2a3q3q1?q2a1?,a2?,a3?。
q1?q2?q3q1?q2?q3q1?q2?q33.4.3
?和?2的确定
这里我们采用两种方法来确定?和?2的值,一种是极大似然估计,另一种是代换方法。
极大似然估计是一种概率论在统计学的应用,它是参数估计的方法之一。已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。 为了确定对数正态分布参数?与?的极大似然估计,我们可以采用与正态分布参数最大似然估计同样的方法。我们来看公式(7)
fL(x;?,?)?1fN(lnx;?,?) (7) x其中用fL表示对数正态分布的概率密度函数,用fN表示正态分布。因此,用与正态分布同样的指数,我们可以得到对数最大似然函数:
lL(?,?|x1,x2,...,xn)???klnxk?lN(?,?|lnx1,lnx2,...,lnxn)?常数?lN(?,?|lnx1,lnx2,...,lnxn). (8)
由于第一项相对于?与?来说是常数,两个对数最大似然函数lL与lN在同样的?与?处有最大值。因此,根据正态分布最大似然参数估计器的公式以及上面
12
的方程,我们可以推导出对数正态分布参数的最大似然估计:
????lnxkkn,
??2??k?)2(lnxk??n (9)
虽然极大似然估计有着较高的辨识精度和良好的估计特性,是一种非常常用
的传统估计,而且在对对数正态分布的参数进行估计时也都采用极大似然估计方法或者基于极大似然估计的方法[[5]-7]。但是,在目前可以获得的食品检测数据中,很多并不提供样本的具体值,而只是提供一个结果或者特征值,比如样本的平均值、方差和中位数等等。因此,在目前的数据上直接使用极大似然估计存在一定的困难。因此,建议可以在进行专门调查然后建立食品污染物含量分布模型或者基于偶然抽查数据和监测性检验数据建立食品中污染物含量模型时使用极大似然估计方法。
在少量数据,特别在是目前只存在部分特征数据的条件下建立食品污染物含量分布模型需要我们提供一个更简单可行的方法。从文献[[8]]中,我们可以知道对于一个满足公式(5)的对数正态分布的随机变量X,它的数学期望为:
E(X)?e???方差为
2/2 (10)
var(X)?(e??1)e2??? (11)
22给定期望值和标准差,也可以用如下关系求?与?:
1?var(X)???ln(E(X))?ln?1??2?E(x)2? (12)
?2?ln?1???var(X)??E(X)2? (13)
在对数正态分布,我们可以近似地用平均值和标准差来代入上述公式计算得到其参数?与?。
3.5 对部分数据的建模结果
从文献[9]中,我们获得了2000年吉林省粮食类食品中重金属污染物铅、砷、镉含量的监测结果,如表3所示。
13
表3 2000年吉林省粮食类食品中重金属污染物的监测结果 指标 铅 砷 镉 均数 0.079 0.063 0.008 标准差 0.052 0.086 0.006 中位数 0.063 0.022 0.006 将均数和标准差分别代入公式(12)和公式(13)计算得到三种金属污染物的分布参数如表4所示。
表4 2000年吉林省粮食类食品中重金属污染物含量分布参数 参数 铅 -2.718285 0.359954 砷 -3.290633 1.052024 镉 -5.051457 0.446287 ? ?2
用matlab画出三个分布函数的图形,如图5所示。
图5 2000年吉林省粮食类食品中重金属污染物铅、镉、砷含量分布
14