判别函数为:
y(x)?sign[??iyiK(xi,xj)?b] (33)
xi?SV其中阈值为
b?1NNSVxi?NSV?[yi?xj?SV??jyjK(xi,xj)] (34)
这样对于训练样本集为线性和非线性的情况已经将模型讨论出来了,判别函数出来后就可以对测试样本数据分类,以测试样本数据中那些分到好的一类的样本数目与测试样本总数目的比例k来评价食品的安全性,这里采用模糊集合理论将食品的风险程度模糊化,风险程度可以分为无风险(0.9~1)、低风险(0.75~0.9)、中风险(0.5~0.75)、中高风险(0.25~0.5)、高风险(0~0.25),即当k的值属于0.9~1,则视为该食品为无风险,当k的值属于0~0.25,则视为该食品处于高风险状态。对中风险及以上就可以给出预警。
4.3 模型分析
模型本质上是一个非负的二次优化问题,在理论上可以得到全局最优的解析解。支持向量机的重要特征之一就是解的稀疏性,即多数最优值?i为0,只有少量的?i不为0,也就是说只需少量样本就可以构成最优分类器。另外,模型具有很好的推广能力。
但是 ,这个模型还存在一些缺点。
支持向量机方法所需要的学习样本不一定一次获得,而很可能是分批获得(一个月或几个月组织食品安全领域专家进行综合评价一次),所以需要研究支持向量机的增量学习方法,即在加入新的学习样本时,训练样本集不是原训练样本集简单地加上新样本,而是在原来学习的基础上重新选择样本集,由此重新构成的样本集大小要大大低于所有样本集,学习速度会明显加快
在支持向量机方法中,当各类别的样本数有较大区别时,样本数量大所对应的类别,其对应的错误分类率小,而对样本数量少对应的类别其对应的错误分类率大,这样对测试样本分类时其结果总是偏向于样本数量多的类别,这现象称之为支持向量机方法的倾向性问题。
4.4 模型改进
由支持向量机方法可知,支持向量一定是位于训练集最边缘的点,因此,在研究支持向量机增量学习算法中可以用几何理论先找出训练样本集边缘的样本,当新增训练样本时,与旧的训练样本集构成新的样本集,在新的样本集中重新计
20
算边缘样本。
可以考虑采用加权支持向量机方法解决各类样本数不均衡导致的倾向性问题,产生倾向性问题的原因是各个类别具有相等的惩罚系数,可以考虑给各个类别设置不同的权重来提高类别的分辨精度。
4.5 对右分位点的估计
简单地看,每人每天某种污染物的摄入量等于此人每天摄入的含该种污染物的食物中该污染物含量的总和。考虑最简单的确定情况,某人某天就吃了一种食物A,该食物的摄入量为mA,该食物中污染物B的含量是一个确定的值?,则此人这一天摄入的污染物B的量为??mA。在风险评估模型中,食物的摄入量和该食物中污染物的含量不再是一个确定的值,而是随机变量。并且食物的种类不再是单一的一种,而是好多种按照一定比例分布的食物。因此在建立风险评估时需要综合考虑这些因素。
先考虑一种食物的情形,该食物的摄入量和该食物中污染物的分布都是随机变量,假设分别为X和Y,则显然该污染物的摄入量的随机变量Z?X?Y。由于在前面已经给出了满足一定分布的食物摄入量模型和污染物分布模型,我们可以通过计算机对膳食模型和污染物模型分别进行模拟,然后将食物摄入量分布和污染物含量分布进行整合就可以得到污染物摄入量的分布曲线。最常用的整合方法就是蒙特卡罗法((Monte Carlo models)。虽然蒙特卡罗分析技术被用于物理、化学和其他领域已经50多年了,但在1989 年之前很少应用于食品安全风险评定方面。在1989 年之后概率模型法才逐渐被应用于进行环境污染物和有害微生物的接触风险评定。通过蒙特卡罗模拟实验,我们得出通过每人每天通过某种食物摄入的污染物的含量的分布情况。然后,我们把每天摄入的不同食物中该污染物的含量相加就可以得出每人每天摄入了多少该种污染物,从而对该人的食品安全风险进行评估。
Monte Carlo模拟的结果也是一个随机变量Z的分布,我们可以对Monte Carlo方法模拟出来的样本点进行统计,从而近似地求出居民某项污染物摄入量的99.999%的右分位点。
5 改进模型的若干理论研究
5.1 污染物分布模型的修正
由于监测时间方面的要求和经费的限制,在日常检测时往往采用比较快捷的检测方法,即符合性检验,其缺点是当检测项目的检测结果是安全时就不再精确测量污染物具体的含量了,而笼统地用“未检出”作为检测结果。作为污染物分布模型的输入而言,如果“未检出”全部当成零来计算就一定会产生比较大的误
21
差,因此一定要改进。设检出和未检出的污染物含量分界值为检出下界,检出的样本占总检验样本的比重为检出率,主要考虑以下几种改进思路。
1)从大约占数据总量2%的偶然抽查数据获得小于等于检出下界的部分样本数据,其对应的频数乘以50就可近似得到随机变量取值小于等于某一数值的部分样本数据,再上尚已有的随机变量取值大于某一数值的部分样本数据。就可以得到这个随即变量的整体分布。
2)对未检出的数据以检出下界的1/2填充,那么污染物含量的均值计算就可以修正为:
均值=大于检出下界的污染物均值×检出率+检出下界×1/2×(1-检出率) 3)在理想情况下,我们已经求得污染物分布模型为对数正态分布。如果 X 是正态分布的随机变量,则 exp(X) 为对数分布;同样,如果 Y 是对数正态分布,则 log(Y) 为正态分布。 污染物分布模型为分布,则可对其做什么处理,转化为正态分布。根据正态分布的对称性,可以估算出缺失的那部分值,然后再换回来,就可以得到比较精确的方法
4)期望值最大化方法(Expectation maximization,EM):EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法。在每一迭代循环过程中交替执行两个步骤:E步,在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望;M步,用极大化对数似然函数以确定参数的值,并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛,即两次迭代之间的参数变化小于一个预先给定的阈值时结束。 也可以把上述各个改进方法综合考虑,取这几种改进模型的均值,结果将会更精确。
5.2 不配套的抽样调查数据的衔接方法
人群膳食量摄入模型和污染物分布模型的输入都是抽样率很低的随机抽样的数据,而且这两批数据是不配套的,即人群食品摄入量模型中的调查对象极大可能不是污染物分布模型中被调查食品的消费者,如何让这两批数据衔接起来呢?
一种可以认为两批抽样调查是完全独立进行的,那么这两批数据都可以认为是互相独立的,我们可以对于膳食调查中有而污染物含量分布中没有的食品种类应该不予考虑,因为无法获得污染物在其中的含量。
5.3 调查数据中不同统计分类标准不同的转化
人群膳食量摄入模型和污染物分布模型的数据分类也很可能不配套,人群食品摄入量模型中的食品很可能远多于污染物分布模型中被调查食品或者两者的分类不完全一致(历史数据无法按现在的要求进行修改)。
22
可以把调查数据看成是从一些随机变量总体的并集中抽样得到的数据,并设法用它们来估计另一些随机变量(与前者部分相同,部分不同)总体的并集的概率分布函数。
5.4 部分省市与全国的概率密度函数关系
除了题目中提示的可以把调查数据看成是从若干个比较相近的总体的并集中有一定选择性地抽样所获得的数据,并用来估计这若干个有比较大共性的总体的并的概率分布函数。我们还可以按照全国不同地区的气候、饮食习惯、食物分布等等进行聚类,将全国分成若干个大区,每个区中选取有代表性的城市的检测数据来反映整个区域的情况,这样建立其全国的分布模型。另外,在对每个区进行调查时,按照人口百分比进行调查。
6 结论及后续工作
本文设计的参考全国总膳食研究以及全国居民营养与健康状况调查,设计合理抽样方案,采用三日称重法加询问法加记录法的调查方法,并根据污染物分布模型对食物进行合理分类,设计调查表,建立基于多元回归的全国膳食模型;在污染物含量分布模型的建立中,合理地考虑到了食品的进出口对分布的影响,进行了大胆的假设,建立了合理的基于对数正态分布加权的污染物分布模型。在给出对模型参数进行估计的理想化方法的同时,考虑到历史数据的限制,给出了实用的近似估计方法。最后使用已有的调查数据对模型的参数进行了估计和检验,符合实际情况。然后,利用前两个模型的输出结果,建立基于支持向量机方法的风险评估模型,对全国、某个地区、某类食品的安全状况做出评价并给出预警,而且采用Monte Carlo方法,给出居民某项污染物摄入量的99.999%的右分位点。
23
参考文献
[1]. 2006中国各省人口排名. http://www.hpooo.com/dispost.asp?BoardID=200&PostID=209. [2]. 高仁君, 陈隆智, 张文吉.农药残留急性膳食风险评估研究进展[J].食品科学,2007,28(2):
363-368. [3]. PSD. Unit to unit variation of pesticide residues in fruit and vegetables, [R]. The Advisory
Committee on Pesticides Report, HMSO, UK, 1997. [4]. 陈天金, 魏益民, 潘家荣.食品中铅对人体危害的风险评估[J].中国食物与营养,2007(2):
15-18. [5]. 吴其平.分组与删矢数据下对数正态分布的最大似然估计[J].福州大学学报:自然科学版,
2002,30(4):422-425. [6]. 王蓉华, 徐晓岭.对数正态分布参数的近似极大似然估计[J].上海师范大学学报:自然科学
版,2000,29(1):39-43. [7]. 王静. 分组数据情形下对数正态分布参数的最大似然估计[J]. 应用数学学报:2003,26
(4). [8]. Wikipedia. 对数正态分布. http://zh.wikipedia.org/wiki/对数正态分布. [9]. 李海波,房毅等. 2000年~2001年吉林省部分食品污染物调查分析.
24