全国第四届研究生数学建模竞赛
题号 A 摘 要:
本文建立由膳食模型、污染物分布模型、风险评估模型组成的中国膳食暴露评估数学模型。首先,参考全国总膳食研究设计合理抽样方案,采用三日称重法加询问法加记录法的调查方法,并根据污染物分布模型对食物进行合理分类,设计调查表,建立基于多元回归的全国膳食模型。其次,综合考虑污染物排放数据、日常食物和进出口监测数据及各自权重,建立基于对数正态分布的污染物分布模型来计算各类食物中各污染物的含量,并用已有的调查数据对模型参数进行估计和验证。然后,利用前两个模型的输出结果,建立基于支持向量机方法的风险评估模型,对全国、某个地区、某类食品的安全状况做出评价并给出预警,而且采用Monte Carlo方法,给出居民某项污染物摄入量的99.999%的右分位点。最后,针对符合性检验只能获得部分样本数据,前两个模型的数据可能不匹配,不同统计分类标准的转化以及利用省市监测数据估计全国情况等问题,提出一些建议和解决方法。
题 目 中国膳食暴露评估数学模型及模型改进的若干方法
参赛密码 (由组委会填写) 参赛队号 1021313 参赛学校 哈尔滨工业大学
参赛队员姓名 祝园园 桑俊俊 李国华
目录
1 2
模型假设和符号说明 人群食物摄入量模型 2.1 2.2 2.3 2.4 3
2 2
抽样方法的设计 ............................................................................................. 3 称重+记录+回顾的膳食调查方法 ................................................................ 4 抽样调查中食物分类办法 ............................................................................. 6 人群食品摄入量模型的建立 ......................................................................... 7
8
污染物分布模型 3.1 3.2 3.3 3.4 3.5
问题分析 ......................................................................................................... 8 模型假设 ....................................................................................................... 10 模型建立 ....................................................................................................... 10 参数的估计 ................................................................................................... 12 对部分数据的建模结果 ............................................................................... 13
15
风险评估概论 ............................................................................................... 15 模型的建立和求解 ....................................................................................... 16 模型分析 ....................................................................................................... 20 模型改进 ....................................................................................................... 20 对右分位点的估计 ....................................................................................... 21
21
4 风险评估模型的建立 4.1 4.2 4.3 4.4 4.5
5 改进模型的若干理论研究 5.1 5.2 5.3 5.4
污染物分布模型的修正 ............................................................................... 21 不配套的抽样调查数据的衔接方法 ........................................................... 22 调查数据中不同统计分类标准不同的转化 ............................................... 22 部分省市与全国的概率密度函数关系 ....................................................... 23
23
6 结论及后续工作
1
1 模型假设和符号说明
1) 假设全国总膳食调查数据大部分真实可信,失真数据比重极少,可以忽略。 2) 假设全国膳食调查数据能够真实反映全国平均膳食分布情况。
3) 假设全国膳食调查数据异常数据比例很少,可以剔除。例如某些具有特殊体
质的人具有与平常人差异很大的饮食数据。 4) 假设食品卫生检测部门日常对市场上食物的监测数据是真实可信的。 5) 假设食品的生产、销售、流通过程对食品中污染物的分布没有影响。 6) 假设在人群食品摄入模型中的调查对象和污染物分布模型中被调查食品的
消费者是在同一个城市,且他们所从事的职业的性质比较接近。这样由于两个模型中的数据不匹配造成的误差较小。 7) 假设在人群食品摄入模型和污染物分布模型中被调查对象的男女比例与该
地区或该省的男女比例非常接近。
X:满足一定概率分布的随机变量
?2:对数正态分布的对数方差
?:对数正态分布的对数平均值
?2:对数正态分布的对数方差的估计 ??:对数正态分布的对数平均值估计 ?ai:不同来源食品污染物含量分布的加权值
2 人群食物摄入量模型
人群食物摄入量模型的主要目的是用于估计不同地区、不同性别、不同年龄、不同季节、不同劳动强度、不同经济收入的人群各类食品的一天摄入量。 要建立人群食物摄入量模型,需获得我国总膳食数据。我国总膳食数据应该由调查人员入户调查获得。但是,由于这项调查工作量太大,如果实行普查,其工作量甚至超过全国人口普查,故而只可能在全国几亿户家庭中随机抽取几千户,至多几万户进行一次性调查。另外,中国居民消费的食品种类比其他国家居民消费的食品种类复杂得多,包括:主食、肉类、蔬菜、水果、水、饮料、各种调味剂和各种经过加工的食品,而主食又将包括大米、粳米、糯米、早釉、晚釉、米粉、面粉、馒头、花卷、挂面、面条、方便面、油条、烧饼、大饼、面包、桃酥、蛋糕、小米、玉米面、玉米棒等各种食品。不难看出,如果以此细分,食物将达数千种以上,在实际调查过程中进行如此详细地分类,其调查工作量太大,
2
而如果随意粗糙进行分类,则将影响调查的精度。
因此,如何根据我们国家的实际情况和污染物分布模型数据,设计合理的抽样调查方案和食物分类办法,使调查结果能尽量反映全国的实际情况,调查结果的数据使用起来效果比较理想,同时使调查的全部工作量在可以承受的范围内,是我们首要解决的问题。
2.1 抽样方法的设计
我国是一个拥有13亿人口,3.74亿个家庭的发展中国家。显然,对我国的总膳食调查采用普查的方法是不可行的。故而只可能在全国几亿户家庭中随机抽取几千户,至多几万户进行一次性调查(本模型中设为3万户)。参考我们国家已经完成的1990年、1992年和2000年三次中国总膳食研究,以及刚启动2007年第四次中国总膳食研究中采用的抽样调查方案,综合考虑我国的实际情况及各个省市的自身特点我们设计如下的抽样方案:
首先,在全国选择4个大区,共12个有代表性的省市。其中,黑龙江、辽宁、河北为北方一区,河南、陕西、宁夏为北方二区,上海、福建、江西为南方一区,湖北、四川、广西为南方二区,如图1所示。
图1 全国总膳食调查抽样方案
然后在每个省市分别选择有代表性的两个农村点和一个城市点,全国共36个调查点。选点的总原则是要使所选的点能代表本省人民的饮食习惯、营养状况和实际膳食结构。本次调查要求所选的三个点所得的综合结果能代表该省的平均膳食组成。那么每个调查点的需调查多少户呢?各省的调查户数相等吗?我们该怎样分配这3万调查用户呢?
3
一种比较直观而粗糙的分配方法是平均分配法,即把3万户数平均分配到各省,那么每个省市需要调查3万/12=2500户。每个调查点需要调查2500/3=833.3 即 833户。而从各省市人群食品摄入量估算全国人群食品摄入量是应根据各省市人口占12省总人口的比重不同,加上不同的全值,如公式(1)所示:
全国人群食品摄入量??(省市人群食品摄入量*人口比重) (2)
另种改进的方法是比重分配法,即按各省人口占12省总人口的比重,来分配每个省的调查任务。根据截止到2006年9月的全国人口普查数据而知[1],上述十二省的人口数据总和为57406万[1]。表2为各省的调查用户数分配表。其中每个省市的调查用户数=人口比重*3万。
表2 各省市调查户数 省份 人口数量 人口比重 调查用户数 省份 人口数量 人口比重 调查用户数 辽宁 4203万 0.0732 2196 河南 9613万 0.1675 5024 黑龙江 3813万 0.0664 1993 四川 8673万 0.1511 4532 陕西 3674万 0.0640 1920 河北 6735万 0.1173 3520 福建 3466万 0.0604 1811 湖北 5988万 0.1043 3129 上海 1625万 0.0283 849 广西 4822万 0.0840 2520 宁夏 572万 0.0100 299 江西 4222万 0.0735 2206 在比重分配法中,全国人群食品摄入量=∑省市人群食品摄入量。在本次调查中,我们采用比重分配法。
2.2 称重+记录+回顾的膳食调查方法
目前,常采用的膳食调查方法有称量(重)法 、记账法、 24小时回顾法(询问法)、 化学分析法、食物频率法(食物频数法)等。而实际调查时多采用多种方法的组合。每种方法都有其特殊的优点和不足,有时两种或多种方法相互结合能提供更准确的结果。例如,2 天的食物记录结合应用食物频率表可以提供不同组别合理的绝对平均摄入量,包括个体内与个体间的变异、根据摄入量低或高对高危人群进行分类。当然,这样结合运用,对于一些小规模研究而言耗费太高,但在一些大规模多中心或全国性调查中常常采用。多种方法组合应用,需要应答者与现场工作人员付出更多的时间和精力。
结合各方法的特点和全国总膳食研究常用的调查方法,我们采用三日称重法加三日询问法加记录法,对家庭所有成员进行膳食调查。调查的内容包括调查对
4