????如(5.2.2)式。那么基于历史经验数据,计算伽玛分布参数?和?的估计值的过程相当简
单。所以在索赔次数数据具有异质性时,?的结构函数通常取为伽玛分布。这时,由(5.2.2)和(5.2.3)式,索赔次数等于k的边际概率等于
P?X?k?k????0k!e??????1????ed? ???????k??????????????k!???1???1?????1??,k?0,1,2,? (5.2.5) ??k这是负二项分布,是索赔次数X的混合分布。令
??k????????pk??????k!???1????1?????1??,k?0,1,2,? ??k则pk有递推迭代计算公式:pk?pk?1??k?1????k???1???,k?0,1,2,?,即
?p0??????1?????p1?p0????1???p2?p1?1????2???1?? (5.2.6) ?p?p?2????3???1??2?3???在风险异质,?的结构函数取为伽玛分布时,观察数据来自于Poisson分布的混合,即负二项分布。负二项分布(见(5.2.5)式)的均值和方差为
负二项分布 均值 方差 ?? ???1??表5.2.3
?2??????2 根据统计矩估计的理论,负二项分布的均值和方差分别用样本均值x和样本方差s来估计。所以伽玛分布的参数?和?的矩估计是下述方程组的解:
2?????x ?22????????s故?和?的矩估计分别为
???x2s2?x?? (5.2.7) ?2??xs?x???????由表5.2.1所列的数据,已经算得x?0.3176,s?0.4913。则由(5.2.7)式算得,?和?的矩估计分别为0.5807和1.8284。由于?的估计0.5807?1,则由图5.2.1可以看到,我国某家保险公司1996年的机动车险的投保人,风险状况越好的越多,越差的越少。
若用负二项分布进行拟合,则由(5.2.5)式,在35,072辆投保机动车中索赔次数为k的拟合频数为
2??k?0.5807??1.8284??1?35,072????, k?0,1,2,?
??0.5807?k!?2.8284??2.8284?使用递推迭代计算公式(见(5.2.6)式),求得负二项分布的拟合频数。实际观测频数和单个Poisson分布、两个Poisson分布的混合和负二项分布的拟合频数见下表: 索赔次数 观察频数 0 1 2 3 4 5 6 7 8 9 27,141 5,789 1,443 457 155 56 27 2 1 1 0 35,072 25,528.69 8,107.91 1,287.54 136.31 10.82 0.69 0.04 0 0 0 0 35,072 车辆数 拟合频数 单个Poisson分布 两个Poisson分布的混合 27,120.34 5,838.70 1,366.37 501.74 177.12 51.81 12.68 2.66 0.49 0.08 0.01 35,072 负二项分布 27,223.0 5,589.2 1,561.8 475.0 150.3 48.7 16.0 5.3 1.8 0.6 0.3 35,072 ?k?10 总数 两个Poisson分布混合时的拟合情况与负二项分布的拟合情况相差不大,他们都比单个Poisson分布拟合好。就尾部概率的估计来说,负二项分布的拟合比较稳妥。就这个意义而言,两个Poisson分布混合时的拟合情况不如负二项分布的拟合情况。
例5.2.2某保险公司12,299辆投保机动车辆车身险的保单按年龄(<25岁和25岁+)以及车辆类型(家用轿车和高性能车)分成四组。每一组和总的索赔次数的统计结果见下表:
年龄 车辆类型 索 赔 次 数 0 1 2 3 4+ 合计 5,019 738 65 4 0 5,826 25+ 1,068 182 27 4 0 1,281 2,907 592 66 5 0 3,570 车辆数 < 25 1,232 334 50 6 0 1,622 合计 10,226 1,846 208 19 0 12,299 家用轿车 高性能车 家用轿车 高性能车 首先检验,要不要分组。若不分组,将这些保单放在一起。样本均值x和样本方差s2分别为0.188552和0.196093。总的保单数n?12,299。在??0.10,0.05,0.01时,(5.2.4)式都是成立的。所以我们认为将这些保单放在一起,数据具有异质性。
接下来分别计算各个组的样本均值和样本方差,结果如下:
年龄 车辆类型 样本均值x 样本方差s 225+ 家用轿车 0.151047 0.154665 高性能车 0.193599 0.217008 家用轿车 0.207003 0.209531 < 25 高性能车 0.278668 0.284860 这四组的样本均值相差比较大,由此也可以看到分组的必要性。每一组的样本方差都比样本均值大,而第2组(25岁和25岁以上驾驶高性能车的投保人)的样本方差比样本均值大得多,其余三组的样本方差比样本均值大得不多。下面分别验证各个组的样本方差是否比样本均值显着地大。关于x1?2nU1??的计算结果如下:
年龄 车辆类型 样本容量n 5,826 25+ 1,281 0.203391 0.206144 0.211423 0.217008 3,570 0.213274 0.215038 0,218419 0.209531 < 25 1,622 0.291932 0.294716 0.301468 0.284860 家用轿车 高性能车 家用轿车 高性能车 ??x1?2nU1??的值 ????0.10 ??0.05 ??0.01 0.154629 0.155637 0.157568 0.154665 样本方差s 2将x1?2nU1??的值和样本方差s相比较,我们认为第2组的风险非同质,而其余三组的风险同质。
下面我们构造一个伽玛分布作为第2组的结构函数。将第2组的样本均值x?0.193599和样本方差s?0.217008代入(5.2.7)式,从而求得伽玛分布的参数?和?的矩估计值。他
2??2??1.601和???8.270。由于?的估计1.601?1,则由图5.2.1可以看到,这家保们分别为?险公式投保机动车辆车身险的25岁和25岁以上驾驶高性能车的投保人,风险状况居中的多。在实际操作时,我们可以将25岁和25岁以上驾驶高性能车的投保人,按他们的性别、每年行驶的里程数、或使用年数等再细分成若干组,使得各组内风险同质。
§5.3 Buhlmann方法
5.3.1 贝叶斯保费
设随机变量X表示某一险种的实际损失。X可以代表该险种的索赔次数,索赔频率或赔款额。X的风险非同质,其风险的大小用风险参数?来度量。在?给定后,X的条件概率密度为f?x|??。?的结构函数(先验概率密度)为????。
假设我们有同样风险的前期历史经验数据x1,?,xn。信度理论的目的是基于x1,?,xn预测下一期保费Xn?1,Xn?1和x1,?,xn有相同的风险。基于贝叶斯统计推断的理论,最精确信度理论(great accuracy credibility theory)在平方损失函数下,取Xn?1的条件数学期望为下一期保费Xn?1的预测。称这个保费为贝叶斯保费(Bayes premium)。
nf?x|??,从而得X,?,X和?的联合密在?给定后,X1,?,Xn的条件密度为?ii1n?1nf?x|??????。故nf?x|??????d?是X,?,X的边际密度为?if?x1,?,xn????ii1ni?1?1????n?1f?x|??????d?是X,?,X,X度。同理,f?x1,?,xn,xn?1????i1nn?1的边际密度。i?1??因而在X1,?,Xn给定为x1,?,xn的条件下,Xn?1的条件密度为
f?xn?1|x1,?,xn??所以Xn?1的贝叶斯保费的计算公式为
f?x1,?,xn,xn?1?
f?x1,?,xn?P?E?Xn?1|x1,?,xn???xn?1f?xn?1|x1,?,xn?
xf?x,?,xn,xn?1?dxn?1??n?11
f?x1,?,xn??1xn?1??in??1f?xi|??????d?dxn?1 (5.3.1) ?n??i?1f?xi|??????d???????必须指出的是,上述积分有时应理解为求和。
在?给定后,X的条件期望记为????,
?????E?X|????xf?x|??dx
在信度理论中,????称为假设均值(hypothesis mean),又称风险保费(risk premium)。????是风险参数为?的保单的理想保费。它是体现风险特征的保费,但它通常是未知的。可以证明贝叶斯保费等于????的条件数学期望。
定理5.3.1 在?给定后,假设X1,?,Xn,Xn?1独立同分布,是来自于总体X的样本,X的密度为f?x|??。假设?的先验密度为????。令?????E[X|?]。那么在X1,?,Xn给定的值为x1,?,xn后,Xn?1的贝叶斯保费
P?E?Xn?1|x1,?,xn??E?????|x1,?,xn?
nf?x|??????,证明 由于X1,?,Xn和?的联合密度为?i故X1,?,Xn给定为的值i?1??x1,?,xn后,?的条件密度为
f??|x1,?,xn所以
??in?1f?xi|??????? ??f?x1,?,xn??????in?1f?xi|??????d?? E?????|x1,?,xn??f?x1,?,xn?由于Xn?1是来自于X的样本,故?????E[Xn?1|?]??xn?1f?xn?1|??dxn?1。从而
???xn?1f?xn?1|??dxn?1??in?1f?xi|??????d??? E?????|x1,?,xn??f?x1,?,xn??1xn?1??in??1f?xi|??????d?dxn?1 ?f?x1,?,xn???????由(5.3.1)式,定理得到证明。
由(5.3.1)式可以看到,为了计算贝叶斯保费,必须知道条件密度f?x|??和结构函数
????。而在实际问题中,它们往往是未知的,甚至不知道它们的参数表达形式。基于历史