图像较为符合正态分布的概率密度图像。 进行标准正态化, 首先求得??E(X)? ??1NNi?1?xi?457.6479
22E(X)?E(X)?89.4219
D(X)?于是得到标准化公式:
X?N(?,?)?Z?N(0,1)
z?x??
?今年江苏省重点线为560分,实际上对应的是49843人 进行标准化,对应为z=1.1446查表易得?(1.1446)?0.8749 对应人数分别为(江苏省今年考生人数为407933)
N(1??(1.1446))?407933?(1?0.8749)?51032
可见通过标准化可以很好地由分数计算得到名次。
但是在考试结束后三天内,学生是无法得到整个省份学生的分数段分布的,同样我们现在分析往年数据也很难得到分数段分布的数据。所以必须找到一个进行粗略标准化的方法。而进行标准化最重要的是两个参数,即期望?和标准差?
对于进行数据分析,比较容易得到的数据是省重点线xkey和该省最高分xmax。由于划重点线对应的是重点院校的招生比例,大体上比较稳定。以江苏为例,基本上是总人数的22%,大体上比?高出1.2?,而根据3?法则,状元的分数比?高3?,实际上由于有最高分数的约束,不会达到,所以设置为2.8?。
于是,??''xmax?xkey1.6
? ??xkey?1.2所以得到粗略的标准化公式:
' z?x??'x?(xkey?1.?2?xmaxmax?xkey1.6?'?xkeyx)?x?xkeyxmax?xkey?1.6?1. 21.6由于我们所关心的仅仅是不同x标准化后的大小,所以略去常数1.2,并且为观察方便我们将区间平移并放大到以500为中心的区域,即修改标准化公式为:
z?'x?xkeyxmax?xkey???500?500
设置的参数??
xmax?xkey?,表示该省上重点线的难度。因为每个省最高分大体上
6
是相差不多的,对于北京、上海等省市重点线相对较低,?则较大,而对于山东、河北等省市则?较小。
考查几组得到分数分布的考生情况,验证了标准化公式的正确性,同时确定了各省市的?值: 省市 ?
进行标准化的最大好处是去处了某省某年由于考题难易造成的分数线的波动,从而可以进行某校在某地区各年录取情况的横向比较。
对各学校分数线进行标准化后,得到统计数据,以河北省为例: 河北北京 1.6 天津 1.6 河北 1.3 山东 1.3 江苏 1.6 安徽 1.5 湖南 1.5 陕西 1.5 ?= 2004年 2003年 2002年 2001年 2000年 1999年 省 1.3 2005 招生计划 西交 南大 复旦 南开 天大 华师 河海 北邮 安大 燕大 山科 西建 南航
141 819.8 100 639.2 1669 515.4 120 422.6 50 530.9 293 794.0 20 546.4 63 639.2 106 809.5 105 623.8 20 716.6 12 938.4 处理后 最低分 处理后 最低分 处理后 最低分 处理后 最低分 处理后 最低分 处理后 最低分 614 724.4 632 778.5 675 770.8 571 585 764.0 855.4 623 641 605 750.6 801.6 975.8 602 614 513.2 853.7 546 623 547 917.5 620 583 672.65 655 517.68 634 650 778.5 647 643.1 599 677.9 617 577.3 585 550 559 533 799.6 550.7 647.2 535.5 630 581 600 578 771.8 848.3 703.9 607 625 591 599 840.4 652 724.4 617 530.9 593 534.8 575 476.7 571 521 522 507 738.6 657.4 535.5 525.3 618 602 578 576 571 848.3 712.4 627.4 457.5 625 743.19 593 573 533 598 789.4 607 596 534.8 522 500 110 675.3 624 650.8 552 500 571 746.40 601 668.0 581 585.4 564 7
北科 华电 202 701.1 329 644.4 629 627.6 618 577.3 546 698.04 533 616.79 610 708.16 594 716.66 592 594 606.1 632.6 567 573 628.1 573 对录取平均分也进行如此处理,对各省数据依次进行如下处理
1. 分布假设检验。
由于排除难易程度造成的波动,标准化后的成绩大体上符合正态分布。使用Jarque-Bera检验可以看出,百分之九十五以上的数据均符合正态分布。 2. 均值方差分析
对于填报学校最重要的指标就是分数线的均值和标准差了,特别是标准差表明了该学校录取成绩的随机变化程度,显得更加重要。对大量数据进行处理,发现不同学校在不同省市的标准差与该校的招生人数、以及均值有一些规律性的联系。 以河北省为例:
学校 招生人数 录取线均值 录取线标准差 平均分均值 平均分标准差 西安交大 南京大学 复旦大学 南开大学 天津大学 华东师范 河海大学 北京邮电 安徽大学 燕山大学 山东科大 西安建大 南京航空 北京科技 华北电力 105 666.67 20 787.12 12 798.83 106 801.6 293 737.41 20 611.41 63 611.68 141 777.32 100 636.44 1669 540.71 120 454.59 0 526.44 110 637.69 202 673.73 329 636.01 97.035 62.163 179.25 24.713 114.59 73.407 44.768 49.92 58.932 43.579 41.426 13.044 84.886 44.67 45.732 826.59 888.35 912.27 867.38 815.8 712.89 678.09 864.58 594.47 593.71 475.51 0 740.03 769.87 688.01 25.93 29.004 80.942 31.706 42.324 29.153 48.267 37.007 77.242 43.886 102.15 0 46.798 35.038 45.799
经过分析可以发现有以下几点规律:
(1)平均分比录取线有更好的稳定性。这一方面是正态分布固有的特点,同时也说明每个学校每年的整体生源情况并不像录取分数线所显示的那样大。所以对于追求该校好的专业的同学更应该关注平均分数的变化。
(2)分数越高分数波动越大,分数较低时招生人数多少不太影响分数的波动。这是由于低分数的学校由于有录取分数线的限制,其波动有一个下限。
(3)分数较高的学校,如果招生少,则变化剧烈。特别明显的是复旦大学,其各省录取情况如下: 省市 北京 复旦/该省招生人数 50/98745 904.07 57.557 987.52 18.008 录取线均值 录取线方差 平均分均值 平均分方差 8
天津 河北 山东 江苏 安徽 湖南 陕西 10/73846 770.69 249.09 179.25 153.16 173.63 152.45 119.91 169.17 1000.6 912.27 873.37 959.97 913.37 813.51 887.63 125.47 80.942 116.82 92.45 63.522 155.07 174.32 12/483000 41/731000 94/470504 48/417000 31/349000 798.83 754.95 843.99 754.32 781.37 23/339406 779.32 在招生人数相对总考生人数较少的河北、湖南、陕西等地,无论是录取线还是平均分,复旦大学的招生情况都变化剧烈。 3. 录取分数线预测
录取决定于:f?q是否成立。
但考后,学生仅能知道F’与Q’做为F和Q的估计。F和Q相当于仍然是随机变量,考生被录取也是一个随机事件,其成立的概率为P(F?Q)。为给填报志愿提供依据,我们必须根据以往数据预测P(f?q)。
我们将考生的真实分数的录取分数线的波动都视为正态随机变量,并以其预测值为均值,即f?N(F,?'2f)、q?N(Q,?q),那么
q?0?)P(x? 0'2 P(f?q)?P(f?显然X?N(F?Q,?''2f??q)
2 其中Q’采用标准化后的录取分数平均值,?q也使用前面得到的分数标准差。
于是F’也需进行标准化,由于当时成绩尚未统计出,所以本次考试的均值和标准差均无法得到,此时需要用其他方法进行估计。可以根据本学校同学的估分与以往成绩的差别得到对本次考试的预估。若本校未统计,可根据自己感觉难易程度类似的某次诊断性考试的统计结果得到预估值。
得到预估的考试均值?和标准差?进行F’的标准化。注意此时估分的偏差标准差
''?f应是标准化以后的f’的标准差。应先在估分的之外,在估计一个最高最低分,分别
''标准化之后得到fmax与fmin,然后由3?法则,用两者之差的六分之一做为?''f。当然,
9
如果不是很极端的去估计分数,一般用五分之一、四分之一即可,即?'f?fmax?fmin4''。
得到以上数据后,即可以将X化为标准正态函数,通过查表,得到P(x>0)。 (二)基于模糊判决的院校选择:
对于院校的选择,我们用模糊层次分析法:
指标A 个人影响B1 他人影响B2 学校、社会B3 兴趣 C1 专业难易 C2 家长 C3 老师 C4 声誉 C5 专业 C6 位置 C7 图2 高考志愿模型层次图
说明:
决策层A:通过对个人因素的分析,考虑到各方面的社会因素,再广泛地征询家长、教师、
朋友同学等最后作出填报或不填报某一学校(或专业)的决策。 因素层B:B1 个人因素(包括子因素层:C1、C2);B2:他人因素(包括自因素层C3、
C4);B3 社会因素(包括子因素层C5、C6、C7)。 子因素层C:C1:个人兴趣、爱好;C2:该(院校)专业容易学;C3:家长的影响;C4:老师的影响;C5:学校的声誉(办学条件、知名度);C6:专业对口、工作岗位收入高、社会地位高、工作舒适;C7:该学校处于大中城市,校园环境幽雅。 模糊多级综合评判的数学描述
我们利用模糊综合评判法对选报高考志愿进行二级综合评判。所谓模糊综合评判是指运用模糊数学中模糊统计的方法,通过影响某事物各个因素的综合考虑,对其做出科学的评判。
知识库 精确值模糊值模糊值模糊化决策逻辑 去模糊化精确值 图3 模糊推理示意图
模糊推理单元 10