这里
s1j?s2j???smjs充当第j个子集的权,并且等于子集(即A值为aj)中的样本个
数除以S中的样本总数
根据上面给出的期望信息计算公式,对于给定的子集Sj,其期望信息由下式计算: Is1j,s2j?smj?????pi?1mijlog2pij,
其中pij?sijsj是Sj中样本属于类Ci的概率。
由期望信息和熵可以得到对应的信息增益。对于在A上分支将获得的信息增益可以由下面的公式得到:
Gain?A??I?s1,s2?sm??E?A?。
5.2 因子选取:
ID3计算每个属性的信息增益,并选取具有最高增益的属性作为测试属性。由上式可以看出,熵值越小时,其信息增益越大,表明相应的信息量越有效。在此我们借用ID3算法计算出每个属性关于房价的信息增益,而为了测试准确,我们选取半数以上信息增益较大的属性作为测试属性,即为影响A的属性。
5.3 实例应用
利用下述公式将原始数据(见表一数据)化为0,1两数值(计算结果见表二)
?1??bij???0??aij?aij?a1j?a2j???amjma1j?a2j???amjmi?1,2?m;j?1,2?n
(运用MATLAB程序,计算程序见附录1)
这样方便统计计算其影响房价的因子由房价划分时每个因子的熵,进而求出信息增益,判断出影响房价的主要因子。
- 5 -
表二
城市编号 1 2 3 4 5 6 7 8 9 10 11 12 13 竣工面积 0 0 0 0 1 1 0 0 0 0 0 0 0 人口增长率 0 0 1 0 0 0 0 1 0 0 1 1 1 工薪收入 1 1 0 1 0 1 0 0 0 0 0 0 1 储蓄余额 1 1 0 1 0 1 0 0 0 0 0 0 0 造价 1 1 0 1 1 1 0 0 0 0 0 0 0 人均每年住房支出 1 1 0 1 1 1 0 0 0 0 1 0 1 开发商投资 1 0 1 1 1 1 0 0 1 0 0 0 0 房价 1 1 0 1 0 1 0 0 0 0 0 0 0 最终是根据房价来求其他因子的信息增益,所以统计房价中0,1的样本数为:s1=1有4个样本,s2=0有9个样本。
为了计算各因子的信息增益,我们先给定房价所需的信息期望: I?s1,s2??I?4,9???4499log2?log2?0.8905 13131313接下来计算每个属性的的熵,我们从竣工面积开始。观察竣工面积的每个样本值的分布,
对于竣工面积=1,有1个房价=1,1个房价=0;对于竣工面积=0,有3个房价=1,有8个房价=0(见表三)。所以s11?1,s21?1;s12?3,s22?8
竣工面积=1 竣工面积=0
房价=1 1 3 表三 房价=0 1 8 1111log2?log2?1 22223388?log2?0.8454 I?s12,s22???log211111111则I?s11,s21???因此该属性对应的熵为: E竣工面积?信息增益为:
Gain竣工面积?I?s1,s2??E竣工面积?0.0451
- 6 -
??211I?s11,s21??I?s12,s22??0.8691 1313????
同理可得:
各个属性等于1或等于0时,房价等于1和房价等于0时的样本数如表四所示: 人口增长率=1 人口增长率=0 工薪收入=1 工薪收入=0 储蓄余额=1 储蓄余额=0
造价=1 造价=0
年人均住房支出=1 年人均住房支出=0 开发商投资=1 开发商投资=0 同理,计算各个属性的信息增益为:
Gain人口增长率?I?s1,s2??E人口增长率?0.2850 Gain工薪收入?I?s1,s2??E工薪收入?0.6128 Gain储蓄余额?I?s1,s2??E储蓄余额?0.8905 Gain造价?I?s1,s2??E造价?0.6128
Gain年人均住房支出?I?s1,s2??E年人均住房支出?0.3600 Gain开发商投资?I?s1,s2??E开发商投资?0.1104
由以上数据比较可得:
Gain(储蓄余额)>Gain(工薪收入)=Gain(造价)>Gain(年人均住房支出)>Gain(人口增长率)>Gain(开发商投资)>Gain(竣工面积)
因此,选择其半数以上的属性作为预测属性,即为影响房价的因子为储蓄余额、工薪收入、造价以及年人均住房支出。
- 7 -
房价=1 0 4 房价=1 4 0 房价=1 4 0 房价=1 4 0 房价=1 4 0 房价=1 3 1 表四 房价=0 5 4 房价=0 1 8 房价=0 0 9 房价=0 1 8 房价=0 3 6 房价=0 3 6 ????????????????????????
5.4 主要因素和商品房平均销售价的关系图
通过表一依次做出主要因素和商品房平均销售价的关系图(利用MATLAB软件,关系图画法程序参见附录2):
图1
图2
- 8 -
图3
图4
由商品房平均销售价分别与工薪收入、城乡人均储蓄余额、造价、人均全年住房支出的关系图可以看出,商品房平均销售价和工薪收入、城乡人均储蓄余额、造价、人均全年住房支出存在着相依的关系。
- 9 -