到中间层的权记为jk w 。如果ij w ,jk w 均已给定,那么,对应于任何一组确定的输入
( , ) 1 2
I s I s ,网络中所有单元的取值不难确定。事实上,对样品s而言,隐单元j的输入
是
Σ
=
2 k 1 s jk k s j
=
h w I (5)
相应的输出状态是
Σ
2 1
=
= =
( ) ( )
k s jk k s j sj
H
?
h
?
w I
(
6)
由此,输出单元i 所接收到的迭加信号是
-234-
ΣΣΣ
= = =
= =
3 1 3 1 2
1
( )
j j k s ij jk k sj ij s i
h w H w ?w I (7)
网络的最终输出是
( ) ( ) ( ( ))
3 1 2 1 3 1
ΣΣΣ
= = =
= = =
j k s ij jk k j sj ij s i s i
O ?h ?w H ?w ?w I (8)
这里,没有考虑阈值,正如前面已经说明的那样,这一点是无关紧要的。还应指出的是, 对于任何一组确定的输入,输出是所有权{ , } ij jk w w 的函数。
如果我们能够选定一组适当的权值{ , } ij jk w w ,使得对应于学习样本中任何一组Af 样品的输入( , ) 1 2
I s I s ,输出( , ) (1,0) 1 2 Os Os = ,对应于Apf 的输入数据,输出为(0,1),
那么蠓虫分类问题实际上就解决了。因为,对于任何一个未知类别的样品,只要将其触 角及翅膀长度输入网络,视其输出模式靠近(1,0)亦或(0,1),就可能判断其归属。当然, 有可能出现介于中间无法判断的情况。现在的问题是,如何找到一组适当的权值,实现 上面所设想的网络功能。 2.3 向后传播算法
对于一个多层网络,如何求得一组恰当的权值,使网络具有特定的功能,在很长一 段时间内,曾经是使研究工作者感到困难的一个问题,直到1985 年,美国加州大学的 一个研究小组提出了所谓向后传播算法(Back-Propagation),使问题有了重大进展,这
一算法也是促成人工神经网络研究迅猛发展的一个原因。下面就来介绍这一算法。 如前所述,我们希望对应于学习样本中Af 样品的输出是(1,0),对应于Apf 的输出 是(0,1),这样的输出称之为理想输出。实际上要精确地作到这一点是不可能的,只能 希望实际输出尽可能地接近理想输出。为清楚起见,把对应于样品s 的理想输出记为
{ s}
i T ,那么 = Σ?
i s s i s i ,
E W T O
( )2 2
( ) 1 (9)
度量了在一组给定的权下,实际输出与理想输出的差异,由此,寻找一组恰当的权的问 题,自然地归结为求适当W 的值,使E(W)达到极小的问题。将式(8)代入(9),有
ΣΣΣ
= =
= ?
s i j k s ij jk k s i , 2 3 1 2 1
E W T w w I
[ ( ( ))] 2
( ) 1 ??(10)
易知,对每一个变量ij w 或ij w 而言,这是一个连续可微的非线性函数,为了求得其极 小点与极小值,最为方便的就是使用最速下降法。最速下降法是一种迭代算法,为求出
E(W)的(局部)极小,它从一个任取的初始点0 W 出发,计算在0 W 点的负梯度方向 —( ) 0 ?E W ,这是函数在该点下降最快的方向;只要( ) 0 0 ?E W ≠,就可沿该方向
移动
一小段距离,达到一个新的点( ) 1 0 0 W =W ?η?E W ,η是一个参数,只要η足够小,
定能保证( ) ( ) 1 0 E W 对于隐单元到输出单元的权ij w 而言,最速下降法给出的每一步的修正量是 -235- = Σ? = Σ ? ? Δ = ? s s sj s i sj s i s i s i ij T O h H H w ij w ηE η[ ]?'( ) ηδ(11) 此处令 ' ( )[ s ] i s i s i s i δ=?h T ?O (12) 对输入单元到隐单元的权jk w = Σ? ? ? Δ = ? s i sj sj ij s i s i s i jk T O h w h I w w E jk , ηη[ ]?'( ) ?'( ) = Σ= Σ s s k s j s i s k sj ij s i , ηδw ?h I ηδI ' ( ) (13) 此处 = Σ i s ij i sj s j δ?'(h ) w δ 从(11)和(13)式可以看出,所有权的修正量都有如下形式,即