基于凸集投影原理的函数链神经网络及其学习问题的研究

来源：尚车旅游网

　第19卷第3期(总第45期)　　　中国铁道科学

1998年9月　

基于凸集投影原理的函数链神经网络

及其学习问题的研究3

周尚明　贾利民　张锡第

(铁道部科学研究院)

　　摘　要:利用凸集投影理论深入研究了函数链神经网络(FLNN)的学习问题,给出了相应的学习算法,并对算法的松弛形式进行了详尽的分析。由于采用了投影技术,网络的学习速度要比∆规则快得多,本文最后给出的仿真结果验证了该算法的稳定性和有效性。　　关键词:凸集投影　斜投影矩阵　函数链神经网络　三元异或问题

1　前　　言

[1]

　　函数链神经网络(FLNN)是由Yoh2HanPao提出的,其中心思想是对原来的输入模式进行扩展增强,在更高维空间中描述该模式,将增强后的模式作为神经网络的输入,这样在没有加入任何新的“特定”信息条件下,就增强了模式的表达,从而使原来在低维空间中不

可分的模式在增强的空间里获得可分性。原则上只要使用FLNN总可用单层网络实现监督学习,也就是说无需增加隐含层,就可实现隐含层网络的功能,因此这种网络不仅结构简单,而且可简化学习算法。

对FLNN不同要求会产生不同的具体效果,一般可分为两种模型:函数展开模型和张量(或称处积)模型。从某种意义上,后者仅是前者的一个特例。在函数展开模型中,函数型连接单独作用在每个结点上,对于输入模式中的每个结点,它可产生相同的附加函数,如图1所示,也就是说函数型连接作用于输入矢量的每个分量,从而产生f1(Ok),f2(Ok),…,fn(Ok)。一旦一个结点被激励,就会有许多附加函数功能也被激励,即在没有引入新的信息情况下使网络明显得到了联合激励,使信息得到了扩展和增强。本文利用凸集投影(ProjectionontoConvexSets)方法研究FLNN,给出了相应的训练算法,由于采用了投影技术,网络的学习

速度要比∆规则快得多。

　3本文得到国家博士后科学基金资助

　收稿日期:1998207215　周尚明　副研究员　中国遥感卫星地面站100086　北京

第3期　　　　　　　　　　　基于凸集投影原理的函数链神经网络及其学习问题的研究11

图1　FLNN的函数展开模型

2　FLNN训练算法的推导及其分析

211　凸集投影理论(POCS)

凸集投影理论已在图像处理等领域得到了广泛应用[3,4,5]。所谓凸集是指一个n维空间H

)x+Α中的向量集合C,如果对Πx,y∈C,则对0≤Α≤1有(1-Αy∈C。

假设有m个凸集C1,C2,…,Cm,且　　　　C0=∩Ci≠󰂡

i=1m

(1)

记Pi为Ci的投影算子,即向凸集Ci进行投影的算子,T=PmPm-1…P1,那么对Πx∈H,Xn=Tnx,则xn将渐近收敛于C0中的一点。212　网络的训练算法=

()()()

我们不妨讨论单输出结点网络,设有m个模式对(xp,yp),p=1,…,m,其中xp(x1(p),…,xN(p))T,连接权矢量为W=(W1,…,WN)T,Η为阈值。网络输出为y:

　　　　y=f

∑W

i=1

xi-Η=f

anet

(net)

1(1)(2)

(2)

其中,f(net)=1󰃗(1+e-(1)(2)

(1)(2)

),那么net=

(1)(2)

y1-y

=z,因此对m个模式对有:

x1W1+x2W2+…+xNWW

=z=z

……

(m)

x1W1+x2W2+…+xNx1W1+x2W2+…+xN

(m)

(3)

(m)

其中,　　　　z

(i)

1Α

y(i)

(i)

1-y

(4)

12中　国　铁　道　科　学　　　　　　　　　　　　　　　第19卷

记Cj(j=1,…,m)为:

(5)　　　　Cj=W󰃜WTx(j)=z(j)

即Cj为N维空间中的超平面,则Cj的投影算子Pj为:

(j)T(j)

W　　　　　　　　　　　若Wx=z^

(j)T(j)(6)　　　　W=PjWz-Wx(j)

W+x　　　否则()

‖xj‖2

()()()()

　　对矢量W,给定初始值W0,W的学习按以下次序进行:将W0向C1投影得W1,W1

()()()

向C2投影得W2,…,Wm-1向Cm投影得Wm,这完成了一次循坏,然后再进行第二次循环,(m)(m+1)()()(km)

,…,依次循环得到一模式列W0,Wm,…,…,由POCS理W向C1投影得WW论知序列{W

(km)(0)

}最终收敛于交集∩Ci内的点。

(1)(m)T

初值W的选取很重要,若记X=为M×N矩阵,x,…,x

()(1)(m)T

为m维矢量,则取W0=XTZ,,从而得到基于POCS规则的学习算法Z=z,…,z

为:

()

11权的初始化,W0=XTZ。

(k)(k-1)()()()

21,k=1,2,3,…,得序列W0,Wm,W2m…。W=Pmod(k,m+1)W

((i+1)m)()

31若‖-Wim‖<Ε,则停止,否则转向步骤2。W

其中mod(k,m+1)表示k除以m+1所得的余数,Ε为一小正数。若将上述算法展开可得如下算法:

()

11权的初始化,W0=XTZ。

21W

(k)

k-1

z(ik)

-Wx

(im)

(k-1)T

x(ik)

(ik)T

(ik)

-W‖<Ε,则停止,否则转向步骤2。其中ik=mod(k,m+1)。

31若‖W213　训练算法分析

((i+1)m)

由前面的推导可知,基于POCS的学习算法将会收敛于∩Ci内的点,即方程组(3)的解,

i=1

下面我们进一步分析研究权序列{W}会收敛到一个什么样解,以便为改进算法提供指导。通过实验仿真我们发现该算法在早期和中期收敛速度很快,但在后期随着误差

i+1m

‖-WW

(6)式变为:

(km)

(())(im)

‖越来越小,其下降伴随着某种震荡,为此我们给出算法的松驰方法,即

(j)

(j)T(j)　　　　W=z-Wx(j)

　　　　　　　　　　　　　　　　　　　否则W+Κ(j)2x

‖x‖

于是前面算法中步骤2变为

W　　　　　　　　　　　　若Wx=z

(j)

(7)

(k)

‖x‖

其中Κ称之为松弛参数,其几何意义是明显的:

()

=1表示Wk-1向超平面Cik的投影;Κ

<1表示松弛不足,它在垂直方向上产生接近于WΚ

(k-1)

+Κ

z(j)

-W(k-1)T(ik)

x(ik)

(ik)

在Cik上投影的估计,该估计不在

第3期　　　　　　　　　　　基于凸集投影原理的函数链神经网络及其学习问题的研究13

超平面上,它与Wk-1均在Cik的同侧;

>1表示松驰过度,它在垂直方向上越过了超平面所产生的一个估计。Κ

(i)(i)

(x(i))Tzx(i)(i)

记d=x,7i=I-Κ

‖x(i)‖2‖x(i)‖2

其中I为单位矩阵,i=1,…,m。那么

(m)(m-1)(m)

　　　　+ΚW=7mWd

()(m-1)(m)

)+Κ=7m(7m-1Wm-2+Κdd

=7m7m-1W=…=7m7m-171W

～

(0)(m-2)

()

+Κ7md

(m-1)

+Κd

(1)

(m)

+Κ7m7m-172d

()

+Κ7m7m-1…73d

(m)

(2)

m-1

+…+Κ7md+Κd

(m)

(8)

记T=7m7m-1…71,Β=Κ7m…72d1+…+Κd,那么W

()

～

=TW

(0)

+Β,即将W

((k+1)m)

(0)

经过一次循

～

(km)

环得到Wm,再循环一次得W2m,…,循环k次得W为方便起见,记Wk=W(km),则有

～

()()(km)

,…,从而有W=TW+Β,(9)

　　　　Wk+1=TWk+Β

而Wk是(3)的一个近似解,可令Wk=HkZ,其中Hk是某N×M矩阵。

记ei=[0,…,0,1(第i个位置),0,…,0]T为N维单位矢量,矩阵为:

xe1xe2　　　　D=Κ+…7m7m-1…727m…73(1)(2)+Κ‖x‖‖x(2)‖2

(m-1)(m)TTxem-1xem+Κ+Κ7m(())

‖xm-1‖2‖xm‖2

(1)

(2)

则

　　　　DX=Β而

　　　　DX=Κ7m…72

+…+Κ+Κ7m)

‖x(1)‖2‖x(m-1‖2‖x(m)‖2

=7m…72(I-71)+…+7m(I-7m-1)+I-7m=I-7m72…71

～

(10)

x(1)

x(1)T

x(m-1)

x(m-1)T

x(m)

x(m)T

=I-T

于是将(8),(10),(11)代入(9)式得

(11)

(12)　　　　Hk+1=Hk+D(I-XHk)　　(k=0,1,…)

　　　　H0=D注意到

(1)(2)(m)

　　　　D=Κ7m…72[x,0…,0]+Κ7m…73[0,x,0…,0]+…+Κ[0,…,x]若XT是列满秩的,则存在斜投影矩阵E1,…,Em,使得EiXT=[0,…0,x(i),0,…,)],所以存在矩阵B:

　　　　B=Κ7m…72E1+…+ΚEm使得

　　　　H0=D=BXT

14中　国　铁　道　科　学　　　　　　　　　　　　　　　第19卷

从而有

　　　　H0XX+=BXXT=BXT=D=H0

其中X+是X的Moore—Penrose广义逆,所以(12)式可变为　　　　Hk+1=Hk+H0(XX+-XHk)记Rk=XX+-XHk那么

　　　　Rk=XX+-X(Hk-1+H0Rk-1)

=XX+-XHk-1-XH0Rk-1

=Rk-1-XH0Rk-1

而(XX+)Rk-1=Rk-1,所以　　　　Rk=XX+Rk-1-XH0Rk-1

=(XX+-XH0)Rk-1

=R0Rk-=…=R0k+1

所以

　　　　Hk+1=Hk+H0Rk

=Hk+H0R0k+1

=Hk-1+H0R0k+H0R0k+1=…

=H0(I+R0+…+R0k+1)

若Ro的谱Θ(R0)<1,则矩阵序列{Hk}收敛于某个矩阵Q0,由于Θ(R0)<1,则有,limRk=0,

k→∞所以

　　　　limXHk=XX+

k→∞

(13)

即XQ=XX+,Q是X的{1,3}—逆,满足　　　　XQX=X,(XQ)H=XQ

所以QZ是(3)式的最小二乘解,即Wk收敛于(3)式的最小二乘解。注意到由于Q不一定满足QXQ=Q及(QH)H=QX,故而Wk不一定收敛于(3)式的最小范数解,这是由于初始权W0的选取引起的。

3　仿真实例

　　这里我们以典型的线性不可分问题——三元异或问题为例,对基于POCS规则的函数链网络学习和基于∆规则的函数链网络学习效果进行比较。

三元异或问题如表1所示。单层感知机不能解决该问题,但对模式进行增强后,用如图2和图3所示的FLNN结构就可对原模式进行正确划分。表1即为分别用POCS规则和∆规则学习的结果,表2为这两种算法学完后的权矢量。由表1可见这两种算法均能正确地学习异或问题中的模式,但POCS规则的学习结果更好一些,这可从表2二者权的对比中得到说明。

第3期　　　　　　　　　　　基于凸集投影原理的函数链神经网络及其学习问题的研究15

图2　函数链神经网络　　　　　　　图3　异或问题的FLNN结构

表1　两种学习算法的实际输出值

输入模式

-1-1-1-11111

-1-111-1-111

-11-11-11-11

期望输出

019011011019011019019011

POCS规则学习

∆规则学习后的实际输出

01990001100100011001000199000110010001990001990001100100

后的实际输出

0190000001100000011000000190000001100000019000000190000001100000

表2　由两种学习算法所得到的权矢量

POCS规则

01000000100000

-01000008-0100000301000000

01000000

010000060100000

0100000401000000

01000006-10198613201000000-101980573

∆规则

　　由表2可见,在增强后的模式中起主要作用的是外积分量x1x2x3。的确,如果只用一次外积增强,单层网络和∆规则是不能解决问题的[1]。但在连续使用了两次外积后,∆规则学习算法将外积x1x2x3的主要作用学习出来了,而将其它的增强分量否定了,POCS规则算法则将所有增强模式分量的作用都学出来了,它利用的信息更全面,因而最终学习的模式结果就更好。若记1　　　　E=

∑

p=1

(p)

λ(p)-y

(14)

16中　国　铁　道　科　学　　　　　　　　　　　　　　　第19卷

λ(p)为系统期望输出,y(p)为实际输出。而记表示∆规则学习的误差式函数,其中y

((i+1)m)()

(15)　　　　-Wim‖2WE=‖W

为POCS规则学习的误差函数,其中i为循环次数。则WE和E的曲线分别见图4和图5,基于POCS规则的FLNN学习要比基于∆规则的FLNN学习快得多,并且对于复杂的数据模式这种差别会更突出,这里我们就不再缀述了。

图4　POCS规则学习的误差曲线　　　　　　　图5　∆规则学习的误差曲线

4　总结与讨论

　　函数链神经网络自Yoh2HanPao提出以来,虽然拥有很好的发展空间,而且也有一些具体应用,但总体上讲并未获得应有的关注,这主要因为这种网络结构无论是函数展开模型还是张量模型,在输入模式扩展增强后网络结点都会呈几何级数增加,如果没有快速高效的训练算法,很难获得实际应用。

凸集投影理论已在图像恢复、信号处理等领域获得成功应用,本章受此启发给出了基于凸集投影规则函数链神经网络学习的快速算法,使得其广泛应用成为可能。结构新颖的函数链神经网络伴以简捷高效的训练算法可以解决与函数展开相关的一大类信息处理问题,譬如涉及富里叶变换的信号处理问题等。

参

考

文

献

　1　包约翰(美)著,马颂德译.自适应模式识别与神经网络.科学出版社,1992

　2　BradyM&HornBKP.RotationallySymmetricOperatorsforSurfaceInterpolation.ComputerVi2

sion,Graphics&ImageProcessings,1983;22(5):70294

　3　YoulaDC&WebbH.ImageRestorationbytheMethodsofConvexProjections:Part1-Theory.IEEE

Trans,1982:NI,1(2)

　4　.MammoneRI&RothackerRJ.GeneralIterationMethodofRestorationLinearlyDegradedImages

J1Opt,Soc1Am,1987:4(1)

　5　BehrensRT&ScharfLL.SignalProcessingApplicationsofObliqueProjectionOperators.

Trans1SignalProcessing,1994:42(6)

IEEE

第3期　　　　　　　　　　　基于凸集投影原理的函数链神经网络及其学习问题的研究17

　6　Ben2IsraelA&GrevilleTNE1GeneralizedInvereses:TheoryandApplications.JohnWiley&Sons,

Inc1NewYork,1974

　7　周尚明等.现代工业生产过程的智能控制与智能自动化.计算机世界,1997(17)(技术专题)　8　周尚明.基于神经网络的动态模式识别及其应用于生产智能自动化.北京科技大学博士学位论文,1995　9　ZhouSMetal.DynamicNeuralNetworkandImageSequencesWithApplicationtoBuildingtheModel

.CWCICIforComplexProductionsA’97,July,1997

　10　ZhouSMetal.ANewMethodofDynamicPatternRecognitionBasedNeuralNetwork,CACUK’96,

England,1996

　11　ZhouSM1UseofM2PInversefortheError-CorrectingBAMandLearning.IEEEIJCNN’92,NOV

StudiesonFunction-Link-Neural-NetworkBasedon

thePrincipleofProjectiononConvexSets

ZhouShangming,JiaLimin,ZhangXidi

(ChinaAcademyofRailwaySciences)

Abstract:Inthispaper,theproblemoflearningaboutfunction2link2neural2network(FLNN)isstudieddeeplyusingtheprincipleofprojectiononconvexsets(POCS),andthecorrespondingtrainingalgorithmisproposed1Atthesametime,therelaxationformofthealgorithmisfurtheranalysedindetail1

TheFLNNistrainedfasterbasedonthealgorithmusingprojectiontechnologythanus2ing∆rule1Finally,thesimulationresultshaveverifiedthestabilityandvalidityofthealgo2rithm1

Keywords:POCS,　Obliqueprojectionmatrix,　FLNN,　XORproblem

(责任编辑　江文斌)

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文