南京大学学报(自然科学版)
JOURNALOFNANJINGUNIVERSITY(NATURALSCIENCE)
Vol.55,No.4July,2019
DOI:10.13232/j.cnki.jnju.2019.04.013
基于模糊区分矩阵的结直肠癌基因选择
李
藤1,杨
4
田2,,代建华2,陈
鸰3*
(1.中南林业科技大学物流与交通学院,长沙,410004;
2.湖南师范大学智能计算与语言信息处理湖南省重点实验室,长沙,410081;3.中南大学湘雅医院,长沙,410008;4.国防科技大学系统工程学院,长沙,410073)
摘
要:由于低分化肿瘤很难通过常规组织病理学诊断发现,而结合基因检测的手段可以准确筛选出针对特定肿瘤的致病基因,因此基因选择是进行肿瘤分类和临床治疗的关键问题.肿瘤基因表达数据具有样本小、维度高的特征,现有的基因选择算法在分类精度和计算效率上还有待提高.在模糊粗糙集理论的基础上进行区分矩阵模糊化,并依此设计了模糊区分矩阵属性约简算法.相比于经典的区分矩阵,模糊化的区分矩阵能够体现不同属性对于两个对象区分程度的差异,从而选择区分程度更高的属性而获得更好的分类效果.数值实验表明该方法提高了肿瘤基因数据的分类精度,且降低了计算耗时.实验采用kNN分类器进行结直肠癌(ColonMicroarray)分类特征基因选择实验,从2000个特征基因中筛选出了五个结直肠癌发病相关的关键基因,且分类精度高达88.06%.关键词:模糊粗糙集,粗糙集,模糊区分矩阵,基因选择中图分类号:TP311
文献标识码:A
Coloncharacteristicgeneselectionbasedonfuzzydiscernibilitymatrix
LiTeng1,YangTian2,4,DaiJianhua2,ChenLing3*
(1.CollegeofLogisticsandTransportation,CentralSouthUniversityofForestryandTechnology,Changsha,410004,China;2.HunanProvincialScienceandTechnologyProjectFoundation,HunanNormalUniversity,Changsha,410081,China;3.XiangyaHospitalofCentralSouthUniversity,Changsha,410008,China;4.CollegeofSystemsEngineering,UniversityofDefenseScienceandTechnology,Changsha,410073,China)Abstract:Sincepoorlydifferentiatedtumorsaredifficulttobediagnosedbyconventionalhistopathology,throughgeneselectioncanaccuratescreendisease⁃causinggenesforspecifictumors,thereforegeneselectionhasbecomeakeyissueintumorclassificationandclinicaltreatment.Tumorgeneexpressiondatausuallycontainsthousandsofgenesbutasmallnumberofsamples.Onthebasisoffuzzyroughsettheory,theconceptofdiscernibilitymatrixfuzzificationisproposedinthispaper.Comparedwiththeclassicaldiscernibilitymatrix,thefuzzydiscernibilitymatrixcanreflectthedifferenceinthedegreeofthetwoobjectsdistinguishedbydifferentattributes,sothattheattributeswithhigherdegreeofdistinctioncanbeselectedforbetterclassificationeffect.Numericalexperimentsshowthatthismethodimprovestheclassificationaccuracyoftumorgenedataandreducesthecomputationtime.Inthisstudy,kNNclassifierwasusedfor
基金项目:中国博士后科学基金(2017T100795),湖南省自然科学基金(2017JJ2408),湖南省重点研发计划(2018SK2129)收稿日期:2019-05-28
*通讯联系人,E⁃mail:50766131@qq.com
·634·南京大学学报(自然科学版)第55卷
thegeneselectionofColoncancer(ColonMicroarray),fivekeygenesrelatedtoColoncancerwerescreenedfrom2000featuregenesandtheclassificationaccuracywasashighas88.06%.
Keywords:fuzzyroughsets,roughsets,fuzzydiscernibilitymatrix,geneselection
肿瘤是一种系统生物学疾病,严重威胁人类的生命健康,其发病机制尚不完全清楚.临床诊疗晚期肿瘤疗效欠佳,早期诊断和治疗是当前提高预后最直接、最有效的方法.目前结肠癌的诊断主要依靠光镜下形态学和免疫组织化学,但光镜下结肠高分化腺癌与正常组织或低级别瘤变区别不大,可能造成漏诊,而低分化腺癌有时与间叶组织来源肿瘤难以区分,需增加免疫组化检查.免疫组化依靠特定来源的蛋白表达水平确定来源,但因技术原因,时间较长.此外,单次组织学切片无法获知“交界性肿瘤”恶变过程的潜在遗传异常,无法预估病变发展的生物学过程,因此基因检测成为癌症治疗中的关键诊疗方式.研究表明,基因表达谱中与特定肿瘤疾病密切相关的特征基因数量非常有限,筛选出与特定肿瘤相关的基因是进行肿瘤分类研究和实现药物靶向治疗的关键所在.
近些年发展的生物芯片技术可以同时测定不同样本中成千上万的基因表达水平,为研究基因表达谱与肿瘤疾病分类之间的关系提供了数据基础.然而基因数据的获取难度大且成本高,导致基因数据存在样本小、维度高、噪声大且冗余基因多等显著特征,给基于基因表达谱的肿瘤分类问题带来了巨大的挑战[1],同时极大地激发了许多学者对基于基因表达的肿瘤分类研究的兴趣,成为目前的研究热点之一[2-8].
现有的基因选择方法有很多,这些方法大致上可以分为三类:过滤法、封装法和嵌入法[9].过滤法一般作为一种独立于分类器的预处理方法,其中基于粗糙集的基因选择方法就是一种典型的过滤法,即根据某些标准分析相关基因的特征从而对这些基因进行排序,进而计算每个基因的信息增益.通常这些评价标准包括:相关系数、距离度量、信息增益和一致性[4].Golubetal[10]最早提出信噪比函数来评价
基因的优缺点和肿瘤分子分型的差异;Zhangetal[11]基于ReliefF(ReliefFamilyofalgo⁃
rithms)[12]
和MRMR(Minimal⁃Redundancy⁃Maximal⁃Relevance)[13]算法设计了新的基因选
择算法;Chenetal[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyonetal[14]代表性地提出了基因选择的递归特征消除算法(ARecursiveFeatureEliminationalgorithmforgeneselection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(PenalizedSupportVectorMachine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子theLeastAbsoluteShrinkageandSelection
Operato,LASSO)[16]和平滑剪切绝对偏差惩罚
theSmoothlyClippedAbsoluteDeviationpen⁃
alty,SCAD)[17].而采用SCAD惩罚的PSVM
模型的效果取决于恰当的调节参数[5].
基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18-21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据
((第4期李藤等:基于模糊区分矩阵的结直肠癌基因选择
·635·
进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,DuboisandPrade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.JensenandShen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Huetal[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chenetal[26]和Tsangetal[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Daietal[28]利用模糊相似关系从样本对的角度进行特征提取.Wangetal[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点.
模糊依赖度方法空间复杂度低,鲁棒性强,缺点为:(1)Wangetal[29]指出经典模糊依赖度法只保留最大依赖函数而不能保持样本在它自身的决策类中隶属度最大,可能出现错误分类.其模糊决策类的定义是基于所有特征的模糊邻域产生的,这意味着需要通过计算所有模糊邻域来生成模糊决策类,增加了计算成本.2)Wangetal[29]对依赖度模型进行了修改,计算效率有所提高,但模糊决策类的生成没有得到改进,且设置的参数多,计算成本依然很高.
区分矩阵在分类表现上存在一定优势,缺点为:(1)针对样本规模的计算复杂度高,尤其是空间复杂度比较高,对计算机内存要求高.
(2)经典区分矩阵从区分的角度考虑属性的重要度,只要对象对在该属性下的差异超过给定的阈值,则该属性相对于这个对象对的评分为1,否则评分为0.但是不同属性对于对象对存在区分程度的差异,经典区分矩阵忽略了这种差异,只要满足区分条件,即使是两个区分程度差异非常大的属性也会在特征选择过程中不加区分地给予同样的评估值,这样会导致那些区分效果更好的属性无法被优先选择.对区分矩阵进行模糊化处理则可以体现属性区分程度差异的量化,因此选择出的属性是区分程度最大的,大大提高了分类精度.尤其对于肿瘤基因数据,如果区分效果更好的基因被漏选,势必会影响基因研究的方向和肿瘤治疗方案的选择.
由于基因数据的样本个数少,所以针对基因数据基于区分矩阵算法的实际内存占用和计算量都不高,甚至比其他算法更低.本文构造了模糊化的区分矩阵以解决上述问题,首先提出模糊区分度的概念,并针对基因表达谱自身的特点提出一种新的基于模糊区分矩阵的特征提取算法.数值实验表明该方法能快速处理基因数据,并明显提高肿瘤分类的精度.
1
预备知识
1.1
模糊粗糙集
在Pawlak粗糙集理论中,
等价关系是一个非常重要的概念.但是在模糊粗糙集中,通常用模糊相似关系来代替等价关
系.U上的模糊二元关系R
也称之为模糊T⁃相似关系,如果满足自反性、对称性和T⁃传递性.而相似划分[x]R是U上的一个模糊集合,被定义为:
[x]R(y)=R
(x,y),y∈U给定一个非空有限集U,R
是U上的一个模糊二元关系,用矩阵表示为:
ér12M(R)=êr11
ê
rr...ê21
22r2núê.........r1nù......úúërn1
rn2
...
rúnnû
其中,
rij∈[0,1]表示xi和xj之间的关系值.模糊关系矩阵具有如下性质[30]:
(·636·南京大学学报(自然科学版)第55卷
(1)R1=R2⇔R1(x,y)=R2(x,y);(2)R=R1∪R2⇔R=maxR1(x,y),R
2(x,y);(3)R=R1∩R2⇔R=minR1(x,y),R
2(x,y);(4)R1⊆R2⇔R1(x,y)≤R2(x,y).
定义1
[31]
假定X是一个模糊集合,可以
表示为:μX(x1)/x1,μX(x2)/x2,…,
μX(xn)/xn.其中μX是论域X到[0,1]的一个映射,
即:μX:X→[0,1],x↦μX其中,μX(xj)表示元素xj对模糊集合X的隶属程度.
性质1[30]给定一个信息系统S=(U,A,D),B,B1,B2⊆A,
称RB为属性子集B产生的模糊二元关系,它具有如下性质:
(1)RB=∩a∈BRa;
(2)R
B1
∪B2
=R
B1
∩RB2
.定义2[30]由模糊二元关系R
生成的模糊空间可以定义为:
U,R
=([x1]R,[x2]R,...,[xn]R)其中:
[xi1i]R=
rx1+ri2x2+...+rin
xn
是xi和R
产生的模糊等价关系.[xi]R称之为xi的模糊邻域,且rij表示xi等价于xj的程度.+”代表元素的并关系,而[xi]R的基数可以用式(1)计算:
[xi]R=
∑n
rij
j=1
(1)
DuboisandPrade
[22]
最早提出了第一种模
糊粗糙集模型,并用模糊二元关系定义了上、下逼近算子.而Huetal[24]给出了混合数据背景下模糊粗糙集的一个定义,如下所示.
定义3[25]给定U,R
为一个模糊近似空间,X是论域U上的模子R-糊子集.那么下逼近算
-X和上逼近算子RX可以分别定义为:R-X={xi|[xi]R⊆X,xi∈U}-R
X={xi|[xi]R
∩X≠∅,xi∈U}
其中,[xi]R
⊆X意为隶属度,μ[xi]R
(xi)≤μX(xi)
而[xi]R
∩X≠∅则表示:
min{μ[xi]R
(xi)≤μX(xi)}≠∅
1.2
粗糙集
定义4[32]
假设U是一个论域,R={R1,R2,
⋯,Rm是U上的一族广义模糊二元关系,那么(U,R)可以称之为一个关系信息系统,R称之
为条件属性集且存在IntR=
∩
ni=1
Ri.
定义5[32]假设(U,
R)是一个模糊关系信息系统,且有Ri∈R,如果IntR=Int(R-Ri),则称Ri在R中是不必要的,否则称Ri是必要的.对于任意子集P∈R,如果P中任意元素都是必要的且满足IntR=IntP,则P中所有必要元素的并称之为R的核,用Core(R)表示.
定义6[32]令S=(U,
R)是一个关系信息系统,U={x1,x2,...,xn},用M(U,R)来表示一个n×n的矩阵(cij),称之为(U,
R)上的区分矩阵,定义为:
cij={R∈R:xj∉R(xi),xi,xj∈U}
2基于区分矩阵模糊化的特征选
择方法
定义7[30]由模糊二元关系R
生成的模糊空间可以定义为:
U,R
=([x1]R,[x2]R,...,[xn]R)其中,
[xi1i]R=
rx1+ri2rin
x2+...+xn
是xi和R
产生的模糊等价关系.[xi]R称之为xi的模糊邻域,且rij表示xi等价于xj的程度.
本文采用Huetal[25]提出的上、下逼近算子.给定U,R为一个模糊近似空间,X是论域U上的模糊子集.那么下逼近算子X和上逼近算子--R
R
X可以分别定义为:“第4期李
RR
藤等:基于模糊区分矩阵的结直肠癌基因选择
·637·
X={xi|[xi]R--X={xi|[xi]R
⊆X,xi∈U}∩X≠∅,xi∈U}
,集合,A={a1,a2,...,am}(∀aj⊂R1≤j≤m)D={d}为决策属性集.不在同为条件属性集,
xj)之间的模糊区分一个决策类的对象对(xi,
不同于基于等价关系的区分矩阵法,本文的模糊区分矩阵法是基于模糊二元关系,需要计算论域U中所有对象的邻域[xi]R,即对于任
l∈R需要检查xj属于[xi]R的程度.Huet意R
al[33]指出采用后继邻域方法可以获得时间的线性变化,因此依据邻域计算模糊区分度得到模糊区分矩阵设计的算法,时间复杂度比较低.
接下来介绍一个新的概念用来评估特征子集的区分能力.首先需要对决策表的数据进行模糊化处理,生成一个模糊区分矩阵.
A∪D),给定决策表S=(U,其中U=A={x1,x2,...,xn}为非空有限样本集合,,{a1,a2,...,am}(∀aj⊂R1≤j≤m)为条件属
度,其计算公式可以定义为:μa(xi,xj)=
ì|a(xi)-a(xj)|-δ
ï,|a(xi)-a(xj)|>δï
δ(3)í
ïï0,|a(xi)-a(xj)|≤δî
a(xi)表属性值,δ表邻域阈值.而式其中,(3)xj)则需要表示不在同一个决策类的对象(xi,
计算其在属性a下的模糊区分度,否则μa(xi,xj)直接等于零.模糊区分度表示属性axj)之对于对象之间的区分程度,若对象对(xi,
间的距离大于δ,则模糊区分度大于零,表示两者之间存在区分差异,否则模糊区分度为零.
定义9
A,D,V,f),设决策表S=(U,其
x2,...,xn}为非空有限样本集合,中U={x1,
A={a1,a2,...,am}为条件属性集,D={d}为
性集,D={d}为决策属性集.首先需要对所有连续属性进行标准化处理,将各属性值标准到[0,1]区间.本文采用最大⁃最小归一化方法:
a(x)'=
a(x)-a(x)min
a(x)max-a(x)min
(2)
决策属性集.M=(cij)n×n为S的模糊区分矩阵:
ì(μa(xi,xj),μa(xi,xj),⋯,μa(xi,xj)),ïcij=íd(xi)≠d(xj)(4)
ï
othersî(0,0,⋯,0),
1
2
m
a(x)max表示所有对象在属性a下的最大其中,
a(x)min表示所有对象在属性a下的最小值.值,
判定各属性的区分能力常用的思路是:不在同一个决策类的对象对,当对象对xi和xj(1≤i,j≤m)之间距离大于一定的范围,才
a2,...,am}上的模糊其中,cij为定义在A={a1,cij(at)=μa(xi,xj)表示属性at在模糊集cij集,
t
说明两者之间具有区分能力.
定义8
模糊区分度给定决策表U,A⋃
x2,...,xn}为非空有限样本D,其中U={x1,
é(0,0,...,0)
êêêMn×n=êêêêêë
1
m
中的隶属度.
利用模糊区分函数进行模糊化处理,生成的模糊区分矩阵M可以表示为:
.........
(μa(x1,xn),...,μa(x1,xn))ù
ú
(μa(x2,xn),...,μa(x2,xn))úúú
ú
(μa(xi,xn),...,μa(xi,xn))úú
ú
(0,0,...,0)û
1
m
1
m
1
m
(μa(x1,x2),...,μa(x1,x2))
(0,0,...,0)
由于模糊邻域生成的二元关系有对称性,因此将模糊区分矩阵M定义为上三角矩阵.
定义10
A,D,V,f),给定决策表S=(U,
x2,...,xn}为非空有限样本集合,其中U={x1,
,A={a1,a2,...,am}(∀aj⊂R1≤j≤m)为条
D={d}为决策属性集.属性at的模件属性集,
糊区分度为:
μ(at)=Σni,j=1ci,j(at),∀at∈A
(5)
式(5)表示属性at对所有对象总的模糊区分度,其值越大表示该属性的区分能力越强.
·638·南京大学学报(自然科学版)第55卷
定义11A,D,V,f),给定决策表S=(U,
cij=(0,0,...,0)是零向量;间;初始化M=(cij)n×n,
d)≠f(xj,d)and|a(xi)-a(xj)|>δ(2)iff(xi,
|a(xi)-a(xj)|-δ
δx2,...,xn}为非空有限样本集合,其中U={x1,
A={a1,a2,...,am}为条件属性集,D={d}为
(3)μa(xi,xj)=(4)endif
决策属性集.
(1)若P⊆A为满足下列条件的极小子集,0,0,...,0),∃at∈P,对∀ci,s.t.ci,j≠(0,j(at)>0,则P为A的约简.
Step2.基于模糊区分矩阵得到属性约简输入:模糊区分矩阵M;输出:约简Red.(1)初始化Red=∅;(2)Dowhile
m
(2)Core(A)={a|μa(x,y)>0,∀b∈A-{a},μb(x,y)=0}为A的核.
下面介绍一种求最大区分度的属性约简启发式算法.
t=1
∑μ(a
0
)≠0;
(3)找到区分度最大的属性a0(即μ(a0)=max{μ(a0)|a∈A});
0,...,0);∀j>i,(4)ifcij(a0)>0则令cij=(0,Red=Red∪{a0}(5)
3算法设计
本文基于模糊区分矩阵的属性约简算法
(6)endwhile
(ReductionalgorithmbasedonFuzzyDiscern⁃ibilityMatrix,FDM),其目的是将区分能力更高的属性优先选入属性子集.该算法分为两个部分,首先根据第二部分介绍的理论对原始数据进行模糊化处理,生成模糊区分矩阵(Step1),再在模糊区分矩阵的基础上求得属性a(xi)表属性值,约简结果(Step2).其中,μa(xi,xj)表示属性a对对象(xi,xj)的模糊区分μ(at)=Σn度,i,j=1cij(at)表示属性at的模糊区
例1A,D,给定表1所示的决策表U,
x2,x3,x4}为非空有限样本集合,其中U={x1,
A={a1,a2,a3,a4,a5,a6,a7}为条件属性集,D={d}为决策属性集.令δ=0.36,经过式
(3)和式(4)的模糊化处理,可以获得表2所示的模糊区分矩阵.
表1
决策表
Decisiontablea1
a2
a3
a4
a5
a60.9
a70.36
D1213
Table1Ux1x2x3x4
分度.
Step1.生成模糊区分矩阵
A,D,输入:决策表U,邻域阈值δ,其中U={x1,x2,...,xn},A={a1,a2,...,am},D={d};
0.320.770.50.480.1
0.4
0.560.980.720.90.380.82
输出:模糊区分矩阵M.
1]区A,D的数值标准化到[0,(1)将决策表U,
0.880.420.770.620.540.790.360.6
0.670.510.7
0.3
0.220.86
表2
Table2
Ux1x2x3x4
x1
(0,0,0,0,0,0,0)
x2
模糊区分矩阵
Fuzzydiscernibilitymatrix
x3
(0,0,0,0,0,0,0)(0,0.3125,0,0,0,0.0781,0.1562)(0,0,0,0,0,0,0)
x4
(0,0,0,0,0,0.5,0.2188)(0,0,0,0,0,0,0,0)
(0,0,0,0,0,0.3281,0.2188)(0,0,0,0,0,0,0)
(0,0,0,0.0938,0,0.25,0.1562)(0,0,0,0,0,0,0)
第4期李藤等:基于模糊区分矩阵的结直肠癌基因选择
·639·
用经典的区分矩阵方法得到的区分矩阵如表3所示,矩阵每个位置上的元素是一个精确集.因此,通过析取和合取运算求得的约简为:Red={a6}或{a7}.
根据该算法求出例1的约简和核分别为:Core(A)={a6},Red={a6}.可以看出,利用模
糊区分矩阵法求得的约简跟经典区分矩阵不一样,这正是因为经典区分矩阵忽略了属性之间区分程度的差异.在例1中属性a6的区分程度比a7的区分程度更高,因此采用模糊区分矩阵法则将{a6}作为关键属性;而采用经典的区分矩阵法会同时将{a6}和{a7}都当作约简,假如在不知道这两个属性的区分程度时,{a7}被当作关键属性,得到的分类精度将会低一些.
该算法第一步需要计算的矩阵元素是n×(n-1)
,因此这一步的算法复杂度是
O(n22×m);第二步用贪心算法求约简和核,该
步骤的时间复杂度为O(min{n,m});因此整个算法的时间复杂度为O(n2×m).在实际计算中,如果两个样本属于同一个决策类则不需要针对每一个属性计算它们的区分度,因此实际的计算量远低于
n×(n-1)
2×m.
表3
经典区分矩阵
Table3
Classicialdiscernibilitymatrix
Ux1x2
x3x4x1∅
{a4,a6,a7}
∅{a6,a7}x2∅
{a2,a6,a7}
∅x3∅
{a6,a7}x4
∅
4数值实验
基于基因表达水平的肿瘤分类对肿瘤诊断
有重要意义.本文将基于模糊区分矩阵理论的属性约简算法用于肿瘤分类,并具体应用到结直肠癌肿瘤分类上.为评价该模型在连续数据集特征选择上的有效性,将模糊区分矩阵算法
(FDM)与其他几种代表性的模糊粗糙集算法进行比较,它们分别是:基于图论的覆盖决策系统属性约简算法(ReductionalgorithmofCover⁃ingDecisionsystemsbasedonGraphtheory,
CDG)[34]
、基于邻域判别指数的启发式算法
(HeuristicAlgorithmbasedonNeighborhood
DiscriminationIndex,HANDI)[35]和基于融合模
糊粗糙集的启发式算法(Heuristicalgorithm
basedonFittingfuzzyRoughSets,NFRS)[29]
.
由于分类精度对于临床诊疗至关重要,因此本文将基因子集的分类精度作为第一指标,将运行时间作为第二指标.
以上所有方法的数值实验都是在MatlabR2016a中完成,运行环境:Windows7andIntel(R)Core(TM)i5⁃6200UCPU@2.30GHz,运行内存为4.0GB.实验中使用的分类器为kNN(k=3).4.1
算法有效性测试
由于该实验主要是针
对基因数据,因此选用类似的数据集用以说明该算法在基因数据上的有效性.该实验采用的数据集均来自UCI(http://archive.ics.uci.edu/ml/datasets.html),如表4所示.
表4
数据集的描述
Table4
Descriptionofthedatasets
DatasetsSamplesFeaturesClassesHeart
270132Primary⁃tumor339172Mammographic96152Lungcancer32562Gastrointestional766983Leukemia
72
7070
2
所有的数值属性首先都需要经过标准化处理到[0,
1]区间.实验中设置的邻域参数δ表示邻域半径大小,
δ以步长0.02在0~0.5变化.通过调控邻域参数的大小,可以有效控制各属性对样本的区分能力的差异.由于不同的算法获得最佳分类精度的特征子集不同,本文所展示的分类精度都是最佳分类精度,具体实
·640·南京大学学报(自然科学版)第55卷
验结果如表5所示,表中加粗的数据表示该算法测试的对应数据集的分类精度最高,可以看出,基本上所有算法对上述六个医疗数据集进
表5
Table5
DatasetsHeart
Primary⁃tumorMammographicLungcancerGastrointestionalLeukemiaAverage
Raw80.15±7.566.45±4.8475.50±4.4283.65±21.1554.55±0.0086.63±13.3774.49
行属性约简之后,分类精度对比原始精度都有所提高,其中FDM算法略优于另外几种算法.
不同算法的分类精度(%)
Classificationaccuracyofdifferentalgorithms(%)
CDG80.86±4.3267.77±8.3776.79±3.0083.75±33.7571.82±17.2797.86±7.3879.81
NFRS81.05±5.7469.21±6.8376.69±4.5680.63±19.3771.36±15.0097.62±7.1479.43
HANDI81.11±9.0168.56±4.2177.26±3.0583.75±33.7571.76±13.2497.86±2.6280.05
FDM81.30±10.9368.12±4.7577.09±2.8785.63±35.6274.55±15.4598.10±2.8680.80
从表6的运行时间对比来看,FDM算法在六个数据集上的平均用时为5.497s(黑体字),
表6
Table6
Datasets
Heart
Primary⁃tumorMammographicLungcancerGastrointestionalLeukemiaAverage
CDG0.8111.8104.8200.1561.79427.4876.146
时间优势明显,尤其对于高维数据的处理,FDM算法是非常高效的,耗时较少.
不同算法求约简的时间(单位:s)
Runningtimeofdifferentalgorithms(unit:s)
NFRS14.85128.53349.2501.747281.0831520.600316.011
表7
HANDI6.56814.88331.2470.68676.485168.13849.668
Colon数据集的描述
DescriptionofColondataset
Gene2000
Sample62
Positive40
Normal22
FDM1.1082.0123.8380.0943.15122.7765.497
4.2基因选择实例分析基因数据集具有数
据维度高、样本数量少的特征,因此从成千上万维的基因中选择出关键基因对肿瘤的诊断至关重要.本文的分析对象是结直肠癌数据(ColonMicroarray),下载地址是http://featureselec⁃tion.asu.edu/datasets.php.关于Colon数据集的描述如表7所示.
本文从区分的角度,利用模糊区分矩阵方法设计了相应的算法,在Colon结直肠癌数据集中,从2000个基因中,筛选出了五个与结直肠癌发病相关的基因,它们分别是第235,341,
Table7TumordatasetColon
441,1423,1760个属性,这对肿瘤药物研究和临床诊疗都提供了重要的参考.Chenetal[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了基于信息熵增益的基因选择方法(TheEntropyGain⁃based
第4期李藤等:基于模糊区分矩阵的结直肠癌基因选择
·641·
GeneSelectionalgorithmforaneighborhoodgenedataset,EGGS),该方法在基因选择实验上取得了较好的分类结果.在此将本文的实验
表8
Table8
MethodEGGSFDM
Gene20002000
结果与Chenetal[4]的基因选择结果进行了比较,实验结果如表8所示.
两种基因选择方法的比较
Comparisonoftwogeneselectionmethodsδ
FeatureSelected
H55933,T58861,H61410,J05032,H06524T63591,D13315,X83412,J02854,R62438
kNN86.2588.06
0.250.24
上述实验结果表明,无论是基于信息熵还是区分矩阵提取的基因都能够保持或者提高对于肿瘤患病的分类能力,显然基于模糊区分矩阵选出的基因子集具有更高的分类精度.以后将会利用此方法继续研究湖南地区结直肠癌的基因数据.
[3]WangSL,LiXL,ZhangSW,etal.Tumor
classification
by
combining
PNN
classifier
ensemblewithneighborhoodroughsetbasedgenereduction.ComputersinBiologyandMedicine,2010,40(2):179-189.
[4]ChenYM,ZhangZJ,ZhengJZ,etal.Gene
selectionfortumorclassificationusingneighbor⁃hoodroughsetsandentropymeasures.JournalofBiomedicalInformatics,2017,67:59-68.
[5]Al⁃ThanoonNA,QasimOS,AlgamalZY.
TuningparameterestimationinSCAD⁃supportvectormachineusingfireflyalgorithmwithappli⁃cationingeneselectionandcancerclassification.ComputersinBiologyandMedicine,2018,103:262-268.
[6]徐菲菲,苗夺谦,魏莱.基于模糊粗糙集的肿瘤分
类特征基因选取.计算机科学,2009,36(3):196-参考文献
[1]叶明全,高凌云,伍长荣等.基于对称不确定性和
邻域粗糙集的肿瘤分类信息基因选择.数据采集与处理,2018,33(3):426-435.(YeMQ,GaoLY,WuCR,etal.Informativegeneselectionfortumorclassificationbasedonsymmetricuncer⁃taintyandneighborhoodroughset.JournalofDataAcquisition426-435.)
[2]DaiJH,XuQ.Attributeselectionbasedon
informationgainratioinfuzzyroughsettheorywithapplicationtotumorclassification.AppliedSoftComputing,2013,13(1):211-221.
and
Processing,2018,33(3):
200.(XuFF,MiaoDQ,WeiL.FeatureSelectionforCancerClassificationBasedonFuzzyRoughSets.ComputerScience,2009,36(3):196-200.)
[7]CaoJ,ZhangL,WangBJ,etal.Afastgene
selectionmethodformulti⁃cancerclassificationusingmultiplesupportvectordatadescription.JournalofBiomedicalInformatics,2015,53:381-389.
[8]ModelF,AdorjánP,OlekA,etal.Feature
selectionforDNAmethylationbasedcancerclassification.Bioinformatics,2001,17(S1):S157-S164.
[9]AlgamalZY,LeeMH.Penalizedlogistic
regressionwiththeadaptiveLASSOforgene
5结论
本文基于模糊邻域关系,提出模糊区分矩阵的概念,相对于经典的区分矩阵法,模糊区分矩阵法体现了不同属性区分程度的差异,并在此基础上筛选具有更强分类能力的属性,提高分类精度.实验结果表明基于模糊区分矩阵的特征选择算法具有更高的分类精度,提高了分类性能,能精准地筛选出关键基因.我们将会继续利用此方法研究湖南地区的结直肠癌基因数据.
·642·南京大学学报(自然科学版)第55卷
selectioninhigh⁃dimensionalcancerclassification.ExpertSystemswithApplications,2015,42(23):9326-9332.
[10]GolubTR,SlonimDK,TamayoP,etal.
knowledgereductionbasedonvariableprecisionroughsetmodel.InformationSciences,2004,159(3-4):255-272.
[21]QianYH,LiangJY,PedryczW,etal.Positive
Molecularclassificationofcancer:classdiscoveryandclasspredictionbygeneexpressionmonitoring.Science,1999,286(5439):531-537.
[11]ZhangY,DingC,LiT.Geneselectionalgorithm
by
combining
ReliefF
and
MRMR.BMC
Genomics,2008,9(S1):S27.
[12]Robnik⁃ŠikonjaM,KononenkoI.Theoreticaland
empirical
analysis
of
ReliefF
and
RReliefF.
MachineLearning,2003,53(1-2):23-69.
[13]PengHC,LongFH,DingC.Featureselection
basedonmutualinformationcriteriaofmax⁃depen⁃dency,max⁃relevance,andmin⁃redundancy.IEEETransactionsonPatternAnalysisandMachineIntelligence,2005,27(8):1226-1238.
[14]GuyonI,WestonJ,BarnhillS,etal.Gene
selectionforcancerclassificationusingsupportvectormachines.MachineLearning,2002,46(1-3):389-422.
[15]WangL,ZhuJ,ZouH.Hybridhuberizedsupport
vectormachinesformicroarrayclassificationandgene
selection.Bioinformatics,2008,24(3):
412-419.
[16]GhoshD,ChinnaiyanAM.Classificationand
selectionofbiomarkersingenomicdatausingLASSO.JournalofBiomedicineandBiotechno⁃logy,2005,2005(2):147-154.
[17]MylonaK,KoukouvinosC,TheodorakiEM,etal.
Variable
selection
via
nonconcave
penalized
likelihoodinhighdimensionalmedicalproblems.InternationalJournalofAppliedMathematicsandStatistics,2009,14:1-11.
[18]HerawanT,DerisMM,AbawajyJH.Aroughset
approach
for
selecting
clustering
attribute.
Knowledge⁃BasedSystems,2010,23(3):220-231.
[19]ParthalainNM,ShenQ.Exploringtheboundary
regionoftoleranceroughsetsforfeatureselection.PatternRecognition,2009,42(5):655-667.
[20]MiJS,WuWZ,ZhangWX.Approachesto
approximation:anacceleratorforattributereduc⁃tioninroughsettheory.ArtificialIntelligence,2010,174(9-10):597-618.
22]DuboisD,PradeH.Roughfuzzysetsandfuzzy
rough
sets.International
Journal
of
General
Systems,1990,17(2-3):191-209.
23]JensenR,ShenQ.Fuzzy⁃roughattributereduction
withapplicationtowebcategorization.FuzzySetsandsystems,2004,141(3):469-485.
24]HuQH,YuD,XieZX,etal.Fuzzyprobabilistic
approximation
spaces
and
their
information
measures.IEEETransactionsonFuzzySystems,2006,14(2):191-201.
25]HuQH,YuDR,XieZX.Information⁃preserving
hybriddatareductionbasedonfuzzy⁃roughtechni⁃ques.PatternRecognitionLetters,2006,27(5):414-423.
26]ChenDG,ZhangL,ZhaoSY,etal.Anovel
algorithmforfindingreductswithfuzzyroughsets.IEEETransactionsonFuzzySystems,2012,20(2):385-389.
27]TsangECC,ChenDG,DanielSY,etal.
Attributesreductionusingfuzzyroughsets.IEEETransactionsonFuzzySystems,2008,16(5):1130-1141.
28]DaiJH,HuH,WuWZ,etal.Maximal⁃
discernibility⁃pair⁃basedapproachtoattributereductioninfuzzyroughsets.IEEETransactionsonFuzzySystems,2017,26(4):2174-2187.
29]WangCZ,QiYL,ShaoMW,etal.Afitting
modelforfeatureselectionwithfuzzyroughsets.IEEETransactionsonFuzzySystems,2017,25(4):741-753.
30]QianYH,WangQ,ChengHH,etal.Fuzzy⁃
roughfeatureselectionaccelerator.FuzzySetsandSystems,2015,258:61-78.
31]胡宝清.模糊理论基础.第2版.武汉:武汉大学出
版社,2010,648.
[[[[[[[[[[第4期李藤等:基于模糊区分矩阵的结直肠癌基因选择
reduction
of
covering
decision
·643·
systems
by
[32]WangCZ,WuCX,ChenDG.Asystematic
studyonattributereductionwithroughsetsbasedongeneralbinaryrelations.InformationSciences,2008,178(9):2237-2261.
[33]HuQH,YuD,XieZX.Neighborhoodclassifiers.
ExpertSystemswithApplications,2008,34(2):866-876.
[34]ChenJK,LinYJ,LinGP,etal.Attribute
hypergraphmodel.Knowledge⁃BasedSystems,2016,118:93-104.
[35]WangCZ,HuQH,WangXZ,etal.Feature
selectionbasedonneighborhooddiscriminationindex.IEEETransactionsonNeuralNetworksandLearningSystems,2018,29(7):2986-2999.
(责任编辑杨可盛)
因篇幅问题不能全部显示,请点此查看更多更全内容