搜索
您的当前位置:首页正文

主成分分析模型在数据处理中的应用

来源:尚车旅游网
维普资讯 http://www.cqvip.com 第24卷第5期 2007年lO月 测绘科学技术学报 Journal of Zhengzhou Institute of Surveying and Mapping V01.24 No.5 0ct.2oo7 文章编号:1673—6338(2007)05-0387--04 主成分分析模型在数据处理中的应用 顾绍红 ,王永生 ,王光霞 (1.信息工程大学测绘学院,河南郑州450052;2.72946部队,山东淄博255002) 摘要:主成分分析模型是一种将原始多个指标转化为少数几个相互独立的包含原始指标绝大部分信息的综 合指标的统计学方法。利用MATLAB软件探索了利用主成分分析模型对专题数据进行处理的方法,并利用 科学可视化方法对处理结果进行分析评价。实验表明,主成分分析模型能够有效简化原始变量,挖掘原始数 据中的隐藏信息。 关键词:主成分分析模型;主成分贡献率;科学可视化;数据处理 文献标识码:A 中图分类号:P208 Application of Principal Component Analysis Model in Data Processing GU Shao.hong 一 WANG Yong—sheng ,WANG Guang—xia (1.Institute of Surveying and Mapping,Information Engineering University,Zhengzhou 450052,China; 2.72946 Troops,Zibo 255002,Chia)n Abstract:Principal Component Analysis Model was a statistical method which could turn the much more ON‘ginal inde. xes into less compositive ones containing all information.Using the MATLAB software.the paper explored the method of thematic data processing by Principal Component Analysis Model,and analyzed,evaluated the result with the scien・ tiifc visualization function of MATLAB.The experiment proved that Principal Component Analysis Model could effec— tive simplify the original variable and mine the hidden information. Key words:principal component analysis model;principal component contirbutor rate;scientiifc visualization;data processing 在作数据分析处理时,涉及的样本往往包含 析而得到的指标之间的内在结构关系,不受主观 很多测量指标,而且这些指标彼此之间往往存在 一因素的影响。原数据的信息会集中在前几个主成 定程度、甚至是相当高的相关性,这就使含在观 分之中,这几个主成分方差逐次减小。根据具体情 率),取前m个主成分,实际上是完成了一个由P 中,特征之间是互不相关的。这样通过主成分分析 测数据中的信息有一定的重叠。在运用这些指标 况以及各个主成分包含原数据信息的量(贡献 进行具体的数据分析处理时会使问题更为复杂。 数几个综合指标,这些综合指标能够反映原始指 主成分分析能够通过降维技术将多个指标化为少 维空间向m维空间的转换。在转换后的m维空间 标的绝大部分信息¨J。而且得到的综合指标(主 将存在冗余的原指标变量综合为互不相关的几个 成分)之间彼此独立,比较原指标减少了信息的交 相互独立的变量,同时这些新变量对于原变量的 叉,这使分析评价结果具有客观性和可确定性。 1主成分分析数学模型 加权系数往往具有很特别的组合,赋于这些新变 量特定的实际意义。主成分分析主要通过以下4 个步骤实现¨ 。 若统计F/,个地区的某类信息,使用P个指标变 量来描述,记原数据表X=( )…,其中n为样本 点个数,P为变量个数。原数据指标变量经过主成 1)数据标准化 当原始数据的量纲和量级存在较大差距时, 为了使主成分分析能够平等对待每一个原始变 分分析会得到多个主成分,这些主成分是原指标 量,消除可能因为单位的不同而带来的一些不合 的加权组合,权数(主成分分系数)是基于数据分 理的影响,需要对数据先进行标准化,将坐标原点 收稿日期:2007-03-09;修回日期:2007-06-27。 作者简介:顾绍红(1974一),女,江苏连云港人,工程师,硕士生,主要从事地理信息系统研究。 维普资讯 http://www.cqvip.com 测绘科学技术学报 2007焦 移到数据中心,同时进行压缩变换消除量纲影响。 图形工具箱和Matlab统计工具箱功能。主要实验 标准化的方法是将原始数据的各列减去均值后除 以各列的标准差,如式(1)表示。 = ,了数据的载入和预处理、主成分分析、图形可视化 输出3个部分。利用princomp函数由协方差矩阵 求主成分 J,返回主成分系数pc,主成分得分 scores,一个包含 协方差矩阵的特征值的矢量。 调用格式为 i:1,…,凡; =1,…,P(1) /s,i 主成分可以由标准化后矩阵的协方差矩阵、 ,相关矩阵两种求得。这里采用求协方差矩阵的方 法求主成分。 [pc,scores,variances,T2]=princomp(X) 2 实例和分析 2)求矩阵 的协方差矩阵R。 3)主成分分析将原来P个原始变量 , , ,,…, 的总方差分解成P个不相关的变量u , P 2.1 实验数据及处理 以数据china-area.mat为例进行主成分分 析。该项数据直接或间接来自2005中国统计年 鉴,是反映中国31个地区经济社会综合发展的 u , ,,…,u 的方差之和∑A 。主成分分析的目 的是减少变量个数,因此可以舍去方差较少的变 10项指标数据。这10项指标分别为:人均 GDP( )、城镇登记失业率( )、城市人均绿地 ( )、工业废水治理达标率( )、每千人平均医 生数( )、每千人平均专利数(%)、每万人平均 利用外资(百万美元)( ,)、第三产业在产业结构 量,即求R的前m个特征值A ≥A2≥A,…≥A , 及对应的特征向量U ,U ,U,,…,U ,特征向量相 互正交,即是所求的m个主成分系数。 4)求主成分贡献率、累积贡献率和主成分得 P 分。第k个主成分的贡献率为A /∑A ,前m个 ‘:1 m P 中所占的比例( )、人口自然增长率( 。)、科学 教育财政支出占总支出的比例( 。)。直接从这10 个变量出发来评价各个地区的社会经济等发展情 况比较复杂,采用主成分分析可以把这些变量进 行简化,同时消除原指标之间数据重叠。表1是原 始数据通过主成分分析得到的部分主成分系数; 主成分的累积贡献率为∑A/∑A。。某个主成分 的贡献率是指这个主成分的方差在总方差中所占 的比例,前m个主成分的累积贡献率可以说明m 个主成分从 , , ,,…,%中共提取的信息量。 这里应用了Matlab矩阵运算与构造、Matlab 表2是主成分的贡献率、累积贡献率。 表1 主成分系数 表2 主成分贡献率、累积贡献率 从表2中看出,前4个主成分累积贡献率达 指标,在后继分析和处理上会大大简化难度和减 81%,通过主成分分析可以将对地区经济社会综 合发展分析的l0个要素指标减少为目前的4个 少工作量,同时通过对这4个主成分的分析挖掘 隐藏信息。 维普资讯 http://www.cqvip.com

第5期 顾绍红,等:主成分分析模型在数据处理中的应用 2。2实验结果分析 2。2。1分析主成分 4个主成分可以表达为原10个指标的加权 组合,分别如下: ZI=0.442 6x1—0.145 5x2+0.285 lx3+ 0。212 lx4+0。380 4x5+0.389 6x6+0.398 2x7+ 0.309 7x8—0.316 9x9—0。072 0x10 Z2:一0。008 9xI+0.093 lx2—0.421 2x3~ 0。542 0x4+0.265 8x5+0.091 7x6+0.003 9x7+ 0.357 5x8+0.113 5x9—0.548 0x】0 Z3=一0.072 2x1—0.729 3x2+0.106 0x3— 0.199 8x4—0.010 lx5+0.212 4x6—0.130 3x7+ 0.247 2x8+0。458 8x9+0.279 3x1o Z4=0.385 9x J+0.122 7x2+0.082 7x3— 0。220 0x4—0。255 3x5—0.464 5x6+0.5'78 0x7+ 0.135 0x8+0.360 ix9+0.133 9x10 第1主成分对人均GDP( )、每千人平均医 生数( )、每千人平均专利数( )、每万人平均 利用外资( ,)、第三产业在产品结构中所占的比 例( )、城市人均绿地( )都有相差不大的正相 关系数;对人口自然增长率( 。)、城镇登记失业率 ( )这两个衡量地区落后程度的指标具有较大 的负相关系数。从中可以看出利用这个主成分可 以针对经济水平和结构、开放程度、科研创新、医 疗设施、环境以及人口方面对各个地区综合发展 程度进行综合评判,因此这个主成分可以看作地 区发展综合评价的因子。 第2主成分对工业废水治理达标率( )、城 市人均绿地( )、科学教育财政支出总占支出的 比例( 。)具有较大的负相关系数。对第三产业在 产业结构中所占的比例( )、每千人平均医生数 ( )具有较大的正相关系数。这个主成分主要描 述地区在自然环境、污染治理水平、科教等方面比 较落后,第三产业从业比例较大,经济发展水平不 高。这个主成分可以看作是社会生活环境评价因 子,这个主成分的值越大,说明在这些方面的表现 较为落后。 第3主成分对人口自然增长率( 。)有最大的 相关系数,第三产业在产业结构中所占的比重和 教育经费支出也有较大的正相关系数,可以看出 人口的快速增长带来第三产业就业和教育支出的 增加。对失业率有最大的负相关系数。这个主成分 主要从就业和人口方面对地区进行评价,可作为 人口与就业评价因子。 第4主成分对每万人平均利用外资具有最大 的相关性,对人均GDP相关系数较大,每千人平 均专利数则有最大的负相关系数。这个主成分从 经济发展、开放程度、科研创新对地区进行评价, 可被看作开放与科技评价因子。 由以上公式可得出影响地区经济社会综合发 展的4个评价因子:地区发展综合评价因子,社会 生活环境评价因子,人口与就业评价因子和开放 与科技评价因子。 2.2。2散点图分析 散点图是常用的数据分析可视化方法,将多 元数据投影到仅由两个变量定义的2维空间,这 样可以成对地分析变量关系。基于上述实验数 据,以地区发展综合评价因子和社会生活环境评 价因子为轴输出的散点图为例进行数据分析,散 点图如图i所示。 要 躲 鸶 蝰 司 ==曩 综合评价凼子 图1按第1、第2主成分输出的散点图 由图1中各地区的位置可以看出:北京、上 海、天津与其他地区差别较大,与其他点相距较 远。这3个地区的地区发展综合评价因子值远远 领先于其他地区,社会生活环境评价因子值与其 他省市相比较高,说明这些地区社会综合发展程 度很高,在发展的同时带来一些自然环境、污染治 理方面的问题。 西藏的综合评价因子值最小,而社会生活环 境评价因子值最大,说明西藏地区第三产业比重 较大,自然环境恶劣,综合发展处于较低水平。 江苏、浙江、广东、福建的地区发展综合评价 因子值较大,同时社会生活环境评价因子值较低, 说明东南沿海省区在经济得到发展的同时也兼顾 环境和科技教育的发展。 社会生活环境评价因子值较高的有西部省区 西藏、青海、宁夏、新疆和北部吉林、内蒙古省区, 说明这些省区第三产业从业人数较多,环境较差, 科教水平不高。还可以针对不同的因子进行散点 图分析,以发掘更多的隐藏的数据关系。 维普资讯 http://www.cqvip.com

测绘科学技术学报 2007正 2.2.3主成分得分 价模型如下: F:PlZl+p2Z2+p3Z3+P4Z4 主成分得分是利用特定的主成分对每个样本 进行分析评价所得到的结果,即因子得分。图2 ~即 F:0.378 7Z1+0.134 9Z2+0.126 8Z3+ 0.102 3Z4 图5是利用样本对前4个因子的得分生成的柱 状图表。这种以可视化形式输出分析结果代替了 组繁琐的数据,更为直观形象,更能发现潜在的 一图6是31个样本总体得分的柱状图,从中可 以看到我国各个地区的社会、经济、教育、环境等 规律和信息。 jb衷 l 上侮 I L :末 I 01l耳 图2按第1主成分样本得分图3按第2主成分样本得分 一 . ¨一 ¨L_r l l图4按第3主成分样本得分图5按第4主成分样本得分 从图2可以看出,北京、上海、天津对地区发 展综合评价因子的得分很高。 在图3中,对于社会生活环境评价因子,西藏 得分最高,青海、新疆、内蒙古等得分也较高,这两 个图表反映的内容与散点图的分析结果一致。 图4中,北京、广东对人口与就业评价因子得 分较高,说明失业率较低,人口增长快,第三产业 从业人数多;西部和北部省区人口较多从事畜牧 业和农林业,经济落后,人口增长快,得分也较高; 相反,东北三省工业发展陷入困境,三个省区的得 分都很低,其中辽宁最低,说明失业率高,人口增 长率低;上海人口已经出现负增长,得分也较低。 在图5中,对于开放与科技评价因子,上海的 得分最高,其次是广东。说明二者的开放程度很 高,经济水平较高,但每千人平均专利数较低,可 以反映出科研创新不够。由于北京科研状况大大 超出其他地区,反而得分最低。 2.2.4样本综合得分 要对各地区进行综合评价,需要构造综合评 价模型。以所选取的第1、第2、第3、第4个因子 的贡献率P 、P 、P,、P 作为权数,构造因子综合评 发展的总体评价结果。 北京 rr。丌Lr.。I-p'r  : 0 】0 20 30 40 图6按各样本综合得分 3结语 主成分分析作为多元统计分析的一种方法, 作为数据分析和数据挖掘的工具,在社会经济发 展趋势分析、环境污染变化监测、地理要素分析等 方面也得到广泛应用。统计学和某些应用领域的 结合拓宽了统计学的应用范围,同时也为相关专 业的数据处理、数据分析和数据挖掘提供了思路 和工具。这里仅仅针对一个实例利用科学计算可 视化研究了主成分分析在数据处理中的应用,伴 随信息的爆炸性增长,对数据的简化处于更为重 要的地位。因此主成分分析会得到更多的关注和 应用,同时需要更多的专业人士去拓展它的应用 范围。 参考文献: [1] 王学民.应用多元分析[M].上海:上海财经大学出版社, 1999:209-234. [2] 苏金明,王永利.MATLAB工程数学[M].北京:电子工业 出版社,2005:136—137. [3] 陈永春.MATLAB M语言高级编程[M].北京:清华大学 出版社,2004:100—120. [4] 何宗宜.地图数据处理模型的原理与方法[M].武汉:武 汉大学出版社,2004:154.161. [5] 国家统计局.2005中国统计年鉴[M].北京:中国统计出 版社,2005:20-50. [6]DAVID HAND H,HEIKKI MAMILA.数据挖掘.概念、模型、 方法和算法[M].北京:机械工业出版社.2003:48-49. 责任编辑安敏 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top