1、目的
用SPSS软件实现判别分析及其应用。 2、内容及要求
用SPSS对实验数据利用Fisher判别法和贝叶斯判别法,建立判别函数并判定宿州、广安等13个地级市分别属于哪个管理水平类型。
二、仪器用具:
仪器名称 计算机 SPSS软件 规格/型号 数量 1 1 备注 有网络环境 三、实验方法与步骤:
准备工作:把实验所用数据从Word文档复制到Excel,并进一步导入到SPSS数据文件中,同时,由于只有当被解释变量是属性变量而解释变量是度量变量时,判别分析才适用,所以将城市管理的7个效率指数变量的变量类型改为“数值(N)”,度量标准改为“度量(S)”,以备接下来的分析。
四、实验结果与数据处理:
表1 组均值的均等性的检验
综合效率标准指数 经济效率标准指数 结构效率标准指数 社会效率标准指数 人员效率标准指数 发展效率标准指数 环境效率标准指数
Wilks 的 Lambda
.582 .406 .954 .796 .342 .308 .913 F 23.022 46.903 1.560 8.225 61.645 71.850 3.054 df1
2 2 2 2 2 2 2 df2
64 64 64 64 64 64 64 Sig.
.000 .000 .218 .001 .000 .000 .054 表1是对各组均值是否相等的检验,由该表可以看出,在0.05的显著性水平上我们不能拒绝结构效率标准指数和环境效率标准指数在三组的均值相等的假设,
即认为除了结构效率标准指数和环境效率标准指数外,其余五个标准指数在三组的均值是有显著差异的。
表2 对数行列式 group 1 2 3
汇聚的组内
秩
6 6 6 6
对数行列式
-33.410 -33.177 -40.584 -32.308
打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。
表3 检验结果 箱的 M F
近似。 df1 df2 Sig.
对相等总体协方差矩阵的零假设进行检验。
140.196 2.498
42 1990.001
.000
以上是对各组协方差矩阵是否相等的Box’M检验,表2反映协方差矩阵的秩和行列式的对数值。由行列式的值可以看出,协方差矩阵不是病态矩阵。表3是对各总体协方差阵是否相等的统计检验,由F值及其显著水平,在0.05的显著性水平下拒绝原假设,认为各总体协方差阵不相等。 1)Fisher判别法:
图一
图二
表4 特征值 函数 1 2
特征值
3.763 1.257 aa
方差的 %
75.0 25.0 累积 %
75.0 100.0 正则相关性
.889 .746 a. 分析中使用了前 2 个典型判别式函数。
表5 Wilks 的 Lambda 函数检验 1 到 2 Wilks 的 Lambda .093 .443 卡方 146.042 50.053 df 12 5 Sig. .000 .000 2
表4反映了判别函数的特征值、解释方差的比例和典型相关系数。第一判别函数解释了75%的方差,第二判别函数解释了25%的方差,它们两个判别函数解释了全部方差。
表5是对两个判别函数的显著性检验,由Wilks’Lambda检验,认为两个判别函数在0.05的显著性水平上是显著的。
表6 标准化的典型判别式函数系数
综合效率标准指数 经济效率标准指数 结构效率标准指数 社会效率标准指数
函数
1
-.228 .566 .097 .378 2
-.578 .404 .472 .233 人员效率标准指数 发展效率标准指数
-.328 .621 1.099 .675
表7 结构矩阵
发展效率标准指数 经济效率标准指数 综合效率标准指数 社会效率标准指数 环境效率标准指数 人员效率标准指数 结构效率标准指数
判别变量和标准化典型判别式函数之间的汇聚组间相关性 按函数内相关性的绝对大小排序的变量。 *. 每个变量和任意判别式函数间最大的绝对相关性 a. 该变量不在分析中使用。
a
函数
1
.752 .611 .426 .261 .141 -.547 .070 *****
2
.305 .222 .170 -.001 -.129 .797 -.156 **
表6为标准化的判别函数,表7为结构矩阵,即判别载荷。由判别权重和判别载荷可以看出发展效率标准指数、经济效率标准指数对判别函数1的贡献较大,而人员效率标准指数对判别函数2的贡献较大。
表8 典型判别式函数系数
综合效率标准指数 经济效率标准指数 结构效率标准指数 社会效率标准指数 人员效率标准指数 发展效率标准指数 (常量) 非标准化系数
函数
1
-5.216 5.168 .999 4.877 -3.319 7.145 -1.363 2
-13.231 3.688 4.848 3.011 11.138 7.774 -6.424
表9 组质心处的函数 group
函数
1
1
2
-.210 3.964 -2.725 -.730 1.263 1.905 2 3
0
在组均值处评估的非标准化典型判别式函数
表8为非标准化的判别函数,我们可以根据这个判别函数计算每个观测的判别Z得分。表9反映判别函数在各组的重心。根据结果,判别函数在group=1这一组的重心为(-0.210,-0.730),在group=2这一组的重心为(3.964,1.263),在group=3这一组的重心为(-2.725,1.905)。这样,我们就可以根据每个观测的判别Z得分将观测进行分类。
表10 组的先验概率 group 先验 1 用于分析的案例 未加权的 .333 .333 .333 1.000 46 10 11 67 已加权的 46.000 10.000 11.000 67.000 2 3 合计 0
表11 分类结果
b,c
group
1
预测组成员
2
3
合计
初始 计数 1 2 3
未分组的案例
46 0 2 6 100.0 .0 18.2 50.0 45 1 2 97.8 10.0 18.2 0 10 0 3 .0 100.0 .0 25.0 0 9 0 .0 90.0 .0 0 0 9 3 .0 .0 81.8 25.0 1 0 9 2.2 .0 81.8 46 10 11 12 100.0 100.0 100.0 100.0 46 10 11 100.0 100.0 100.0 % 1 2 3
未分组的案例
交叉验证
a
计数 1 2 3
% 1 2 3
a. 仅对分析中的案例进行交叉验证。 在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。
b. 已对初始分组案例中的 97.0% 个进行了正确分类。 c. 已对交叉验证分组案例中的 94.0% 个进行了正确分类。
表10为各组的先验概率,在分类选项中选择的是所有组的先验概率相等。 表11为分类矩阵表,这里交叉验证是采用“留一个在外”的原则,即每个城市是通过除了这个城市以外的其他城市推导出来的判别函数来分类的。由该表可以看出,通过判别函数预测,有65个城市是分类正确的,其中,group=1组46个城市全部被判对,group=2组的10个城市也全部被判对,group=3组11个城市中有9个被判对,即有97%的原始城市被判对。在交叉验证中,三组中分别有45、9、9个城市被判对,交叉验证有94%的城市被判对。
图三
图三为分类结果图,从图中可以看到第2组与第3组可以很清晰地分开,与第1组也能分开,而第3组和第1组存在重合区域,即存在误判。
同时,根据对待判城市的判别可以看出:在13个待判城市中,宿州、广安、河地被判到了第3组,佛山、苏州、东营被判到了第2组,咸阳、盘锦、汉中、保定、宝鸡、衡阳被判到了第1组,而以纯由于只有环境效率标准指数的值,其他变量值确实,系统未对其进行判别。
2)贝叶斯判别法:
图四
图五
贝叶斯判别法输出的结果与Fisher判别法很大程度上是一致的,这里不再列出。
表12 组的先验概率 group
先验
1
用于分析的案例
未加权的
.687 .149 .164 1.000 46 10 11 67 已加权的
46.000 10.000 11.000 67.000 2 3 合计
0
表13 分类函数系数
综合效率标准指数 经济效率标准指数 结构效率标准指数 社会效率标准指数 人员效率标准指数 发展效率标准指数 (常量)
Fisher 的线性判别式函数
group
1
-89.225 18.318 112.414 61.509 77.419 57.663 -46.457 2
-137.370 47.236 126.246 87.864 85.768 102.980 -74.840 3
-110.980 15.041 122.679 57.179 115.125 60.184 -66.632 表12为各族的先验概率,在分组选项中选择的是“根据组大小计算”。 表13展示了每组的分类函数,也称费歇线性判别函数,由表中的结果可以说明:group=1这一组的分类函数为:
f1=- 46.457-89.225综合效率标准指数+18.318经济效率标准指数
+112.414结构效率标准指数+61.509社会效率标准指数 +77.419人员效率标准指数+57.663发展效率标准指数
其他两组的分类函数同样可以写出,我们可以根据每个城市在各组的分类函数值然后将城市分类到较大的分类函数值中。
表14为贝叶斯判别的分类结果,其交叉验证有95.5%的城市被判对,这一概率比Fisher判别要高。
表14 分类结果
b,c
group 预测组成员 合计
初始
计数
1 2 3
未分组的案例
%
1 2 3
未分组的案例
交叉验证
a
1
46 0 2 6 100.0 .0 18.2 50.0 46 1 2 100.0 10.0 18.2 2
0 10 0 3 .0 100.0 .0 25.0 0 9 0 .0 90.0 .0 3
0 0 9 3 .0 .0 81.8 25.0 0 0 9 .0 .0 81.8 46 10 11 12 100.0 100.0 100.0 100.0 46 10 11 100.0 100.0 100.0 计数 1 2 3
% 1 2 3
a. 仅对分析中的案例进行交叉验证。 在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。
b. 已对初始分组案例中的 97.0% 个进行了正确分类。 c. 已对交叉验证分组案例中的 95.5% 个进行了正确分类。
五、讨论与结论
(1)由前面的分析我们知道,协方差矩阵并不相等,考虑采用分组协方差矩阵。在分类中使用协方差矩阵“分组(P)”,其他选择同上,得到分类结果表如下。
分类结果
a
初始
计数
group
1
1 2 3
未分组的案例
%
1 2 3
未分组的案例
44 0 0 6 95.7 .0 .0 50.0 预测组成员
2
0 10 0 3 .0 100.0 .0 25.0 3
2 0 11 3 4.3 .0 100.0 25.0 合计
46 10 11 12 100.0 100.0 100.0 100.0 a. 已对初始分组案例中的 97.0% 个进行了正确分类。
可以看出这个结果与采用组内协方差矩阵的预测效果没有明显的差别,而且分类结果图与图三也没有很大的差异,因此,可以采用组内协方差矩阵来进行判别。
(2)之前的分析是采用“一起输入自变量”的方法,由表1可知,在0.05的显著性水平上不能拒绝结构效率标准指数和环境效率标准指数在三组的均值相等的假设,考虑“使用步进式方法”,最终确定进入分析的变量有3个:经济效率标准指数、人员效率标准指数、发展效率标准指数,上表给出了最终的分类结果,可以看出,在原有数据的所有城市中,有95.5%的城市被判对,在交叉验证中有92.5%的城市被判对。没有“一起输入自变量”时的效果好,但是在最终对待判城市的分组问题上,两种方法所得到的结果是一致的,在这里两种方法的选择对我们所需要的结果影响不是很大!
分类结果
b,c
初始
计数
group
1
1 2 3
未分组的案例
%
1 2 3
未分组的案例
45 0 2 6 97.8 .0 18.2 50.0 44 1 2 95.7 10.0 18.2
预测组成员
2
1 10 0 3 2.2 100.0
.0 25.0 2 9 0 4.3 90.0 .0
3
0 0 9 3 .0 .0 81.8 25.0 0 0 9 .0 .0 81.8
合计
46 10 11 12 100.0 100.0 100.0 100.0
46 10 11 100.0 100.0 100.0
交叉验证
a
计数 1 2 3
% 1 2 3
a. 仅对分析中的案例进行交叉验证。 在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。
b. 已对初始分组案例中的 95.5% 个进行了正确分类。 c. 已对交叉验证分组案例中的 92.5% 个进行了正确分类。
因篇幅问题不能全部显示,请点此查看更多更全内容