您好,欢迎来到尚车旅游网。
搜索
您的当前位置:首页中医药统计学 第三章

中医药统计学 第三章

来源:尚车旅游网
第三章 定量资料的统计描述、参考值范围

第三章 定量资料的统计描述、参考值范围

第一节 频数分布表和频数分布图

计量资料的统计描述,主要了解数据的集中趋势、离散趋势、分布的形态和范围等特征。 将各观察值及其相应的频数排列成表,称为频数分布表(frequency distribution table)。将频数分布表绘制成图,称为频数分布图(frequency graph)。对于大样本数据,需要编制频数分布表,通过频数分布表和频数分布图,可以直观提示数据资料的分布特征。

1.定量资料频数分布表和频数分布图的编制方法

【例3-1】 随机测得某地148名正常人血糖(mmol/L)结果如下,编制频数分布表,绘制频数分布图。

493 488 483 490 4 435 412 437 334 495 519 9 525 553 585 1 395 415 451 453

485 481 490 497 503 436 7 524 551 598 400 418 441 451 487 481 492 497 505 512 537 522 5 385 402 411 439 448 490 466 467 498 507 517 6 532 575 593 404 431 446 441 480 465 482 498 505 515 2 536 573 429 443 449 485 468 481 500 510 505 4 534 578 524 449 451 470 470 478 502 512 503 4 525 568 415 458 458 487 471 476 502 517 507 9 524 5 569 632 534 498 515 497 473 475 480 456 456 490 410 461 4 470 473 478 493 514 512 1 4 558 5 378 531 500 509 495 483 470 485 417 500 517 503 534 6 416 520

先将全部观察值的极差R(R=观察值中最大值-最小值)分为若干组段,观察单位较少

时组段可相对少些,观察单位较多时,组段数可酌情多些。第一组段要包括最小观察值,最后一个组段要包括最大观察值。将各组段相应的频数(或频率)列表,即得频数分布表(或频率分布表)。本例,极差R= 632-334=298(mmol/L),如分10个组段,R的1/10为29.8,取整值得组距(class interval)=30。各组段分别为330~,360~,…,600~。计算并列出各组段上的频数,就得到频数分布表。

以横轴表示观察值,纵坐标取为频数与组距之比,在各组段上作长方形,即得定量资料的频数分布图,称为直方图。直方图的纵坐标也可取为频率与组距之比,则长方形面积大小描述的是频率,长方形面积之和为100%,这样的分布图称为频率分布图。

【SPSS17.0操作】血糖数据有物理单位、可取小数,是单组计量资料,数据用1个变量名并排成1列。在变量视图输入名称血糖,小数0,切换到数据视图输入数据,存为L3_1.sav。

→分析→描述统计→频率,血糖送变量框,→统计量→四分位数、均数、标准差、偏度、峰度,→继续,→图形→直方图→带正态曲线→继续,→确定。查看器主要输出结果见图3-1:有效数148,

缺失数0,样本均数491.22,标准差49.103,中位数493.00,偏度及其标准误分别为-0.163和0.199,峰度及其标准误分别为0.282和0.396。直方图有空白组段,要调整组段的个数。鼠标双击直方

35

第三章 定量资料的统计描述、参考值范围

图,打开图表编辑器。击直方图,→编辑菜单→属性→分箱,x轴→定制→区间数9,→应用。 图3-1 SPSS作单组计量资料频率描述输出的统计量和直方图 鼠标双击输出结果表格,出现锯齿形边框。选定数据块,→格式菜单→单元格属性→格式,可设置小数。若在数据编辑器,→编辑→选项→枢轴表→Academic,则设置类似三线表输出。

【DPS11.0操作】在DPS电子表格,输入原始数据或粘贴Word文档的数据。鼠标选定数据块,→数据分析→频次分布,→从小到大输入分级值,或输入分组数9,→OK。输出频数分布图、样本的统计描述及频数分布,略。

【SAS8.0操作】单组计量资料,调用univariate过程,见程序3-1。

程序3-1 单组计量资料统计描述程序 行号 语句 01 data L3_1; input x@@; 02 cards; 03 493 488 483 490 4 435 412 04 „„„„„„„„„„„„„„„„ 行号 语句 05 500 517 503 534 6 416 520 06 ; 07 proc univariate plot normal; 08 var x; histogram; run; 程序运行后,输出样本的统计描述及茎叶图、盒形图、直方图、正态概率图,略。 从图3-1可以看出,如果观察数不断增多,组距不断分细时,直方图中的直条将逐渐变窄,顶端将渐渐珠连接近于一条光滑曲线,这条曲线称为频数密度曲线,简称频数曲线,近似于概率密度曲线。

2.频数分布的特征 从频数分布表和频数分布图都可以看到频数分布的重要特征:集中趋势(central tendency)、离散趋势(tendency of dispersion)、分布形状。例如由图3-1可见:正常人的血糖分布接近中间数(460~0)的频数最多,集中形成高峰,即称集中趋势;向两侧频数逐渐减少,离散形成尾势,即称离散趋势。

分布形状有三种情况:

(1)高峰在中间,左右两侧大致对称,称为对称分布。如图3-1。

(2)高峰偏向小值的一侧(频数向右侧拖长尾),称为正偏态分布(亦称右偏态分布)。 (3)高峰偏向大值的一侧(频数向左侧拖长尾),称负偏态分布(亦称左偏态分布)。 描述分布形态的统计指标常用偏度系数和峰度系数,见第四章第三节。

36

第三章 定量资料的统计描述、参考值范围

第二节 描述集中趋势的常用指标

1. 描述集中趋势的常用指标 平均数(average)是描述集中趋势的指标体系,常用的有均数、中位数、几何均数等。

(1)均数(mean):是算术平均数(arithmetic mean)的简称。x的总体均数用E(x)或希腊字母μ表示,样本均数用x表示,x的均数记为E(x)。记号中的“E”表示“数学希望”(即均数)的意思。数理统计证明E(x)=E(x),即x是E(x)的无偏估计。

1)对于观察值个数不多的未分组资料用直接法(direct method),公式为:

x=(x1+ x 2+...+xn)/ n =Σx / n (3-1)

式中n表示观察值x1,x 2,...,xn的个数;希腊字母∑(读Sigma)为求和符号。

【例3-2】 10名外感风寒女性患者的体温(℃)为37.8,38.0,38.1,38.2,38.2,38.2,38.3,38.5,38.5,39.5,求其平均体温。

因本例观察值彼此相差不大,宜用算术均数来反映其平均水平。

x=∑x / n=(37.8+38.0+...+39.5)/ 10=383.3 /10=38.3(℃)

【DPS11.0操作】在电子表格的区域A1:J1,输入数据。选定数据块,→数据分析→基本参数

估计。输出样本的统计描述,其中均值38.33。

2)对于观察值中出现较多相同的数据或频数表资料用加权法(weighted method):

x=(f1x1 + f2x2 +...)/(f1 + f2 +...)=(Σfx)/(Σf ) (3-2)

式中f为相同观察值的个数(即频数);∑f = n;x为各组段的组中值;∑fx称加权和。

(2)几何均数 几何均数(geometric mean,G)是一组观察值的平均增(减)倍数,计算公式为

G =nx1x2...xn (3-3)

【例3-3】 8名脾虚纳呆患儿尿液淀粉酶的含量(U/10min)为4,4,8,8,8,16,16,32,求其平均含量。本例观察值变化呈倍数关系,宜计算几何均数:

G =nx1x2...xn=

其平均含量为9.5(U /10 min)。

【DPS11.0操作】在电子表格的区域A1:H1,输入数据。选定数据块,→数据分析→基本参数

估计。输出样本的统计描述,其中几何平均9.5137。

8428316232=9.5(U/10min)

(3)中位数和百分位数

①中位数(median,M):中位数反映位次居中的观察值水平。将一组观察值按大小顺序排列,位次居中的数值即为中位数。一组观察值中有一半比中位数大,一半比中位数小。和均数、几何均数不同,中位数不是由全部观察值综合计算出来的,而是由居中位置的观察值所决定,因此它不受个别特小或特大的观察值的影响,应用范围较广。

小样本资料可直接计算:将观察值按大小顺序排列,按式3-4或式3-5计算。 n为奇数时: M = x(n+1)/ 2, (3-4)

37

第三章 定量资料的统计描述、参考值范围

n为偶数时: M = [ x n / 2 + x1+ n / 2 ] / 2 (3-5) 式中n为观察值的个数;x(n+1)/2,xn/2,x1+ n/2分别为(n+1)/2,n/2,1+n/2位次上的观察值。 【例3-4】 10例由伤寒杆菌引起伤寒的患者潜伏期为6,8,11,12,14,15,16,21,29,34天,求中位数。因n=10,为偶数,居中的两个位次为10 / 2 = 5,1+10 / 2 = 6,这两个位次上的观察值为14和15,(14+15)/ 2=14.5(天),即为所求的中位数。

【DPS11.0操作】在电子表格的区域A1:J1,输入数据。选定数据块,→数据分析→基本参数

估计。输出样本的统计描述,其中中位数14.5000。

【例3-5】 治愈9名脾虚泄泻患儿所用天数分别为2,3,3,3,4,5,6,9,16,求中位数。因n=9,是奇数,居中的第(9+1)/2 = 5位次上的观察值为4,即中位数为4天。

②百分位数(percentile) 是一种位置指标。将n个观察值从小到大依次排列,再把它分成100等份,对应于第x%位次上的数值即第x百分位数,记为Px 。在不包括Px的全部观察值中,理论上有x%的数据小于Px,有1- x%的数据大于Px。Px的计算公式为:

Px =L+i(nx%-∑fL)/ fx (3-6)

式中fx为第x百分位数Px所在组段的频数,i为该组段的组距,L为其下限,∑fL为小于L各组段的累计频数,n=∑f为总频数。见例3-14。

常用的百分位数有P50,P2. 5,P5,P25,P75,P95,P97. 5 。例如,样本含量为n的样本,取第25百分位数P25,理论上有n×25%个观察值比P25小,有n (100-25)%= n×75%个观察值比P25大。所以,百分位数是一个界值。当P1,P2,...,P99确定后,一个由小到大的有序数列即被分成100等份,各含1%的观察值,故百分位数也是分布数列的百等份分割值,中位数是一个特定的百分位数:M = P50,将一组观察值二等分,上下各有1/2的观察值。

均数、中位数、几何均数的优缺点、主要用途及注意事项见表3-1。

表3-1 常用描述集中趋势指标的优缺点、主要用途及注意事项 统计量

优、缺点 适用条件与用途 注意事项

优点:通俗易懂、充分利用了每一①描述对称分布,尤其是正态分布①不能较好地反映偏

均数 数据所提供的信息,便于作进一步资料的平均水平或集中趋势;②同态分布资料的集中趋(x) 的统计分析。 类现象在不同空间和时间上比较的势;②资料出现极大或

指标;③估计其它有关指标。 极小值时,不宜选用。 优点:可削弱极大值或极小值对平均①描述右偏态、呈比例递增、对数正①不能有观察值为0;

几何均

水平的影响,便于作进一步的统计分态分布资料的平均水平;②描述数②观察值不能同时有

数(G)

析。 据中有少数过大或过小的平均水平 正值和负值。 优点:不受两端极大或极小值影响,①观察例数较小时,中一端或两端无确切值资料(如①适用于描述任意分布资料的集中位数作为描述集中趋

中位数 <1、>100)也可计算中位数。 位置,反应位次居中的观察值水平;势的指标稳定性较差;(M) 缺点:只与居中观察值的大小有关,②描述一端或两端无确切值资料的②频数足够大的对称

未能充分利用每一数据所提供的信集中趋势。 分布资料,中位数和均息,对资料的利用率低。 数理论上是相同的。 优点:既可用来描述集中趋势(P50),①描述样本或总体观察值序列在某又可用来描述离散趋势 (P75-P25)。百分位位置的水平;②多个百分位

百分位计算百分位数的资料

可用于各种连续型资料,通俗易懂。 数结合应用时,可更全面地描述总

数(Px) 一般是大样本。

缺点:样本例数不够多时,计算的体或样本的分布特征;③偏态或分百分位数不稳定。 布不明资料,求医学参考值范围。

38

第三章 定量资料的统计描述、参考值范围

第三节 描述离散趋势的指标

【例3-6】为比较三个药员凭手抓药量的技能,作手抓30 g甘草试验,每人各抓5次,结果:甲:26,28,30,32,34; 乙:24,27,30,33,36; 丙:26,29,30,31,34。 虽然这三组数据的平均水平(集中趋势)相同,都是x=30g,但分布特征却不尽相同,各人的5个数据间参差不齐的程度(即技能变异度)不一样,说明这三个人凭手抓药量的离散性不同。可见,不能光凭集中性指标,须将集中趋势和离散趋势结合起来,才能全面认识事物。

描述定量资料离散性的常用指标有:极差、四分位间距、方差、标准差和变异系数。

1.极差(range,R) 又称全距。即一组观察值的最大值与最小值之差:

R = xmax-xmin (3-7)

极差反映个体变异的范围。极差大,说明变异度大;极差小,说明变异度小。如例3-7: R甲=34-26=8(g),R乙=36―24=12(g),甲的极差小于乙,说明乙凭手抓药的重量较甲分散,甲的变异小于乙,这样甲乙两人技能在离散程度方面的差别就反映出来了。

用极差来说明变异度的大小,简单明了,故广为采用。但因仅考虑两极端值,故存在缺点:① 除了最大值和最小值外,不能反映组内其他数据的变异度;如例3-7中甲与丙的变异度,虽然甲与丙的极差相等,均为8克,但仍可直观看出甲的变异度较大。因为甲的两个观察值28和32,较丙的29和31更远离均数30,极差却不能反映出来。② 观察例数越多,抽到较大或较小变量值的可能性越大,因而极差可能越大,故样本例数悬殊时不宜比较其极差;③ 即使样本例数不变,极差的抽样误差亦较大,即不够稳定。

2.四分位间距(quartile interval,QR) 四分位数可看成特定的百分位数,包括依次与P25,P50,P75等价的第1四分位数(即下四分位数QL ),第2四分位数(即中位数M),第3四分位数(即上四分位数QU)。四分位间距亦称四分位差,是QU 与QL之差:

QR=QU-QL = P75-P25 (3-8)

四分位间距包括了全部观察值中居于中间水平的一半,所以可看成中间一半观察值的极差,它和极差类似,QR值越大,说明变异度越大,QR值越小,说明变异度越小。

四分位间距适用于任意分布资料,尤其适合于大样本偏态分布资料,将中位数和四分位间距一起,可表达标准差比均数大很多,呈正偏态分布资料的平均水平和变异程度。 计算四分位数的资料一般是大样本,宜用软件计算。也可用简便法求上、下四分位数: 【例3-7】有47个数据:40,42,43,,56,58,60,60,,65,68,70,74,78,80,84,88,92,97,99,101,101,103,105,106,107,108,110,111,112,112,113,113,113,114,118,119,119,121,123,124,128,140,143,148,150,221。求上、下四分位数及其四分位间距QR 。

因下四分位数QL即第25百分位数P25,本例,位次在n×0.25= 47×0.25=11.75处,而x11=68,x12=70,故下四分位数QL= P25=(x11+x12)/2=69。

39

第三章 定量资料的统计描述、参考值范围

同样,因上四分位数QZ 即第75百分位数P75,本例,位次为n×0.75= 47×0.75=35.25处,而x35=114,x36=118,故上四分位数QU =(x35+x36)/2=116。

所以,四分位间距QR =QU-QL = P75-P25=116-69= 47。

【SPSS17.0操作】在数据视图以名称数据输入1列数据,→分析→描述统计→探索,数据送因

变量列表框,→统计量→百分位数,得到加权平均的P25=70,P75=118,四分位间距118-70=48。Tukey的P25=72,P75=116,四分位间距116-72=44。

【DPS11.0操作】在电子表格的区域A1:AU1,输入数据。选定数据块,→数据分析→基本参

数估计。输出样本的统计描述,其中P25=72,P75=116,四分位间距44.0000。

四分位间距作为说明个体差异的指标,比极差稳定,但仍未考虑到每个观察值的变异度。类似的亦可取其它百分位数间距如P95-P5,P90-P10或P80-P20等,但四分位间距更为常用,一般是样本例数越多越稳定,越近分布的中部越稳定。

四分位间距QR常与中位数M一起描述非正态分布抽得的大样本资料数据的分布特征,其意义与均数和标准差类同。

3.方差(variance,s2) 方差全面地考虑每个变量值的离散情况。x的总体方差记为σ2或var(x)、D(x),样本方差记为s2,按式3-10计算。数理统计证明,s2的数学希望(即均数)等于σ2,记为E(s2)= σ2,s2是σ2的无偏估计。

σ2=var(x)=D(x)=Σ(x-μ)2/N;s2=Σ(x-x)2/( n-1),df=n-1 (3-9)

式中的df为自由度(degree of freedom),是指计算某一统计量值时,可以(或自由)取值的变量的个数。

2 例如,计算样本方差s2=(x-x)(/n-1)时,有n个变量:(x1-x),(x2-x),...,(xn-x)。

它们之间存在唯一的约束条件:(x1-x)+(x2-x)+...+(xn-x)= x1 + x2 +...+ xn-nx=0 。因此,n个变量(x1-x),(x2-x),...,(xn-x)中只有(n-1)个可以取值,故样本方差s2的自由度为(n-1)。

由式3-10得出离均差平方和 Σ(x-x)2=( n-1) s2 (3-10) 4.标准差(standard deviation,s) 标准差是方差的算术平方根:

s=(xx)2/(n1) (3-11)

【例3-8】分别求例3-6中甲、丙两人5次试验数据的标准差。

s甲=[(2630)2(2830)2(3430)2]/4=10=3.1623,s丙=34/2=2.9155。 【DPS11.0操作】在电子表格的区域A1:E1,A2:E2,A3:E3,输入甲、乙、丙数据。选定A1:E1数据块,→数据分析→基本参数估计,得到甲的标准差3.1623。类似得到丙的标准差2.9155。

(1)标准差是描述一组观察值变异程度、离散趋势的最常用统计指标,适用于对称分布资料特别是正态分布资料,标准差越大,说明个体差异越大,平均数的代表性就越差。

(2)标准差s常作为衡量精密度的指标,s值愈小,则重现性好,偶然误差愈小,说明测定方法的精密度愈高。

5.变异系数(coefficient of variation,CV) 变异系数亦称相对标准差(RSD)或离散

40

第三章 定量资料的统计描述、参考值范围

系数,系标准差与均数之比用分数表示:

CV(%)= RSD(%)=100%×s/x (3-12)

极差、四分位间距和标准差都有单位,其单位与观察值的单位相同;而变异系数是相对数,没有单位,反应观察值的相对变异程度,更便于资料间的互相比较。它常用于:

①比较度量衡单位不同资料的变异度。 ②比较均数相差悬殊的资料的变异度。 ③变异系数CV是衡量精密度和稳定性的常用指标,变异系数愈小,各次测定结果距离均值愈近,说明测定方法的精密度愈高,稳定性好。不同实验指标对精密度和稳定性要求不一,一般情况下的要求是:化学定量指标CV≤1%;免疫学定量指标CV<5%;生物活性指标CV≤10%;生化分析CV≤10%;在药理实验中CV<0.05可认为稳定性好,CV>0.2则表示实验波动太大,应当改进实验方法。

表3-2 RBC和Hb的均数和标准差 【例3-9】 比较表3-2中RBC与Hb的变异度。

均数 标准差 RBC和Hb的单位不同,不能用标准差s作比较,

RBC(万/mm3) 310.04 85.88 可以通过比较变异系数作结论。

Hb(g/dL) 8.72 3.33 RBC:CV=100%×85.88 / 310.04=27.70%;Hb:CV=100%×3.33 / 8.72=38.19%。

可见Hb的变异度大于RBC 。

第四节 正态分布

正态分布(normal distribution)又称Gauss分布,是一种最重要的连续型分布。 1. 正态分布的密度函数和分布函数 正态分布密度函数f(x)的图形即正态曲线(normal curve):

f(X)=

1e(X)2/(22)2,(–∞< X <∞) (3-13)

式中X为服从正态分布的随机变量(简称正态变量);f(X)为正态分布的密度函数;π为圆周率3.14159„;e为自然对数的底2.71828„;两个参数μ和σ分别为正态变量的总体均数和标准差。

正态变量的分布函数F (x)=P(X度函数f(X),F (x)即正态曲线下,横轴X上,自-∞累计到x图3-2 正态分布的

密度函数f(X)和分布函数F(X) 的面积,可通过对密度函数f(X)积分求得:

X221e(X)/(2)dX (3-14) F (x)= P (X22.标准正态分布的密度函数和分布函数

μ=0,σ=1的正态分布称为标准正态分布(standard normal distribution)。标准正态曲线的方程即标准正态密度函数,记为(Z):

41

第三章 定量资料的统计描述、参考值范围

(Z)=

12ez2/2,(–∞标准正态变量Z与正态变量X的关系是:

X Z = (3-16)

 式3-16将均数为μ标准差为σ的正态变量X,变换为均数为0、标准差为1的标准正态变量Z,称为标准正态变换;标准正态变量Z = (X-μ)/σ的值称为标准正态(离)差。

标准正态变量的分布函数记为Ф(z):

Ф(z)= P(Zz(Z)dZ=

21zeZ2/2dZ (3-17)

如图3-3,(z)表示标准正态变量取值为z时,标准正态曲线上纵坐标的高度。Ф(z)反映标准正态曲线下,横轴Z上自-∞到z的面积,也就是标准正态变量的取值自-∞累计到z的概率P(Z< z)。

均数为μ标准差为σ的正态变量分布函数值与对应的标准正态变量分布函数值相等:

xF(x)=Φ=Ф(z),

x即P(X≤x)=Φ=P(Z≤z) (3-18)

3.正态分布的特征

图 3-3 标准正态分布的 密度函数(Z)和分布函数Φ(Z)

(1)正态分布具有集中性、对称性和均匀变动性:正态曲线以均数为中心,左右对称逐渐下降;正态曲线具有正态峰,正态峰在横轴上方均数所对应的曲线处。

(2)正态分布的图形由参数μ和σ确定。正态变量X的均数μ是位置参数,当σ恒定后,μ增大,则曲线沿横轴向右移动;反之,μ减小,则曲线沿横轴向左移动。标准差σ是表示变异度的形状参数,当μ恒定时,σ越大,表示数据越分散,曲线越“矮、胖”;σ越小,表示数据越集中,曲线越“高、瘦”。

变量X服从均数为μ,标准差为σ的正态分布,常记为X~N(μ,σ2);变量Z服从标准正态分布,常记为Z~N(0,1)。

(3)任何均数为μ,标准差为σ的正态变量X,都可通过式3-17变换为标准正态变量Z。

(4) 正态变量的分布有一定规律,我们用正态曲线下面积的分布规律来说明。 任何一个随机变量各种可能取值的概率之和恒为1。随机变量概率分布的双侧(或单侧)尾部概率为α时,对应的变量值称为双侧(或单侧)临界值,简称α界值或界值。

4.正态分布的规律

(1) 标准正态变量的分布规律:附表1是按标准正态曲线下,横轴上,自-∞累计到Z值的单侧面积编成的标准正态分布函数值表,表中数值表示Z值左侧面积占总面积的百分

42

第三章 定量资料的统计描述、参考值范围

数。用表中Ф(Z)的数值查对应的横标目和纵标目,可得出对应的Z值。

因标准正态分布是以0为中心的对称分布,曲线下,两侧尾部面积各为/2,共为α时,右侧对应的Z界值记为Zα/2;左侧的Z界值为-Zα/2。称Z/2为标准正态分布的双侧α界值:

P(Z <-Zα/2)= P(Z> Zα/2)=α/ 2 (3-19) P(-Zα/2< Z< Zα/2)=1-α 即 P(│Z│Zzα)=α (3-21) P(Z>-Zα)= P(Z【例3-10】查标准正态分布z界值表(附表1),得双侧界值z0.05/2=1.96,它表示标准正态变量的取值小于-1.96的概率=变量Z大于1.96的概率=0.025,反之,变量Z大于-1.96而小于1.96的概率=1-2×0.025=0.95,即:

P(Z<-1.96)=P(Z >1.96)= 0.025,P(-1.96以Ф(z)=α= 0.05查附表1的横标目和纵标目,得出的数值取绝对值,得双侧0.10界值z0.10/2=单侧0.05界值z0. 05=1.65,它表示:

P(Z<-1.65)=P(Z>1.65)=0.05,P(Z>-1.65)=P(Z<1.65)=0.95

标准正态单侧界值zα=同侧的双侧界值z2×α/2。如,z0. 005=z0.01/2=2.58,

由正态分布的对称性,标准正态曲线下对称于0的区间面积相等:Ф(z) =1-Ф(-z)。如区间(-∞,-2.58)与区间(2.58,+∞)的面积相等,都等于0.005。区间(-∞,2.58)与区间(-2.58,+∞)的面积相等,都等于0.995。

(2)一般正态曲线下面积的分布规律:求均数为μ方差为σ2的正态曲线下面积,先按标准正态变换z =(x-μ)/σ求得x值对应的Z值,再用z值查附表1,得Ф(z),即所求区间面积占总面积的比例。如图3-4,理论上,上下限为μ±σ,μ±1.96σ,μ±2.58σ区间的面积分别占总面积(总观察单位数)的68.27%,95%,99% 。以后经常要用到。

f(X)68.27% f(X) f(X)15.86%15.86%95%2.5%2.5%0.5%XX99%0.5%X图3-4 正态密度曲线下面积的分布规律示意图 1.961.962.582.58 【例3-11】若已知健康女大学生血清总蛋白含量服从正态分布,均数μ=73.8g/L,标准差σ=3.9g/L,试估计168名健康女大学生血清总蛋白含量在72.0~78.6g/L范围内的人数。

查统计用表:由式3-18,血清蛋白含量在72.0g/L~78.6g/L范围内的概率为

78.673.872.073.8P(72.0x78.6)=P(x78.6)P(x72.0)=ΦΦ

3.93.9 =Φ(1.23)Φ(0.46)=0.07-0.3228=0.5679, 故,168名健康女大学生血清总蛋白含量在此范围内的人数约为168×56.79%=95人。

43

第三章 定量资料的统计描述、参考值范围

【DPS11.0操作】鼠标击空白单元格,在半角状态下,键入

=168*(norm((78.6-73.8)/3.9)-norm((72.0-73.8)/3.9))

→OK按钮,该单元格得到95.5230。

【SPSS17.0操作】在数据视图第1列键入数字1,→转换菜单→计算变量,目标变量框键入人数,→函数组框→CDF与非中心CDF,→函数和特殊变量框→CDF.NORMAL,于数字表达式框改为168*(CDF.NORMAL(78.6,73.8,3.9)-CDF.NORMAL(72.0,73.8,3.9))。数据视图产生新变量人数95.52。

【SAS8.0操作】调用probnorm函数,见程序3-2。运行后,得到95.5230。

程序3-2 正态分布函数计算程序 行号 语句 01 data L3_2; 02 m=probnorm((78.6-73.8)/3.9); 03 n= probnorm((72.0-73.8)/3.9); 行号 04 x=168*(m-n); 05 proc print; var x; 06 run; 语句 4.正态分布的应用 正态分布在统计理论和应用中占有特别重要的地位,很多抽样分布如2分布、t分布都是建立在正态分布基础上的。 二项分布、Poisson分布、t分布等的极限为正态分布。

大量实践经验和理论分析表明,许多医药指标如人体的某些正常生理值都可看作和近似看作服从正态分布,从而可按正态分布规律估计参考值范围。很多资料,如毒物致死量、食物中毒潜伏期、剂量-效应曲线、正常成人血铅含量等,虽不服从正态分布,但经变量代换(如取对数)后则服从正态分布或近似正态分布,可按正态分布规律来处理。

利用随机误差服从正态分布,系统误差不服从正态分布的特点,可进行测量过程的质量控制。

5.统计推断和计算公式的推导中经常应用到的正态变量性质

(1)相互的正态变量的代数和仍为正态变量;常数与正态变量的乘积仍为正态变量;正态变量的线性函数仍为正态变量。

(2)正态变量的和(差)的均数等于正态变量均数的和(差);常数与正态变量乘积的均数等于常数与正态变量均数的乘积。

(3)常数与正态变量乘积的方差等于常数的平方与正态变量方差的乘积;相互的正态变量的和或差的方差都等于正态变量方差的和。

6.对数正态分布 若随机变量X不服从正态分布,但X的对数(如lnX、lgX等)服从正态分布,则称X服从对数正态分布。

服从对数正态分布的资料,常通过对数变换为正态分布资料来处理。

第五节 容许区间与参考值范围

容许区间(tolerance limit of population)又称预测区间(prodiction interval),指的是总体中绝大多数个体观察值可能出现的范围。医学临床中,常将就诊者的某些生理、生化、免疫学等指标的测定结果,与排除了对所研究指标有影响的疾病和有关因素的大多数“正常

44

第三章 定量资料的统计描述、参考值范围

人”的相应数值进行比较,以就诊者的测定值是否超出了大多数“正常人”相应指标的波动范围,作为临床诊断的重要参考,所以称之为医学参考值范围(reference range)。由于医学参考值范围通常是从对“正常人”的观察中取得,故亦称医学正常值范围。如95%参考值范围或正常值范围的含义是指样本中有95%的个体其测定值在所求的范围之内。

如正态分布资料,双侧时,按标准正态变量值的分布规律P(-zα/2< Z P(-zα/2从而推导出 P(μ-zα/2σ< x < μ+zα/2σ)= 1-α 故有正态变量值x的双侧(1-α)容许区间计算公式:

(3-24)

(μ-zα/2σ,μ+zα/2σ),缩写为μ±zα/2σ (3-25)

单侧时,按标准正态变量值的分布规律 P (Z>-zα)= 1-α,P (Z< zα)=1-α

即 P (x> -zα)=1-α ,P(x< zα)= 1-α

推导出 P(x >μ-zασ)=1-α ,P(x< μ+zασ)=1-α (3-26) 得出正态变量值x的单侧(1-α)容许区间计算公式:

>(μ-zασ),或 <(μ+ zασ) (3-27)

当μ和σ未知时,可用大样本的x和s分别作为μ和σ的估计值,来计算参考值范围。 常用求参考值范围的方法有正态分布法、对数正态分布法、百分位数法: 1. 正态分布法: 适用于正态或近似正态分布资料。

(1)正态变量x的双侧(1-α)参考值范围计算公式: (x-zα/2s,x+zα/2s),缩写为 x±zα/2s (3-28)

(2)正态变量x的单侧(1-α)参考值范围为: 表3-3 常用zα界值表

>(x-zαs),或<(x+zαs) (3-29) α 单侧zα 双侧zα

式3-28和式3-29中的x和s均由大样本算得。常用z界0.01 2.326 2.576 值见表3-3。

为方便起见,下面列出常用求正态分布资料95%参考值范围的方法及计算公式:

0.05 0.10 0.20

1.5 1.282 0.842

1.960 1.5 1.282

双侧95%的界限值为: x±1.96s (3-30) 单侧95%的上限值为: x+1.5s (3-31) 单侧95%的下限值为: x–1. 5s (3-32) 【例3-12】 由例3-1知某地正常人的血糖(mmol/L)服从正态分布,148名该对象的

x=491.22,s =49.103,求该地正常人血糖的95%参考值范围。

因血糖不宜过高或过低,宜用双侧公式:

x±1.96s=491.22±1.96×49.103=(394.98,587.46)mmol/L

该地正常人的血糖有95%在(394.98,587.46)mmol/L范围内。 偏态分布资料不能直接用正态分布法求其参考值范围。

2.对数正态分布法 适用于对数正态或近似对数正态分布资料。对数正态或近似对数

45

第三章 定量资料的统计描述、参考值范围

正态分布资料,先将变量值作对数变换,计算对数值的均数与标准差后,计算对数值的参考值范围,再求反对数,即得所求参考值范围。计算公式:

双侧95%的界限值为: lg-1(xlgx±1.96slgx) (3-33)

单侧95%的上限值为: lg-1(xlgx+1.5slgx) (3-34) 单侧95%的下限值为: lg-1(xlgx–1.5slgx) (3-35) 3.百分位数法 适用于偏态分布或分布型不明资料的参考值范围估计。该法的优点是应用范围广,不受资料分布的制约,方法简便。当样本含量很大时,用百分位数法所得结果与正态分布法相近。百分位数法计算(1-α)参考值范围计算公式:

双侧为P100α/2~P100-100α/2;单侧为>P100α或<P100-100α (3-36)

双侧95%的界限值为P2..5和P97..5;单侧95%的上限值为P95;单侧95%的下限值为P5。 【例3-13】调查得某市某年996名女大学生月经初潮年龄分布如表3-4第①、②行。本题所给的资料明显属于偏态分布资料,所以用百分位数法估计其参考值范围:

表3-4 某市1979年996名女大学生月经初潮年龄的分布 ①年龄段 10~ 11~ 12~ 13~ 14~ 15~ 16~ 17~ 18~ ②频数 ③累计频率(%)

7

0.7

44 5.1

153 20.5

244 45.0

269 72.0

191 91.2

61 97.3

16 98.9

8 99.7

19~ 1 99.8

20~ 2 100.0

合计 996

各年龄段的累计频率(%),见表3-4第③行。根据累计频率,第0.5百分位数在第1组,得∑fL=0,Lx=10,fx=7,i=1。代入式3-7得:

P0.5=10+1×(996×0.5%-0) /7 =10.71(岁)

由P99.5所在“18~”组,得∑fL=985,Lx=18,fx=8,i=1。代入式3-7得:

P99.5=18+1×(996×99.5%-985)/8=18.75(岁)

该市该年女大学生月经初潮年龄的双侧99%参考值范围是10.71~18.75(岁)。

【SPSS17.0操作】在数据视图第1列键入年龄的值10.5、11.5、„、20.5,第2列键入频数的值7、44、„、2。→数据菜单→加权个案,→加权个案,频数送入频率变量框。→分析菜单→描

述统计→频率,年龄送入变量框,→统计量→百分位数,0.5→添加,99.5→添加,→继续,→确定。

得到各组段累积频率及第0.5、99.5百分位数分别为10.50、18.50。

【DPS11.0】在电子表格第1、2列键入年龄、频数的值。选定数据块,→数据分析菜单→参

考值范围,→是频次数据吗→Yes。得到双侧99%界限:10.47 ~17.9212。

4.制定医学参考值范围的注意事项

(1)按随机化方法从正常人总体中抽取样本含量足够大的样本。这里所说的正常人是指排除了影响被研究指标的疾病或因素的人。参考值范围(医学正常值范围)是根据大样本值近似地估计μ和σ的,因此样本含量不能过小,一般应在100例以上,以能取得一个较为稳定的样本为原则,当继续增大样本含量而x与s 无大变化时的样本含量为可。研究指标的影响因素较多,数据变异大,样本含量也应该相对多一些。

(2)根据指标的实际用途,结合专业知识来决定应取单侧还是双侧。指标过高与过低均为异常时取双侧。指标仅过高或过低为异常时取单侧。如确定白细胞总数的参考值范围,

46

第三章 定量资料的统计描述、参考值范围

因为白细胞数无论过高或过低均属异常,故取双侧。如确定肺活量或血铅的参考值范围,因为肺活量只以过低为异常,故取大于单侧下限;血铅含量只以过高为异常,故取小于单侧上限。

第七节 离群值的取舍、变量变换

一、离群值的取舍

测量数据中有时会有个别过大或过小,与群体数据严重偏离的可疑数据,这种数值称为离群值(outlier)或极端值(extreme value)。离群值有两种可能:可能是测量值随机波动的极度表现,即极值,它虽然与其余数据相差较远,但仍然是处于统计上所允许的合理误差范围之内,与其余数据属于同一总体,是局内值。离群值也可能是与其余数据不属于同一总体的异常值,是局外值。如果在测量数据中混有局外值,必然会歪曲试验结果,此时若能将该值舍弃,将使结果更符合客观实际情况。但若将本来不是异常的测量值主观地作为异常值舍弃,虽然得到分散很小、精度很高的结果,而此结果实质上是虚假的,并不是客观情况的真实反映。

对待离群值务必进行认真分析,有时离群值可能导致意外发现。

对离群值的取舍原则:在周密的实验设计指导下所获得的实验数据,一般都不应随意舍弃。对离群值首先应反复检查、核对,如果确认数据有逻辑错误,又无法纠正,可直接删除该数据。例如,若某一数据中某病例的身高变量为“685\"cm,可根据其标识变量值核对,若原始记录亦如此,又无法再找到该病例时,显然这是一个错误的记录,只能删除。若找不出任何原因,数据并无逻辑错误,可将该数据剔除前后各做分析,若结果不矛盾,则保留;若结果矛盾,可用统计方法判断取舍。

判断离群值是否局外值的方法有x±3s法、格拉布斯(Grubbs)法、狄克松(Dixson)法等多种。

x±3s法:适用于正态分布资料,且样本含量较大(最好n≥60,n较小时,此法不适用,至少要n>10,当n≤10时,无论可疑值是多大,它都不会超过x±3s)。以xj代表离群值,按小概率原理,可以根据x-3s~x+3s范围内是否包括xj作出判断:当xj在x-3s~x+3s范围之外时可舍弃,当xj在此范围之内时保留。

【例3-14】研究一批人工培植人参中M物质的含量(μg),次测得的结果如下,经鉴别和反复检查,肯定无粗枝大叶,操作失误等过失,对于最小值x1=31和最大值x76=58,找不出任何原因,判断是否为局外值。

31 43 37 43 48 44 43 47 45 42 41 43 48 44 41 42 41 41 38 41 32 41 43 47 41 43 41 41 49 41 41 46 41 42 51 39 39 43 41 44 49 41 50 51 42 51 38 39 58 39 44 45 50 51

直接计算。x=43.28μg,s=4.81μg,用x ±3s法:(x-3s,x+3s)=(28.85,57.71)。最小值x1=31在此范围内,x1不是局外值。最大值x=58在范围外,是局外值,应舍弃。

【DPS11.0操作】在电子表格输入数据,鼠标选定数据块,→数据分析→异常值检验,→检验

47

第三章 定量资料的统计描述、参考值范围

分析方法→3S,→P值→0.05,→OK,输出“第3行,第13列数值58异常”。若将该数据58改为57操作,则输出“没有检测出异常值”。

注意:(1)在一组观测值中离群值总是少数,一般认为一侧舍弃的数据不应多于2个。若个数较多,则应从实验要素的选择及实验方法、条件等方面查找原因。

(2)剔除离群值,必须给予合理的解释,例如用何种方法确定偏离数据,该数据在实验中何种干扰下产生等。

二、变量变换

变量变换即将原始数据转换成某种函数值,目的是使变换后的数据达到统计分析要求。例如用方差分析作多个样本均数间的比较时,要求各样本数据具有正态性、方差齐性。样本数据稍微偏离上述性质还是允许的。如果严重地偏离,则不能直接用方差分析。解决问题的办法之一是进行变量变换。数据变换虽然改变了资料分布的形式,但未改变各组资料间的关系,其缺点是分析结果的解释欠直观。医药统计中变量变换的方法很多,如:对数变换、平方根变换、倒数变换、反正弦变换、logit变换、概率单位变换等。需根据变换的目的和原数据的性质、分布特征,特别是变换后的效果选择变量变换的方法。

概率单位变换见第九章第七节,logit变换见第十八章,这里介绍对数变换、平方根变换: 1.对数变换 对数变换(logarithmic transformation)是指以原始数据的对数值作为统计分析的变量值。例如y=lnx.。用对数变换时,原数据中不能有零和负数。当原数据中有小值及零或有负数时,可根据需要选用y=ln(x+k)、y=ln(x-k)等。

对数变换常用于:①使服从对数正态分布的资料正态化。②方差不齐,但是变异系数接近甚至等于某一常数,标准差与均数成比例的资料,可经对数变换以缩小各方差间的差别,使资料达到方差齐性要求。③使曲线直线化,常用于曲线拟合。

2.平方根反正弦变换 平方根反正弦变换(inverse sine transformation) 是一种角度转换(angular transformation),如式3-37:

--

α= sin1p或α= 2sin1p (3-37)

原始数据为百分数(亦可是千分数,万分数等)p且接近于0或1时,分布为偏态,作平方根反正弦变换,可改善正态性和方差齐性。平方根反正弦变换最适用于各组百分比的极差较大得资料,也可用于S形曲线或反S形曲线的直线化。注意:p= x/n的分母相同是平方根反正弦变换的前提条件,不能将原基数不同的p进行角度变换。

练习题3

1.判断题

(1)对称分布资料,理论上均数和中位数一致。(√)

(2)反映定量变量观察数据集中位置的最常用指标是中位数。(×) (3)在正态分布条件下,表示变量值变异情况的最常用指标是标准差。(√) (4)变异系数越大,说明以均数为准的变异程度大。(√)

48

第三章 定量资料的统计描述、参考值范围

(5)参考值范围的估计对样本大小没有要求。(×) (6)制定参考值范围的统计方法决定于资料的分布。(√)

(7)在某一人群内,某项生理指标x的数值近似服从正态分布,而且其他因素的影响可忽略,假定x超过双侧99%正常值范围时怀疑有某病。从该人群正常人中随机抽查了n=300的一个样本,计算得x= 76.,s =11.97。现有该人群中的某人,其x=108,他应为某病的怀疑对象。(√)

(8)用测得的200例正常成年男子高密度脂蛋白(g / L)的数据,按统计公式求出了该指标的95%正常值范围,则600例中有3×95=285人的高密度脂蛋白(g/ L)的测定值在该指标的95%正常值范围之内。(×)

(9)随机抽查100名50岁以下正常女性血清铁蛋白(mg/ml)的测定结果,计算得均数x=30.18(mg/ml),中位数Md=21.5(mg/ml)据此,该资料宜用均数描述集中趋势。(×)

(10)在整理实验数据时,如果随意将那些自认为\"过大或过小\"的数据舍弃掉,不仅使实验研究的真实性受到了破坏,有时还容易失去发现奇迹(如基因的突变)的机会。(√)

(11)如果标准差大于均数,那么一定不符合正态分布。(√) (12)对于样本而言,∑(Xi- x)=0,∑(Xi-μ)=0。(×) 2.选择题或最佳选择题

(1)用百分位数法求医学正常值范围,适用于(B)。

A.任何分布

B.偏态分布

C.正态分布

D.对称分布

(2)随机抽得观察指标为数值变量的实验数据为21.23.25.27.28.20.22.23.25.24.求平均水平,最好选用(C)。

A.中位数

B.几何均数

C.算术均数

D.百分位数

(3)有5人的血清滴度为:1:20,1:40,1:80,1:160,1:320则平均滴度是(B)。

A.1:40

B.1:80

C.1:160

D.1:320

(4)正常成年男子的血铅含量系偏态分布资料,对数变换后呈正态分布。欲描述血铅的平均水平宜用(B)。

A.原始数据的算术均数 C.原始数据的中位数

B.原始数据的几何均数 D.原始数据的标准差

(5)偏态分布数值资料,对数变换后,分布仍呈偏态。描述数据的集中趋势宜用(C)。

A.算术均数

B.几何均数

C.中位数

D.标准差

(6)调查某市一所中学16岁男生,测量其身高x1=161.87, s1=5.94,胸围x2=74.38,s2=5.92。你认为何者的离散程度为大(B)。

A.二者离散度相等

B.胸围的离散度大于身高的离散度 D.无法判定

C.身高的离散度大于胸围的离散度

(7) 关于标准差,下面哪个说法是正确的(B)。

A.标准差可以是负数 C.标准差无单位

B.标准差必定大于或等于零 D.同一资料的标准差一定比均数小

(8) 关于变异系数,下面哪个说法是错误的(D)。

A.变异系数就是均数与标准差的比值

49

第三章 定量资料的统计描述、参考值范围

B.比较同一人群的身高.体重两项指标的变异度时宜采用变异系数 C.两组资料均数相差悬殊时,应用变异系数描述其变异程度 D.变异系数的单位与原始数据相同 (9)关于计量资料的统计描述,正确的是(D)。

A.平均水平用均数描述

B.变异程度用标准差描述 C.四分位数间距可描述抽样误差

D.四分位数间距可描述个体变异度

E.标准差描述可抽样误差

(10)从到μ+1.96σ范围内占正态曲线下面积的(E)。

A.80%

B.99%

C.95%

D.5%

E.47.5%

(11)反映计量资料平均水平的指标是(D)。

A.频数

B.参数

C.百分位数

D.平均数

E.统计量

(12)一组某病患者的潜伏期(天)分别是:23.4.63.7.10和18,其平均水平的指标该选(A)。

A.中位数

B.算术均数

C.几何均数

D.平均数

E.百分位数

(13)下列指标中,不属于集中趋势指标的是(C)。

A.均数

B.中位数

C.百分位数

D.几何均数

E.众数

(14)(E)分布的资料,均数等于中位数。

A.对称分布 B.正偏态分布

C.负偏态分布

D.对数正态分布

E.正态分布

(15)利用频数分布表和公式M=L+i(n/2-∑fL)/ fm计算中位数时,要求(C)。

A.数据对称分布

B.分布末端有确定数据

C.是中位数所在组的组距

D.数据呈正态分布 E.每组的组距相等

(16)以下适宜描述定量资料离散趋势的指标有(D)。

A.均数.标准差.方差 B.极差.标准差.中位数

C.均数.中位数.变异系数

D.标准差.四分位数间距.变异系数

E.几何均数.标准差.变异系数

(17)下列指标中,适合描述偏态分布的离散趋势的指标是(B)。

A.平均偏差

B.四分位数间距 C.标准差

D.方差

E.变异系数

(18)下列关于标准差的说法中错误的是(C)。

A.标准差一定大于0

B.标准差和观察指标有相同的度量衡单位 C.同一资料的标准差一定小于均数

D.标准差常用于描述正态分布资料的变异程度

E.方差和标准差属于描述变异程度的同类指标

50

第三章 定量资料的统计描述、参考值范围

(19)变异系数的值(C)。

A.一定大于1

B.一定小于1

C.可以大于1,可以小于1 E.一定比均数小

D.一定比标准差小

(20)观察指标分别为身高和体重的两组数据,欲比较其变异程度的大小,宜选用(E)。

A.平均偏差 E.变异系数

(21)正态分布有两个参数( B )。

A. x和S E.μ和CV 3.问答题、思考题

(1)反映集中趋势的统计指标主要有哪几种?它们的适用范围有何异同?

反映集中趋势的统计指标主要有均数、几何均数和中位数,均用于计量资料的统计描述,但适用范围不同。均数适用于变量值呈对称分布,尤其是正态分布资料,几何均数适用于等比资料、对数正态分布资料,中位数适用于偏态分布资料,或分布一端(或两端)无确切值,或分布不清楚,或有特异值的资料。

(2)测得10名乳腺癌患者化疗后血液尿素氮含量(mmol/L)分别为3.43,2.96,4.43,3.03,4.53, 5.25,5.,3.82,4.28,5.25,试问:

A.该资料是总体资料还是样本资料? 样本资料 B.其总体的同质基础是什么?

观察对象均被确诊为乳腺癌患者,测量数值均是化疗后的血液尿素氮含量。 C.要表达资料的平均水平,该选用什么统计指标? 均数或中位数 (3)试比较标准差和变异系数在描述资料变异程度时的优势。

标准差和变异系数在描述资料变异程度时,都适用于正态分布或者近似正态分布的资料,但是各有优点。标准差和均数、观察值的度量衡单位相同,可以直接用于代数运算,而且和均数一起可以完整地描述正态分布资料的特征。在比较均数相差较大或度量衡单位不同的几组观察值的变异程度时,只能选用变异系数。

(4)简述医学参考值范围的涵义。

指大多数正常人的解剖、生理、生化、免疫等各种数据的波动范围。所谓正常人,并非一定是“健康人”,而是指排除影响研究指标因素的同质人群。

(5)简述标准正态分布和正态分布的区别与联系。

标准正态分布的均数为0、标准差为1;正态分布的均数则为,标准差为(为任意数,而为大于等于0的任意数)。标准正态分布的曲线只有1条,正态分布曲线是一簇。如何正态分布都可以通过标准正态变换变成标准正态分布。标准正态分布是正态分布的特例。

4.分析计算题

(1)某市12岁男孩身高X(cm)~N(143.10,5.672),X的变异系数CV(%)=? CV(%)=5.67/143.10 (2)某市幼儿群体身长的均数为85cm、标准差为4cm,该市运动员群体身长的均数为185cm、标准差为4cm,比较两个群体身长的波动程度何者为大。幼儿群体身长的波动程度大。

(3)某市12岁男孩身高X(cm)~N(143.10,5.67),求X的99%参考值范围,说明该范围的实际意

Bμ和σ

C. x和σ

D. μ和S

B.四分位数间距

C.标准差

D.方差

51

第三章 定量资料的统计描述、参考值范围

义。并求身高在140cm~145cm之间男孩所占百分比。

X的99%参考值范围为(128.4714,157.7286)cm,该范围的实际意义是:若某12岁男孩身高在这个范围之外,则可怀疑此男孩身高异常,判断失误的概率不超过1%。身高在140cm~145cm之间男孩所占百分为33. 90%

(4)已知10例某种传染病的潜伏期分别为5,6,8,3,2,4,6,10,9,>14天,请计算其离散趋势指标。采用四分位数间距描述离散趋势,Q=5

(5)某正常人群在生命质量评定中,得到130人量表(满分100分)评分如下:

量表评分 例数

0~ 13

20~ 20

40~ 25

60~ 32

80~100 40

问:A欲描述该资料的离散趋势,宜用什么指标? 宜用四分位数间距,Q=44.25

B利用该资料制定量表的参考值范围,应如何制定? 应该选用百分位数法,选用双侧95%范围,其参考值范围是(5.00,98.38)

52

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sceh.cn 版权所有 湘ICP备2023017654号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务