第九章 t检验和方差分析
在科研中,我们往往是根据样本之间的差异,去推断其总体之间是否有差异。样本差异可能是由抽样误差所致,也可能是由本质的不同所致。应用统计学方法来处理这类问题,称为“差异的显著性检验”。若已知总体为正态分布,进行差异的显著性检验,称为“参数性检验”,SAS中MEANS、TTEST、ANOVA、GLM等均属此类检验;若未知总体分布,进行差异的显著性检验,称为“非参数性检验”,SAS中采用NPAR1WAY过程。
第一节 t检验
9.1.1 简介
t检验是用于两组数据均值间差异的显著性检验。它常用于以下场合:
1.样本均值与总体(理论)均值差别的显著性检验
检验所测得的一组连续资料是否抽样于均值已知的总体
根据大量调查的结果或以往的经验,可得到某事物的平均数(例如生理生化的正常值),以此作总体均值看待。
SAS中采用MEANS过程,计算出观察与总体均值的差值,再对该差值的均值进行t检验。
2.同一批对象实验前后差异的显著性检验(自身对照比较)或配对资料差异的显著性检验(配对比较检验) 比如,在医学研究中,我们常常对同一批病人治疗前后的某些生理生化指标(如血压、体温等)进行测量,以观察疗效;或对同一批人群进行预防接种,以观察预防效果;或把实验对象配成对进行测定,比较其实验结果。
SAS中采用MEANS过程,计算出两样本观察的差值(如治疗前、后实验数据的差值),再对该差值的均值进行t检验。
3.两样本均值差异的显著性检验
作两样本均值差异比较的两组原始资料各自,没有成对关系。两组样本所包含的个数可以相等,也可以不相等。每组观测值都是来自正态总体的样本。
设X1与X2为两样本的均值,n1与n2为两样本数,s12,s22为两样本方差,分两种情形,其数学模型为:
(1)方差齐(相等)时:
tx1x2s(1/n11/n2)2
2s2[(n11)s12(n21)s2]/(n1n22)
精品文档
精品文档
(2)方差不齐时: tx1x2s/n1s/n22122
SAS中采用TTEST过程,先作方差齐性检验(F检验),然后根据方差齐(EQUAL)和方差不齐(UNEQUAL)输出t值和P值以及基本统计量。
在作方差齐性检验时,用F检验。F值计算公式为:
2Max(S12,S2) F22Min(S1,S2)
9.1.2 用MEANS过程作t检验
1.过程格式
PROC MEANS MEAN STD STDERR T PRT; VAR变量表;
2.说明
(1)PROC MEANS语句中,选择了5个统计量:均值、标准差、标准误差、t值、P值。
(2)VAR语句中的变量是分析变量。缺省时,计算所有数值型变量。
3.举例
例1: 样本均值与总体均值差别的显著性检验。
已知某水样中含CaCO3的真值为20.7mg/L,现用某方法重复测定该水样11次,CaCO3的含量为:20.99,20.41,20.10,20.00,20.91,22.60,20.99,20.41,20,23,22。问用该法测CaCO3的含量所得的均值与真值有无显著差别 ?
程序: (yp111.sas) 编程说明:
在数据步中,变量x读取测定值,产生一个差值变量y(y=x-20.7),在过程步中,计算出Y的均值、标准差、标准误差、t值、P值。
结果说明:
因t=1.0636907,0.05
例2:配对比较的t检验。
研究食物中维生素E与肝脏中维生素A含量的关系。将大白鼠按性别、体重配对。每对随机分配,一个用正常饲料,一个用缺乏维生素E的饲料。经过一个时期饲养,杀死动物测定肝中维生素A的含量,结果如下表:
精品文档
精品文档
大白鼠肝脏中维生素A含量(IU/g)
配对号 正常饲料 缺乏E饲料
1 2 3550 2000 2450 2400
3 3000 1800
4 3950 3200
5 3800 3250
6 3750 2700
7 3450 2500
8 3050 1750
程序: (yp112.sas) 编程说明:
数据步中,把每对数据中的一个作为x,另一个作为y,计算出差数d(d=x-y),在过程步中,计算差数d的均值、标准差、标准误差、t值、P值。
结果说明:
因t=4.21 p=0.0040<0.05,故有非常显著差异,即正常饲料组鼠肝维生素A含量比维生素E缺乏组的含量大。
例3 自身对照比较的t检验。
应用克矽平治疗矽肺患者10名,治疗前后血红蛋白的含量如下表,问该药是否会引起血红蛋白的变化?
治疗前后血红蛋白的含量(mg%)
治疗前 治疗后
11.3 15.0 15.0 13.5 12.8 10.0 11.0 12.0 13.0 12.3 14.0 13.8 14.0 13.5 13.5 12.0 14.7 11.4 13.8 12.0
程序: (yp113.sas) 编程说明:
数据步中,把每对数据中的一个作为x,另一个作为y,计算出差数d(d=x-y),在过程步中,计算差数d的均值、标准差、标准误差、t值、P值。
结果说明:
因t=1.19377,O.05
9.1.3 用TTEST过程作t检验
1.过程格式
PROC TTEST [DATA=数据集]; CLASS变量; VAR变量表;
2.说明
(1)CLASS语句中的变量是分类变量,其水平值只能有两个,并对应两组观察。是必选语句。
(2)VAR语句中的变量是被分析的变量,如果缺省,则对所有的数值型变量进行分析。
精品文档
精品文档
3.举例
观察某药物对大白鼠肉瘤的影响。数据如下表,试作差异性检验。
对照组 实验组
56 50
55 48
49
53 49
56 50
52 50
57 60
55
52 43
56 52
56
57
程序: (yp114.sas) 编程说明:
数据步中,用循环控制变量a作分类变量,其水平值为1(对照组)和2(实验组),变量n表示样本数,分别为10和12,用变量x读取原始数据,在过程步中,用CLASS语句标识分类变量,用VAR语句标识分析变量。 结果说明:
输出的最后:H0:Variances are equal(方差相等)表示给出的是对方差相等假设的结果。
先看方差齐性检验(F检验),然后根据F检验的结果,选择方差齐(Equal)或不齐(Unequal)的t值和p值,以及两组观察的均值、标准差、标准误差、最大值、最小值。
找Prob>F’=右边的值,即方差相等假设检验的P值,如果此值大于0.01则在方差相等假设下继续进行,否则只能使用近似T检验。因P=0.0074,说明方差差异显著,即方差不齐。
当方差不齐时,T=2.0000,0.05
第二节 方差分析
当试验结果受到多个因素的影响,而且也受到每个因素的各水平的影响,为从数量上反映各因素以至各因素诸水平对试验结果的影响时使用方差分析的方法。
方差分析的基本思想是把全部数据关于总均值的离差平方和分解成几个部分,每一部分表示某因素交互作用所产生的效应,将各部分均方与误差均方相比较,从而确认或否认某些因素或交互作用的重要性。用公式概括为:
总变异=组间变异+组内变异
其中:组间变异由各因素所引起,组内变异由个体差异所引起的,或者说由误差引起的。
常用的方差分析法有以下4种:
(1)完全随机设计资料的方差分析(单因素方差分析) (2)随机区组设计资料的方差分析(二因素方差分析) (3)拉丁方设计资料的方差分析(三因素方差分析)
(4)R*C析因设计资料的方差分析(有交互因素的方差分析)
精品文档
精品文档
SAS系统中,ANOVA过程可以处理以上情形的方差分析,但它要求每个分类因子的组合观察数相等,即数据是均衡的。若不均衡,就要求用GLM过程进行处理。在只考虑组间变异和误差变异时,称为单向方差分析。此时ANOVA会自动处理均衡和非均衡数据。
在方差分析中,每次只研究1个指标时,称之为一元方差分析(简称ANOVA),同时考虑多个指标时,称之为多元方差分析(MANOVA)。在这一节里,我们还将讨论协方差分析。
9.2.1 均衡数据的方差分析(ANOVA过程)
1.过程格式
PROC ANOVA 选项 CLASS 变量表;
MODEL 因变量表=效应; MEANS 效应[/选择项];
2.使用说明
(1)程序中,CLASS语句和MODEL语句是必需的,而且,CLASS语句必须出现在MODEL语句之前。
(2)CLASS语句中的变量是分类变量,可以是数值型,也可以是字符型。
(3)MODEL语句指明因变量和自变量(因子变量)效应。效应是分类变量的各种组合,效应可以是主效应、交互效应、嵌套效应和混合效应。对应的效应模型如下:
·主效应模型MODEL y=a b c;
模型中,a,b,c是主效应,y是因变量。下同。 ·交互模型MODEL y=a b c a*b a*c b*c a*b*c; 模型中,a*b,a*c,b*c,a*b*c是交互效应。 ·嵌套效应模型MODEL y=a b c(a b); 模型中,c(a b)是嵌套效应。
·混合效应模型MODEL y=a b(a) c(a) b*c(a);
(4)MEANS语句是选择语句,计算并输出所列的效应对应的因变量均值,若指明了选择项,则将进行主效应均值间的检验。常用的选择项如下:BON、DUNCAN、LSD、REGWF、REGWO、SNK(Q检验)、SCHEFFE、SIDAK、SMM(GT2)、TUKEY、WALLER。以上选择项在实际应用中,一般选择一种或两种方法即可。
ALPHA=p 确定检验的显著性水平。缺省值是0.05。
精品文档
精品文档
3.举例
(1)完全随机设计资料的方差分析(单因素方差分析)
某劳动卫生研究所研究棉布、府绸、的确凉、尼龙四种衣料吸附十硼氢量。每种衣料各做五次测量,所得数据如下表。试检验各种衣料吸附十硼氢量有没有显著差别?
各种衣料间棉花吸附十硼氢量
棉布 府绸 的确凉 尼龙 2.33 2.48 3.06 4.00 2.00 2.34 3.06 5.13 2.93 2.68 3.00 4.61 2.73 2.34 2.66 2.80 2.33 2.22 3.06 3.60
程序: (yp115.sas) 编程说明:数据步中,用循环控制变量a做分类变量,其水平数是4,分别代表不同的衣料。过程步中,用CLASS语句指明一个因素a,用MODEL语句反映出该因素的效果模型。
结果说明:
在输出中,找CLASS语句指出的变量的P值。此例中,P≤0.0003,可得出各衣料组间有非常显著差异。说明各种衣料间吸附十硼氢量是不同的。R-Square(R平方)对单向方差分析时,描述组间变异占总变异的比例,它越接近1,说明变异越归因于组间变异。
(2)随机区组设计资料的方差分析(两因素方差分析)
用4种不同方法治疗8名患者,其血浆凝固时间的资料如下表,试分析影响血浆凝固的因素。
表:4种方法8名患者血浆凝固时间(分)资料 受试者编号处 理 组 (区组) 1 2 3 4 1 8.4 9.4 9.8 12.2 2 12.8 15.2 12.9 14.4 3 9.6 9.1 11.2 9.8 4 9.8 8.8 9.9 12.0 5 8.4 8.2 8.5 8.5 6 8.6 9.9 9.8 10.9 7 8.9 9.0 9.2 10.4 8 7.9 8.1 8.2 10.0 程序:(yp116.sas) 编程说明:
数据步中,变量a代表不同治疗方法,其水平数是4,变量b代表区
精品文档
精品文档
组因素不同患者,其水平数是8。过程步中,用CLASS语句指明两个因素a和b,用MODEL语句指明二因素的效果模型。
结果说明:
总处理间:F=14.03,P≤O.0001,故总体有非常显著差异。
A因素:F=6.62,P≤O.0025,故认为因素A(治疗方法)对血浆凝固时间影响很大。
B因素:F=17.20,P≤0.0001,故认为因素B(不同患者)对血浆凝固时间影响很大。
如果想对4种治疗方法进行两两比较,可在MODEL语句后增加一MEANS语句。例如,用SNK法比较,语句为:
MEANS A/SNK; (yp117.sas)
(3)拉丁方设计资料的方差分析(三因素方差分析)
若试验中涉及到3个因素,各因素间不存在交互作用,或交互作用很小可忽略不计,同时各因素的水平数又都相同,此种资料称拉丁方设计资料。
例:五种防护服,由五人各在不同的五天中穿着测定脉博数,如下表所示。试比较五种防护服对脉搏数有无不同。
表:五人穿着五种防护服的脉搏数 受 试 者 试验日期 甲 乙 丙 丁 戊 1 A 12.98 B 116.2 C 114.8 D 104.0 E 100.6 2 B 144.4 C 119.2 D 113.2 E 132.8 A 115.2 3 C 143.0 D 118.0 E 115.8 A 123.0 B 103.8 4 D 133.4 E 110.8 A 114.0 B 98.0 C 110.6 5 E 142.8 A 110.6 B 105.8 C 120.0 D 109.8 程序:(yp118.sas) 编程说明:
数据步中,变量a代表试验时间因素,变量b代表受试者因素,变量C代表防护服因素。过程步中,用CLASS指明三个因素,MODEL语句反映三个因素的效果模型。 结果说明: 因F=6.80 P≤0.0011,故总体有非常显著差异,其中只有一个区组B因素(受试者)影响极大(F=16.27 P≤0.001),而区组A因素(试验时间)和处理因素(防护服)都无显著差异。
(4)R*C析因设计资料的方差分析(有交互因素的方差分析)
治疗缺铁性贫血病人12例,分为4组给予不同治疗,一个月后观察红细胞增加数(百万/mm),资料如下表。试分析两种药物对红细胞增加的影响。
精品文档
精品文档
表:贫血病人治疗后红细胞增加数 甲药(A) 不用(A0) 用(A1) 乙药不用(B0) 0.8 0.9 0.7 1.3 1.2 1.1 (B) 用(B1) 0.9 1.1 1.0 2.1 2.2 2.0 程序:(yp119.sas) 编程说明:
数据步中。变量a代表甲药因素.变量b代表乙药因素。过程步中,用CLASS语句指明两个因素,用MODEL语句反映主效应(a b)和交互效应(a*b)模型。
结果说明: 因F=98.75, P=0.0001<0.01,故总体有非常显著差异,其中A因素(甲药)、B因素(乙药)、a*b因素(a和b的交互作用)都对红细胞增加数有非常大的影响。
为进一步分析其影响的强弱,可用MEANS语句: MEANS a b a*b: (yp120.sas)
(5)用Dunnet法进行均值间的比较(对照组与多个实验组的比较检验)。
Dunnett方法在比较若干“实验水平”与“对照水平”时使用一个临界差距(T):
Tq2ms,其中ms为将方差分析表中交互效应归入残差平方和后n的均方,即:
ms交互效应ss残差ss交互效应df残差df
n为样本大小, q为来自Dunnett分布的分位数,可根据样本组个数r,自由度df(交互效应df+残差df),以及比较的显著水平,查表确定。
Dunnett多重比较仅适用各“实验水平”与“对照水平”之间差异的比较,不适用于各“实验水平”间的相互差异比较。
精品文档
精品文档
例:有资料如下表,试比较白血病鼠与正常鼠脾中DNA平均含量(mg/g)差别有无显著意义?
表;白血病鼠与正常鼠脾中DNA平均含量(mg/g)
脾中DNA平均含量(mg/g)
A 正常鼠(对照组) 13.7 16.9
12.3 13.2 15.2 15.4 15.8
B1 自发性白血病鼠 10.8 12.3 12.7 13.5 14.8
11.6 13.5
9.8 10.3 11.7 11.7 12.0 12.3 B2 移植性白血病鼠 11.1
程序:(yp121.sas)
编程说明:
数据步中,变量a代表因素。过程步中,用MODEL语句指明一因素的效果模型,用MEANS语句进行a因素水平间的Dunnett法比较。
结果说明:
因F=11.42,P≤0.0006,故总体或A因素各水平间有非常显著差异。当A因素有意义时,可进一步分析组间的差异。
Dunnet法检验时,用“***”指明有显著性,由此可以看出,两组均值(A=2,A=3)与对照组(A=1)相比较,差别有显著意义。若改换对照组,假设是第2组(A=2)。应修改选择项DUNNETT(‘2’)。输出中给出DUNNET t的临界值为2.399、A3与A1均值之差为-1.9,其95%置信限的下限和上限分别为-3.597和-O.203。
(6)用SNK法(Q检验)作均值间的两两比较。
为研究酵解作用对血糖浓度的影响,从8名健康人中抽取了血液并制备成血滤液。每一个受试者的血滤液又分成4份,然后随机地把各份血滤液分别放置0、45、90、135分钟后测定其中血糖浓度(资料见下表)。试比较放置时间对血糖浓度有无影响。
表:放置时间对血糖浓度的影响 受试者编号放置时间(分) (区组号) 0 45 90 135 1 95 95 83 2 95 94 88 84 3 106 105 97 90 4 98 97 95 90 5 102 98 97 88 6 112 112 101 94 7 105 103 97 88 8 95 92 90 80 精品文档
精品文档
程序:(yp122.sas) 编程说明:
数据步中,变量a代表受试者因素,变量b代表放置时间因素。过程步中,作二因素的方差分析,用CLASS指明二个因素a和b,用MODEL语句指明二因素的效果模型,用MEANS语句对因素b作SNK检验(Q检验)。 结果说明:
因F=43.66,P≤0.0001,故总体有非常显著差异。 因F=28.74, P≤O.0001,说明因素A(受试者)对血糖浓度有很大影响。 因F=78.49,P≤0.000l,说明因素B(放置时间)对血糖浓度有很大影响。
对B因素各组均值作SNK法比较检验:
经SNK检验,可以看出:由于O和45分钟的均值间用同一字母A分组,故无显著差别(Means with the same letter are not significantly different),其余都有显著差别。
9.2.2. 非平衡数据的方差分析(GLM过程)
在SAS/STAT中GLM(General Linear Models)过程分析功能最多。它包括:
简单回归(一元回归) 加权回归
多重回归及多元回归 多项式回归
方差分析(尤其对不平衡设计资料更为有效) 偏相关分析 协方差分析 多元方差分析 反应面模型分析 重复测量方差分析
这里,我们先介绍有关GLM过程在方差分析中的应用。
GLM过程里,采用MODEL语句反映因变量与自变量(即效应)的模型,其形式是:
模型说明 模型类型
MODEL Y=A B C 主效应 MODEL Y=A B A*B 交互效应 MODEL Y=A B A(B) 嵌套效应 MODEL Y1 Y2=A B 多元方差分析 MODEL Y=A X 协方差分析
其中A,B,C是分类变量;X,Y是连续型变量。
精品文档
精品文档
前面介绍的ANOVA过程只能用于平衡设计资料(每个分类因子的组合观察数相等)的方差分析,当不平衡时,只能用GLM过程。
1.过程格式 PROC GLM;
CLASS 变量表;
MOIDEL 因变量一效应; MEANS 效应/[选择项];
RUN;
2.使用说明
(1)程序中,CLASS语句和MODEL语句是必需的,而且CLASS语句必须出现在MODEL语句之前。
(2)CLASS语句中的变量是分类变量,可以是数值型,也可以是字符型。
(3)MODEL语句指明因变量和自变量(因子变量)效应,其效应可以是主效应、交互效应、嵌套效应和混合效应。对应的效应模型同ANOVA过程中效应模式相同。
(4)MEANS语句是选择语句,计算所列的效应对应的因变量均值,若指明了选择项,则将进行主效应均值间的检验。常用的选择项如下: BON、DUNCAN、LSD、REGWF、REGWQ、SNK(Q检验)、SCHEF、SIDAK、SMM (GT2)、TUKEY、WALLER、DUNNETT(1-n检验)
以上选择项在实际应用中,一般选择一种或两种方法即可。
ALPHA=p 给出检验的显著性水平。缺省值是0.05。
3.举例
(1)单因素方差分析
健康男子各年龄组淋巴细胞转化率(%)如下表,问各组淋巴细胞转化率的均值之间的差异是否显著?
表:健康男子各年龄组淋巴细胞转化率(%)
11~20岁 58 61 61 62 63 68 70 70 74 78 41~50岁 57 57 58 60 60 63 66 61~75岁 43 52 55 56 60
程序:(yp123.sas) 编程说明:
变量a代表年龄组因子,有3个水平值;变量n代表各组例数。过程步中,用CLASS语句指明因素为分类变量a,用MODEL语句指明单因素的效果模型。
结果说明:
因F=9.77, P=0.001<0.05,故总体或A因素各水平间有非常显著差
精品文档
精品文档
异。即说明各年龄组的淋巴细胞转化率有显著差异。
(2)二因素方差方析
对下表中的假设数据作二因素方差分析。 因 素 B B1 B2 B3 因A1 3.3 2.6 1.5 3.6 3.1 1.9 0.8 1.6 3.2 2.6 5.2 4.7 素A2 2.2 1.3 4.2 4.3 5.3 2.8 2.0 2.9 4.4 3.8 4.4 5.1 A A3 3.9 2.9 3.1 2.9 3.5 4.9 2.5 4.8 4.6 5.6 3.9 3.0 程序: (yp124.sas) 编程说明:
数据步中,变量a代表因素a,其水平数是2,变量b代表因素b,其水平数是3,变量n是每组的重复次数。过程步中,用CLASS语句指明两个因素a和b,用MODEL语句指明带有交互影响二因素的效果模型。 结果说明:
通常GLM过程按两种方法输出各因素所引起的离差平方和(Type I SS,Type Ⅲ SS)。Type I SS按累积效应(有交互效应)输出,Type Ⅲ SS按效应(只有主效应)输出。即若有充分的理由将所有因素按主次顺序(交互效应在主效应之后)排列在MODEL语句中,应选择Type I SS的结果。否则选择Type Ⅲ SS的结果。这里我们选择Type I SS的输出。
讨论:因F=2.50,O.05
9.2.3 协方差分析
协方差分析法是把直线回归法与方差分析法结合起来的一种方法。它利用回归的关系消除自变量不等的影响后,再进行方差分析。如在营养实验中,用直线回归把食物消耗量(或初始重量)与所增体重的关系找出来,然后求出当食物消耗量(或初始重量)化为相等时,各饲料组动物所增体重的调整均值,用协方差分析检验调整均值间的差异。协方差分析适合于完全随机化设计资料、随机化区组设计资料、拉丁方资料、析因设计资料等。
1.过程格式 PROC GLM;
CLASS 效应;
精品文档
精品文档
MODEL 因变量=协变量表 效应/SOLUTION; LSMEANS 效应[/选择项];
RUN;
2.使用说明
(1)CLASS语句指明分类变量(因素),也叫方差变量。
(2)MODEL语句指明因变量与协变量、分类变量的模型。选择项SOLUTION要求输出回归方程中各参数的估计值。
(3)LSMEANS语句是可选语句。要求输出每个列在该语句中效应的最小二乘方均值。常用的选择项有:
E 计算最小平方均值的可估计函数 STDERR 输出最小平方均值标准误差 PDIFF 输出假设HO
E=effects 指定模型中的一个效应项用作误差项 SINGULAR=n 调整可估计性检验
3.举例
实验中将15只白鼠用随机抽样法分为两组,第一组10只白鼠饲以人工母乳,第二组5只白鼠饲以奶粉。现将两组白鼠九周内之食物消耗量(X,克)及所增体重(Y,克)列表下,问:摄取两种不同饲料的白鼠所增体重的均值有无显著的差别?
表:摄取两种不同饲料的白鼠所增体重 母 乳 奶 粉 X Y X Y 9.1 123.5 704.0 171.0 532.0 117.0 690.2 170.0 510.0 124.5 517.1 113.0 526.0 104.0 567.6 126.0 373.7 .0 566.0 121.0 560.0 142.5 571.1 127.0 618.7 140.0 470.9 102.5 500.9 111.2 程序: (yp126.sas) 编程说明:
数据步中,变量a代表组别,是离散变量,其水平数是2;变量X是协变量,用来读取食物消耗量的数据;变量Y是因变量,用来读取所增体重的数据,变量n是每组的样本数。过程步中,用CLASS语句指明分类变量,用MODEL语句指明因变量与协变量的模型。
结果说明:
精品文档
精品文档
因F=0.08, 0.05
根据Type皿SS对应的结果,可以看出:因F=67.39, P≤0.0001,故认为x对y的影响非常显著,即X,Y间存在直线关系。 调整后的直线方程Y=-23.735044+0.26919749X
两组调整均值分别是Y(1)=125.993129, Y(2)=124.453741 因P=0.7829>0.05,故认为两调整均值间无显著差异。
第三节 非参数检验(NPARlWAY过程)
前面介绍的t检验和方差分析属于参数的假设检验,其前提条件是:总体的分布为正态分布。但在许多实际问题中,总体的分布形式很难确定,或者总体的分布为偏态的,在这种情况下,参数的假设检验就不适用了。一般可选用非参数统计方法。
参数检验和非参数检验
单样本 z和 t检验(proc means,proc 卡方检验、符号检验、
ttest) Wilcoxon符号秩检验、
K_S检验;
成对样本
(proc freq, proc univariate)
两样本 Wilcoxon符号秩检验,
Mann Whitney U检验、K_S检验,( proc npar1way )
多个样方差分析 ( proc anova, proc Kruskal-Willis Test、本检验(多重glm ) Friedman Test( proc 比较) npar1way ) 相关性 Pearson 相关 ( proc corr) Spearman、Kendall秩
相关 ( proc corr )
在SAS/STAT中,NPARlWAY过程专门用来处理单因素的非参数性检验。它基于经验分布函数和跨过单向分类的因变量的秩得分,计算出几个统计量,用以检验变量的分布在跨过不同组时有相同的位置参数。秩得分包括Wilcoxon得分、中位数得分、Savage得分和Van der Waerden得分。
1.过程格式
PROC NPARlWAY [选择项]; CLASS 变量; VAR 变量表;
OUTPUT OUT=数据集名 统计关键字=名字;
精品文档
精品文档
BY 变量;
2.说明
(1)PROC NPARlWAY语句中的选择项
WILCOXON 要求处理数据的秩分析或Wilcoxon得分。对于两样本,进行Wilcoxon秩和检验(U检验),对于多样本,给出Kruskal-Wallis检验(H检验)。
ANOVA 对原始数据进行方差分析(多样本) NOPRINT 抑制OUTPUT窗口输出;
(2)CLASS语句是必备语句,用来指定一个且仅一个分类变量。 (3)VAR语句指定用于分析的因变量。若缺省,则分析所有数值型变量。
3.举例
(1)两样本的差异显著性检验
某地测定急性克山病患者与克山病区健康人的血磷值如下表所示,问克山病患者与健康人血磷值有无显著差异?
表:克山病患者与健康人血磷值 患者 健康者 2.60 3.24 3.73 3.73 4.32 4.73 5.18 5.78 6.40 6.53 1.67 1.98 1.98 2.33 2.34 2.50 3.60 3.73 4.14 4.57 4.82 5.78 程序: (yp129.sas)
编程说明:
数据步中,变量a代表因素,其水平数是2,变量n代表每组的样本数。过程步中,用CLASS语句指明单因素变量a,用VAR语句指明分析变量,并作Wilcoxon秩和检验。
结果说明:
这是两样本的检验,只需选择Wilcoxon检验的结果。因Z=2.23347, P=O.0255 表:尿中总雌激素排泄量 甲状腺功能 尿中总雌激素排泄量 亢进 13 6.8 7.8 15.5 11.4 正常 14.1 7.9 6 6.7 5.2 10.7 3.8 9.4 13.9 精品文档 精品文档 低下 9.2 11.6 4.2 程序: (yp130.sas) 编程说明: 数据步中,变量a代表因素,其水平数是3,变量n代表每组的样本数,过程步中,用CLASS语句指明单因素变量a,用VAR语句指明分析变量,并作Wilcoxon秩和检验。 结果说明: 因CHISQ=1.3455,P=0.5103>0.05故差异不显著,即甲状腺功能不同的无月经患者尿中雌激素的排泄量并无显著差异。 精品文档 精品文档 附录:多重比较的问题 问题:相对于两两比较,多重比较本质上是实施了多重的两两比较,在单个两两比较的显著水平给定的情况下,m重两两比较的第一类错误为1m,(假定各重比较是两两的),因此,多重比较中一个真实的原假设被拒绝的可能性就越大,除非我们对这一类错误加以控制。 由概率论中Bonferroni不等式,如果m次比较时的m个置信区间的置信水平分别为A1,A2,,Am,那么这m个区间合在一起的置信水平大于等于1(1Ai),误差率下界为:er1(1)m,这里就是每次两两比较 i1m的显著水平。 (比如,m=2,0.05,则两重联合检验的显著水平应等于 1-(1-0.05)*(1-0.05)=0.0975≈0.1,差不多是分开检验时显著水平0.05的两倍!) 由此,当任意给定k组样本,检验他们中心是否相等的两两比较的所有可能性应该有m=Ck2种。当k稍有增大时,误差率的增大是惊人的: 0.05,当k=3时, m=3, er0.14 0.05, 当k=4时, m=6, er0.26 0.05, 当k=5时, m=10, er0.40 误差率如此高的增长,对含多重比较的数据分析来说是灾难性的,必须加以控制。 精品文档 精品文档 精品文档 因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- haog.cn 版权所有 赣ICP备2024042798号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务