多元统计分析复习题
一、填空题
1、设有n个一维数据:x1,x2,...,xn,则均值x=________,方差
s2_____________。 若将它们从小到大记为
x(1),x(2),...,x(n),中位数M=______________________,
极差R=______________。
2、请指出下面SPSS软件操作分别代表多元统计分析中什么分析: (1)Analysis→Classify→Discriminant (2)Analysis→Data Reduction→Factor
3、系统聚类法是在聚类分析的开始,每个样本自成 ________ ;然后 ,按照某种方法度量所有样本之间的亲疏程度,并把最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类间的___________,并将当前最接近的样本或小类再聚成一类;如此反复,直到所有样本聚成一类为止。 4、设iN(0,1),且1,2,...,n相互独立,则
_______;2ii1n1i2n________2i。
5、在线性回归模型中,设因变量Y与自变量
X1,X2,...,Xp1的n组观测数据为
共 页,第 页 1
(yi;xi1,...,xi,p1)(i1,2,...,n),记
1nyyini1,线性拟合值
ˆˆx...ˆxˆiy01i1p1i,p1,则总离差平方和SST___________,残差平方
和SSE___________,回归平方和SSR__________,三者之间关系为___________________。
6、设x,y是来自均值向量为,协方差矩阵为的总体G的两个样品,则x,y
2d之间的马氏平方距离(x,y)______________;x与总体G的马氏平方距离
d2(x,G)______________。
7、常见的两类聚类法分别为:__________________和________________。 8.因子分析中aij的统计意义是________________________________ 。
19、设X~N2(,),其中X(x1,x2),1,2),2则Cov(x1x2,x1x2)=____.
1,10、设Xi~N3(,),i1,服从_________。,10,则W=(Xi)(Xi)i110
4x3,且协方差矩阵4349232,1611、设随机向量Xx1x2则它的相关矩阵R_______________。
2
12、 X=x设
113 1R1 32 03230.93400.1280.9340.4170.83500.4170.8940.0270.8940.44700.1030.8350.44711x2x3的相关系数矩阵通过因子分析分解为,
2X1 的共同度h1 ____,
X1的方差11____,公因子f1对X的贡献g12____。
13、设Xi,i1,,16是来自多元正态总体Np(,),X和A分别为正态总体Np(,)的样本均值和样本离差矩阵,则T215[4(X)]A1[4(X)]~___________。
14、若X()~Np(,),(1,2,n) 且相互独立,则样本均值向量X服从的分布为:__________________。
15、判别分析是判别样品_______________的一种统计方法,常用的判别方法有_______________、_______________、_______________、_______________。
16、Q型聚类是指对________________进行聚类,R型聚类是指对_______________进行聚类。
17、设X~Np(,),则s1dBx的分布为: _____。 18、 设是总体X(X1,,Xm)的协方差阵,的特征根i(i1,,m)与相应
的单位正交化特征向量ai(i1,19、设X,m),则第一主成分为:_________ 。 ,n)是X的样本,则u最大似然估计为
Nn(,),X(t)(t1,2, 3
________________,最大似然估计为________________。
二、简单题
1、描述多元线性回归模型
2、描述主成分分析与因子分析的关系 3、.叙述p维正态分布的4种定义方式。
4、叙述Wishart分布、Hotelling 三、计算题
T2分布、Wilks 分布的定义。
4101、设三维随机向量X~N3(,),其中130,问X1与X2是否独立?
002(X1,X2)和X3是否独立?为什么?
解:因为cov(X1,X2)1,所以X1与X2不独立。
11 把协差矩阵写成分块矩阵2112,(X1,X2)的协差矩阵为11因为22cov((X1,X2),X3)12,而120,所以(X1,X2)和X3是不相关的,而正态分布
不相关与相互独立是等价的,所以(X1,X2)和X3是独立的。
2、对某地区农村的6名2周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值0(90,58,16),现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。14.621082.04.3107其中X60.2,(5S)1( 115.6924)114.62103.17214.58.946437.3760(0.01,F0.01(3,2)99.2,F0.01(3,3)29.5,F0.01(3,4)16.7)8.946437.376035.5936 4
2、假设检验问题:H0:0,H1:08.0经计算可得:X02.2,1.54.310714.62108.9464S1(23.13848)114.62103.17237.37608.946437.376035.5936构造检验统计量:T2n(X0)S1(X0)670.0741420.445由题目已知F0.01(3,3)29.5,由是35F0.01(3,3)147.53所以在显著性水平0.01下,拒绝原设H0T02.01即认为农村和城市的2周岁男婴上述三个指标的均值有显著性差异
24113、设已知有两正态总体G1与G2,且1,2,12,6219而其先验概率分别为q1q20.5,误判的代价L(21)e4,L(12)e;3试用Bayes判别法确定样本X属于哪一个总体?53、由Bayes判别知f(x)W(x)1exp[(x)T1(12)]exp(4x12x24)f2(x)3ˆ1191242 1其中,(12),,(12)624411283q2C(1|2)3de,W(x)exp(2)de3q1C(2|1)53XG25 5
14、设X(X1,X2,X3,X4)T~N4(0,),协方差阵(1) 试从Σ出发求X的第一总体主成分;
11,011(2) 试问当 取多大时才能使第一主成分的贡献率达95%以上。
114、(1)由0得特征根为113,112341x111x20解1所对应的方程1x31x41111得1所对应的单位特征向量为22221111故得第一主成分ZX1X2X3X42222(2)第一个主成分的贡献率为11395%12344得0.95410.9333
5、设抽了五个样品,每个样品只测了一个指标,它们分别是1 ,2 ,4.5 ,6 ,8。若样本间采用明氏距离,试用最长距离法对其进行分类,要求给出聚类图。
6
样品与样品之间的明氏距离为:D(0)x1x2x3x4x5x10x2x3x4103.52.5574601.53.502x5 0样品最短距离是1,故把X1与X2合并为一类,计算类与类之间距离(最长距离法)
{x1,x2}x3x40{x1,x2}x33.5051.50x4x73.525x5 0得距离阵 D(1)类与类的最短距离是1.5,故把X3与X4合并为一类,计算类与类之间距离(最长距
{x1,x2}{x3,x4}x50{x1,x2}{x3,x4)5073.50x5 离法)得距离阵D(2)类与类的最短距离是3.5,故把{X3,X4}与X5合并为一类,计算类与类之间距离(最
{x1,x2}{x3,x4,x5}{x1,x2}0 {x,x,x}70345长距离法)得距离阵D(3)
1.000.630.456、设变量X1,X2,X3的相关阵为R0.631.000.35,R的特征值和单位化
0.450.351.00特征向量分别为
7
11.96,l10.63,0.59,0.51;20.68,l20.22,0.49,0.84;
TT30.37,l30.75,0.64,0.18
(1) 取公共因子个数为2,求因子载荷阵A。
(2) 计算变量共同度hi2及公共因子Fj的方差贡献,并说明其统计意义。
T0.631.960.220.68解:因子载荷阵A0.591.960.490.680.511.960.840.68 变量共同度:h12(0.631.96)2(0.220.68)2 =
2h2(0.591.96)2(0.490.68)2=
2h3(0.511.96)2(0.840.68)2=
公共因子Fj的方差贡献:
S1(0.631.96)2(0.591.96)2(0.511.96)2 S2(0.220.68)2(0.490.68)2(0.840.68)2
1007、设三元总体X的协方差阵为030,从出发,求总体主成分F1,F2,F3,
006并求前两个主成分的累积贡献率。
解:特征方程|E|0,得特征根:16,23,31
500x1016的特征方程:030x20,得特征向量u10
000x13200x1013的特征方程:000x20,得特征向量u21
003x03
8
0x100111的特征方程:020x20,得特征向量u30
005x03F1x3 F2x2 F3x1
前两个主成分的累积贡献率
90.9 10
四、操作题
为研究三类地理环境问题,选定4个指标X1、X2、X3、X4,序号1-12的地理已分成3类,13-15的待定(下表6列为原始数据)。 序号 X1 X2 X3 X4 实际类 Function1 Function2 预测类 1 50 33 14 2 1 -9.029 -.507 1 2 46 36 10 2 1 -10.428 -2.444 1 3 48 31 16 2 1 -8.045 .154 1 4 49 36 14 1 1 -10.615 .350 1 5 55 24 37 10 2 1.389 1.891 2 6 67 31 47 15 2 2.793 2.316 2 7 56 30 41 13 2 1.547 .857 2 8 64 29 43 13 2 1.906 2.286 2 9 67 31 56 24 3 9.159 -2.305 3 10 89 31 51 23 3 7.346 -1.749 3 11 65 30 52 20 3 6.729 -.408 3 12 58 27 51 19 3 7.247 -.440 3 13 58 28 51 24 待定 9.836 -5.055 14 54 34 17 2 待定 -9.121 1.033 15 55 23 40 13 待定 3.853 .347 (1)写出判别分析的基本思想
9
(2)在刚进入判别分析界面时,请完成以下操作(填空):
将 选入Grouping Variable框中,并点击Define Range,在跳出的界面中Minimum框中填写 ,在Maximum框中填写 ;
将 选入Independents框中; … …
(3)最后输出的Descriminant Scores列在上表的第7-8列,请在表的最后1列的最后3行空格处填上序号13-15样品的预测分类号。并说明其中的原因。
五、证明题:
1、设随机向量X的均值向量、协方差矩阵分别为、,试证:E(XX)。
1、证明:=V(X)E[(XEX)(XEX)]E(XX)(EX)(EX)E(XX)故E(XX) 10
2、设随机向量X~NP(,),又设Y=ArpX+br1,试证:Y~Nr(Ab,AA')。2、证明:由题可知Y服从正态分布,E(Y)E(AXb)AE(X)bAbV(Y)V(AXb)AV(X)AAA'故Y~Nr(Ab,AA')。
3、p维随机变量的协方差阵和相关阵必为半正定矩阵。 4、若X~Np(,),将X,,可以作如下分割
12X(1)(1)X(2),(2),11 X2122pqpqpqqqq试证:X(1)~Nq((1),11),X(2)~Npq((2),22)。
11
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- haog.cn 版权所有 赣ICP备2024042798号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务