搜索
您的当前位置:首页正文

回归分析作业参考答案

来源:好走旅游网
回归分析作业参考答案

1 、数据文件“资产评估 1 ”提供了 35 家上市公司资产评估增值的数据。 num--- 公司序号

pg---- 资产评估增值率

gz---- 固定资产在总资产中所占比例 fz---- 权益与负债比 bc---- 总资产投资报酬率 gm--- 公司资产规模(亿元)

• 建立关于资产评估增值率的四元线性回归方程,并通过统计分析、检验说明所得方程的有效性,解释各回归系数的经济含义。

• 剔除 gz 变量,建立关于资产评估增值率的三元线性回归方程,与 a 中的模型相比较,那个更为实用有效,说明理由。

解:(1)、SPSS相关数据表如下:

Adjusted R Model 1 R .871(a) R Square .759 Square .727 Std. Error of the Estimate .0787500 Model Summary(b)

a Predictors: (Constant), 公司规模, 权益与负债比, 固定资产比重, 总资产投资报酬率 b Dependent Variable: 资产评估增值率 Sum of Model 1 Regression Residual Total Squares .586 .186 .772 df 4 30 34 Mean Square .146 .006 F 23.609 Sig. .000(a) ANOVA(b)

a Predictors: (Constant), 公司规模, 权益与负债比, 固定资产比重, 总资产投资报酬率 b Dependent Variable: 资产评估增值率

Predicted Value Residual

Std. Predicted Value Std. Residual

Minimum -.084652 -.150002 -1.957 -1.905

Residuals Statistics(a) Maximum .494055 .149380 2.452 1.897

Mean .172240 .000000

.000 .000

Std. Deviation

.1312429 .0739727

1.000 .939

N

35 35 35 35

a Dependent Variable: 资产评估增值率

R为0.871,决定系数R2为0.759,校正决定系数为0.727。拟合的回归模型F值为23.609,P值为0,所以拟合的模型是有统计意义的。从系数的t检验可以看出,只有固定资产比重的相伴概率0.339>0.05,说明只有固定资产比重对资产评估增值率的影响是不显著的,其他自变量对固定资产增值的比率均有显著的影响。 线性回归方程为:

pg=0.396+0.079gz+0.063fz+0.602bc-0.044gm

表示,在权益与负债比、总资产投资报酬率和公司规模不变的条件下,固

定资产比重每增加1个单位,资产评估增值率增加

表示,在固定资产比重、总资产投资报酬率和公司规模不变的条件下,权

益与负债比每增加1个单位,资产评估增值率增加

表示,在固定资产比重、权益与负债比和公司规模不变的条件下,总资产

投资报酬率每增加1个单位,资产评估增值率增加

表示,在固定资产比重、权益与负债比和总资产投资报酬率不变的条件下,

公司规模每增加1亿元,资产评估增值率减少

(2)、SPSS相关数据表如下:

Model 1 R .867(a) Model Summary(b) Adjusted R R Square .751 Square .727 Std. Error of the Estimate .0786809 a Predictors: (Constant), 公司规模, 权益与负债比, 总资产投资报酬率 b Dependent Variable: 资产评估增值率

Sum of Model 1 Regression Residual Total Squares .580 .192 .772 df 3 31 34 Mean Square .193 .006 F 31.218 Sig. .000(a) ANOVA(b)

a Predictors: (Constant), 公司规模, 权益与负债比, 总资产投资报酬率 b Dependent Variable: 资产评估增值率

Predicted Value Residual Std. Predicted Value Std. Residual

Minimum -.062589 -.161246 -1.798 -2.049

Residuals Statistics(a) Maximum .511513 .145304 2.598 1.847 Mean .172240 .000000 .000 .000 Std. Deviation .1305841 .0751295 1.000 .955 N 35 35 35 35 a Dependent Variable: 资产评估增值率 相关系数R为0.867,决定系数R2为0.751,校正决定系数为0.727。从系数的t检验可以看出,该模型的回归系数都通过检验。所以,剔除 gz 变量,建立关于资产评估增值率的三元线性回归方程为:

pg=0.376+0.063fz+0.600bc-0.040gm

b更为有效实用,因为所有的回归系数都通过了t检验,并且b模型估计的标准误较小。

2 、数据文件“房产销售”提供了 20 件房地产的销售价格和评估的数据(美元):

y---- 销售价格; x1---- 地产评估价值; x2---- 房产评估价值; x3---- 面积(平方英尺)。

• 建立适当的关于销售价格的多元线性回归模型 .

• 利用模型预测地产评估价值为 2000 ,房产评估价值为 12000 ,面积为 1100 的销售价格,并给出预测值的 95% 的置信区间。 • 通过对模型的统计检验说明预测值的可信度。

解:通常先做enter,然后做逐步

(1)对原数据进行回归分析,得到回归方程为:y=105.382+0.961x2+16.348x3

(2)地产评估价值为2000,房产评估价值为12000,面积为1100的销售价格的95%的置信区间为:(21468.99197,37776.93332)。

(3)该模型的Adjusted R Square=0.867,也就是这两个自变量可以解释86.7%的因变量变差,应该说是预测的可信度比较高;并且残差符合正态性、独立性和方差齐次性,模型成立,即有95%的可能性b的预测值在区间21468.99197-37776.93332内。

3 、

大多数公司都提供了 β 估计值,以反映证券的系统风险。一种股票的 β 值所测量的是这种股票的回报率与整个市场平均回报率之间的关系。这个指标的名称就来自简单线性回归中的斜率参数 β 。在这种回归中,因变量是股票回报率( Y )。而自变量则是市场回报率( X )。 值大于 1 的股票被称为“攻击性”证券,因为它们的回报率变动(向上或向下)得比整个市场的回报率快。相反, β 值小于 1 的股票被称为“防御性”证券,因为它们的回报率变动的比市场回报率慢。 值接近 1 的股票被称为“中性”证券,因为它们的回报率反映市场回报率。下面表中的数据是随机抽选的 7 个月内某只特定的股票的月回报率及整个市场的回报率。试对这些数据完成简单线性回归分析。根据你的分析结果,你认为这只股票是属于攻击性,防御性,还是中性的股票?

解:回归模型:y=1.762x-1.329。

β值为线性回归斜率参数1.762>1,所以,该股票属于“攻击性股票”。

4 、 参考上题。股票的 β 值是否依赖于计算回报率的时间长度?因为有些经济商号用的是按月数据计算的 β 值,另一些经济商号则用按年数据计算的 β值,所以这个问题对投资者来说很重要。 H.莱维分别研究了三类股票的时间长度(月)和平均β值。将时间长度从一个月逐步增加到30个月,莱维计算了1946---1975年间144只股票的回报率。根据他所得的β值,这144只股票中有38只攻击性股票,38只防御性股票,以及68只中性股票。下表中给出的这三类股票

对不同时间水平的平均β值。

• 对于攻击性股票、防御性股票和中性股票三种情况,分别求表达平均β值 Y与时间长度X之间关系的最小二乘简单线性回归方程。

• 对每一类股票检验假设:时间长度是平均β值的有效线性预测器,检验时用 α =0.05 。

• 对每一类股票,构造直线斜率的 95%置信区间,哪只股票的β值随时间长度的增大而线性增大?

解:(1)攻击性股票:

系数 模型 非标准化系数 标准 误B 1 (常量) 时间长度 1.451 .016 差 .059 .004 试用版 .856 t 24.392 4.377 Sig. .000 .003 标准系数 aa. 因变量: 攻性型股票 回归方程:Y1=1.451+0. 016X

防御性股票:

系数 模型 非标准化系数 标准 误B 1 (常量) 时间长度 .459 -.005 差 .013 .001 试用版 -.901 t 34.178 -5.488 Sig. .000 .001 标准系数 aa. 因变量: 防御性股票 回归方程:Y2=0.459-0.005X

中性股票: 系数 模型 非标准化系数 标准 误B 1 (常量) 时间长度 .911 .009 差 .025 .002 试用版 .906 t 37.083 5.672 Sig. .000 .001 标准系数 aa. 因变量: 中性股票 回归方程:Y3=0.911+0.009X

(2) (3)攻击型股票:

系数

a

模型 非标准化系数 标准 误B 1 (常量) 时间长度 1.451 .016 差 .059 .004 试用版 .856 t 24.392 4.377 Sig. .000 .003 标准系数 B 的 95.0% 置信区间 下限 1.310 .007 上限 1.591 .025 a. 因变量: 攻性型股票 直线斜率的95%的置信区间为(0.007,0.025)

防御性股票:

系数 模型 非标准化系数 标准 误B 1 (常量) 时间长度 .459 -.005 差 .013 .001 试用版 -.901 t 34.178 -5.488 Sig. .000 .001 下限 .428 -.007 上限 .491 -.003 标准系数 B 的 95.0% 置信区间 aa. 因变量: 防御性股票 直线斜率的95%的置信区间为(-0.007,-0.003)

中性股票:

系数 模型 非标准化系数 标准 误B 1 (常量) 时间长度 .911 .009 差 .025 .002 试用版 .906 t 37.083 5.672 Sig. .000 .001 下限 .853 .005 上限 .969 .012 标准系数 B 的 95.0% 置信区间 aa. 因变量: 中性股票 直线斜率的95%的置信区间为(0.005, 0.012)

时间长度的t检验P值分别为0.003、0.001、0.001均小于0.05,所以,拒绝原假设,即线性关系显著。

从上面三张表中,我们通过观察系数95%的置信区间,得出攻击性和中性股票的β值随时间长度的增大而线性增大。

5个人计算机( PC 机)正以非凡的技术在发展, PC 机的零售价格也是这样。由于购买时间和机器特点不同,一台 PC 机的零售价格可能发生戏剧性的变化。不久前收集了一批 IBM PC 机和 IBM PC 兼容机的零售价格数据,共有 N=60 ,见数据文件“计算机价格”。这些数据被用来拟合多元回归 E ( Y ) = β 0 +β 1 x 1 +β 2 x 2

其中: Y=零售价格(美元) x 1 =微处理器速度(兆赫)

• 试写出最小二乘预测方程。

• 此模型是否适合于预测?用 α =0.10 进行检验。 • 构造β 1 的90%置信区间,并对此区间作出解释。 • 本模型中的 CPU芯片( x 2 )是否是价格( Y)的有效预测器?用 α =0.10 进行预测。 解:

Correlations Pearson Correlation 价格y 速度 分组 Sig. (1-tailed) 价格y 速度 分组 N 价格y 速度 分组 价格y 1.000 .607 .284 . .000 .015 59 59 59 速度 .607 1.000 .371 .000 . .002 59 59 59 分组 .284 .371 1.000 .015 .002 . 59 59 59 Model Summary Model R Std. Error of the R Square .610 aAdjusted R Square .350 Estimate 962.967 1 .373 a. Predictors: (Constant), 分组, 速度 ANOVA Model 1 Regression Residual Total Sum of Squares 3.083E7 5.193E7 8.276E7 df 2 56 58 Mean Square 1.541E7 927305.918 F 16.622 Sig. .000 ab a. Predictors: (Constant), 分组, 速度 b. Dependent Variable: 价格y Coefficients

a

Model Standardized Unstandardized Coefficients Std. B Error Beta t Coefficients Sig. 95.0% Confidence Interval for B Lower Bound Upper Bound Correlations Zero-order PartiaParl t 1 (Constant) 速度 642.47481.317 2 1.33.18-321.701606.665 7 7 0 .607 108.2321.198 7 .582 5.10.006 0 65.772 150.702 .564 .540 分组 248.59417.407 8 .068 .596 .55-587.571084.764 3 6 .284 .079 .063 a. Dependent Variable: 价格y 最小二乘预测方程为 : E(y)=642.477+108.237X1+248.597X2 此模型中常量和芯片的t检验P值大于0.10不能拒绝原假设,即线性关系不显著。故在α =0.10的条件下,此模型并不适合于预测。 β1 的90%置信区间为(72.783,143.691)。这表示,1个单位的速度变化量对价格产生的影响有90%的概率在72.783—143.691之间。 CPU芯片( x 2 )不是价格( Y)的有效预测器。

6、在工厂中,准确估计完成一项作业所需的工时数对于诸如决定雇佣工人的数量,确定向客户报价的最后期限, 或者作出与预算有关的成本分析决策等决策管理来说是极端重要的。一名锅炉筒制造商想预测在一些在未来预测项目中装配锅炉筒所需的工时数。为了用回归方法实现此目标,他收集了 35 个锅炉的项目数据(数据文件“锅炉”)。除工时( Y )外,被测量的变量有锅炉工作容量( X1= 磅 / 小时),锅炉设计压力( X2= 磅 / 平方英寸),锅炉的类型( X3=1 ,如在生产领域装配; X3=0 ,如在使用领域装配),以及炉筒类型( X4=1 ,蒸汽炉筒; X4=0 ,液体炉筒)。

• 试检验假设:锅炉容量( X1 )与工时数( Y )之间有正线性关系。 • 试检验假设:锅炉压力( X3 )与工时数( Y )之间有正线性关系。 • 构造 β 1 的 95% 置信区间并对结果做出解释。 • 构造 β 3 的 95% 置信区间。

解: 此题题目有误:第二小题应该是“锅炉压力(X2)与工时数(Y)之间有正线性关系” A 绘制锅炉容量(X1)与工时数(Y)的散点图,由散点图看到,锅炉容量(X1)与工时数(Y)之间有一定的线性相关关系,但不明显;对两个变量继续作相关分析,通过检验认为;锅炉容量(X1)与工时数(Y)之间有正线性关系。

相关性

工时y

Pearson 相关性 显著性(双侧) N

容量x1

Pearson 相关性 显著性(双侧) N

工时y

1 容量x1 .827 .000 **

35 .827 .000 35 **

35 1

35 **. 在 .01 水平(双侧)上显著相关。

B 绘制锅炉压力(X2)与工时数(Y)的散点图,通过散点图看到,锅炉压力(X2)与工时数(Y)之间有一定的线性相关关系,但不明显;对两个变量继续作相关分析,通过检验;即锅炉压力(X2)与工时数(Y)之间有正线性关系。

相关性 工时y Pearson 相关性 显著性(双侧) N 压力x2 Pearson 相关性 显著性(双侧) N 工时y 1 压力x2 .657 .000 ** 35 .657 .000 35 **35 1 35 **. 在 .01 水平(双侧)上显著相关。

C、D Coefficients Model Unstandardized Coefficients Std. B 1 (Constant) -3727.268 容量x1 压力x2 炉类型x3 筒类型x4 .009 1.898 Error 1227.784 .001 .661 Beta t Sig. Standardized Coefficients 95.0% Confidence Interval for B Lower Bound Upper Bound -1219.800 .011 3.247 Zero-order Correlations Partial Part a -3.036 .005 -6234.737 .903 9.491 .000 .388 2.873 .007 .007 .549 .827 .657 -.572 .524 .866 .539 .465 .163 .558 .209 .776 .383 3410.104 926.871 2118.726 314.805 .531 3.679 .001 1517.180 5303.027 .392 6.730 .000 1475.809 2761.644 a. Dependent Variable: 工时y β 1 的95%置信区间为(0.007,0.011):1个单位容量变化量对工时数产生的影响有95%

的概率在0.007至0.011之间。

β 3 的95%置信区间为(1517.180,5302.027):1个单位容量变化量对工时数产生的影响有95%的概率在1517.180至5302.027之间。

7 Cushman & Wakefield 股份有限公司,采集了美国市场上办公用房的空闲率和租金率的数据。对于18个选取的销售地区,这些地区的中心商业区的综合空闲率(%)和平均租金率(美元/平方英尺)的数据(The Wall Journal Almanac1988)见文件“办公用房”。 • 用水平轴表示空闲率,对这些数据画出散点图。 • 这两个变量之间显出什么关系吗?

• 求出在办公用房的综合空闲率已知时,能用来预测平均租金率的估计的回归方程。 • 在 0.05显著水平下检验关系的显著性。

• 估计的回归方程对数据的拟合好吗?请解释。

• 在一个综合空闲率是 25%的中心商业区,预测该市场的期望租金率。

• 在劳德代尔堡的中心商业区,综合空闲率是 11.3%,预测劳德代尔堡的期望租金率。

解:(1)

(2)

Correlations

Pearson Correlation

综合空闲 平均租金

Sig. (1-tailed)

综合空闲 平均租金

N

综合空闲 平均租金

综合空闲

1.000 -.659 . .001 18 18 平均租金

-.659 1.000 .001 . 18 18 综合空闲与平均租金的相关系数r=-0.659;P值小于0.05,拒绝原假设,说明综合空闲与平均租金之间存在着显著的负线性相关关系。

(3) Coefficients Model Unstandardized Standardized Coefficients Coefficients Std. B Error Beta t 95.0% Confidence Interval for B Lower Upper Sig. Bound Bound Zero-order Partial Part Correlations a1 (Constant) 37.075 3.528 综合空闲 -.779 .222 10.510 .000 29.596 44.553 -.659 -3.504 .003 -1.251 -.308 -.659 -.659 -.659 a. Dependent Variable: 平均租金 回归方程为:Y=-0.779X+37.075

(4)常量和综合空闲的斜率t检验均小于0.05,所以拒绝原假设,有显著相关性。 (5) Model Summary Model R Std. Error of the R Square .659 aAdjusted R Square .399 Estimate 4.88474 1 .434 a. Predictors: (Constant), 综合空闲 ANOVA Model 1 Regression Residual Total Sum of Squares 292.914 381.771 674.685 df 1 16 17 Mean Square 292.914 23.861 F 12.276 Sig. .003 ab a. Predictors: (Constant), 综合空闲 b. Dependent Variable: 平均租金 首先,调整R方为0.399,即建立的模型中,综合空闲率只能解说平均租金率的39.9%,结果较一般;其次,在0.05显著水平下,拟合的回归模型对应的P值为0.003,可以认为拟合的回归模型是合格的;最后,从因变量-标准化残差散点图,可以看到残差有随自变量增大同时增大的趋势。所以,我们说估计的回归方程对数据的拟合效果合格但不令人满意。 (6)在一个综合空闲率是 25%的中心商业区,预测该市场的期望租金率:

Y=-0.779*25+37.075=17.60

(7)在劳德代尔堡的中心商业区,综合空闲率是 11.3%,预测劳德代尔堡的期望租金率:

Y=-0.779*11.3+37.075=28.27

8 .PJH&D 公司正在决定是否为公司新的文字处理系统签订一项维修合同。公司的管理人员认为,维修费用与该系统的使用时间有关。采集的每周时间(小时)和面维修费用(千美元)的统计资料见“文字处理系统”。 • 求出年维修费用对于每周使用时间的估计的回归方程。 • 在 0.05 显著水平下, 检验在( a )中求出关系的显著性。

• PJH&D 公司预期每周使用文字处理系统的时间是 30 小时,求出该公司的年维修费用的 95% 的预测区间。

• 如果维修合同 的费用是每年 3000美元(应该是3000千美元),你建议签订这个合同吗,为什么? 解:SPSS数据表略

(1)年维修费用对于每周使用时间的估计的回归方程:Y=0.946X+10.675

(2)在 0.05 显著水平下,使用时间的t检验小于0.05,所以有显著相关性。

(3)该公司的年维修费用的 95%的预测区间为(28.75450,49.33481)

(4)3000千美元每年,即57.7千美元每周,PJH&D 公司在合同中所付的费用大于上述预测区间,因此合同不签。

9 .对于一个较大的人口密集的地区 ,当地交通部门想要确定公共汽车的使用时间和年维修费用之间是否存在某种关系。由 10 辆公共汽车组成一个样本,采集的数据见文件“交通”。

• 利用最小二乘法求出估计的回归方程。 • 在 =0.05 的显著水平下, 通过检验是否看出二变量之间存在一个显著的关系。

• 最小二乘法回归线给出了观测数据一个好的拟合吗?请做出解释。

• 如果有一辆特定的公共汽车已使用了 4 年,求出这辆车年维修费用的一个 95% 的预测区间。 解: Model Summary Model R Std. Error of the R Square .934 aAdjusted R Square .857 Estimate 75.498 1 .873 a. Predictors: (Constant), 使用时间 ANOVA Model 1 Regression Residual Total Sum of Squares 312050.000 45600.000 357650.000 df 1 8 9 Mean Square 312050.000 5700.000 F 54.746 Sig. .000 ab a. Predictors: (Constant), 使用时间 b. Dependent Variable: 年维修费 Coefficients Model Standardized UnstandardizeCoefficientd Coefficients Std. B 1 (Constant) 使用时间 220.000 131.667 Error 58.481 17.795 Beta t 3.762 .934 7.399 s Sig. .006 .000 95.0% Confidence Interval for B Correlations Part aLower Upper Zero-ordePartiaBound Bound 85.143 90.631 354.857 172.702 r l .934 .934 .934 a. Dependent Variable: 年维修费

最小二乘法求出估计的回归方程为 Y=220+131.677X

在 =0.05 的显著水平下, 通过t检验,使用时间的t检验小于0.05,所以拒绝原

假设,有显著相关性。

最小二乘法回归线给出了观测数据一个好的拟合:Adjusted R Square为0.857,在 0.05 的显著水平下,通过F检验所拟合的模型对应的P值为0,所以认为两变量之间存在显著性关系。

如果有一辆特定的公共汽车已使用了 4 年,这辆车年维修费用的一个 95% 的预测区间为(559.515,933.818)

10 .美国心脏协会经过 10 年的研究,得到了与发生中风有关的年龄、血压和吸烟的统计资料。假设这一研究的部分数据为文件“中风风险”。我们将病人在今后 10 年内发生中风的概率(乘 100 )看作为中风风险。我们用一个虚拟变量来定义病人是否为吸烟者, 1 表示是吸烟者, 0 表示不是吸烟者。 • 利用这些数据,建立一个中风风险关于个人的年龄、血压和是否吸烟的估计的回归方程。

• 在中风风险的估计的回归方程中,吸烟是一个显著的影响因素吗?检验的显著水平 =0.05 。对于得到的结果,请做出解释。

• Art Speen 是一位血压为 175 的 68 岁的吸烟者,他在今后 10 年内发生中风的概率是多少?对于这位病人,医生可以提出什么建议 ? 解:

Correlations Pearson Correlation 中风风险 年龄 血压 吸烟者 Sig. (1-tailed) 中风风险 年龄 血压 吸烟者 N 中风风险 年龄 血压 吸烟者 中风风险 1.000 .650 .388 .680 . .001 .045 .000 20 20 20 20 年龄 .650 1.000 -.309 .411 .001 . .093 .036 20 20 20 20 血压 .388 -.309 1.000 .167 .045 .093 . .241 20 20 20 20 吸烟者 .680 .411 .167 1.000 .000 .036 .241 . 20 20 20 20 Model Summary Model R Std. Error of the R Square .935 aAdjusted R Square .850 Estimate 5.757 1 .873 a. Predictors: (Constant), 吸烟者, 血压, 年龄

ANOVA Model 1 Regression Residual Total Sum of Squares 3660.740 530.210 4190.950 df 3 16 19 Mean Square 1220.247 33.138 F 36.823 Sig. .000 ab a. Predictors: (Constant), 吸烟者, 血压, 年龄 b. Dependent Variable: 中风风险 oefficients Model Unstandardized Standardized Coefficients Coefficients Std. B Error Beta t Sig. 95.0% Confidence Interval for B Lower Bound Upper Bound Zero-order Partial Part Correlations a1 (Constant) -91.759 15.223 年龄 血压 吸烟者 1.077 .252 .166 .045 -6.028 .000 -124.030 -59.489 .697 6.488 .000 .553 5.568 .000 .302 2.912 .010 .725 .156 1.429 .348 .650 .388 .680 .851 .577 .812 .495 .589 .259 8.740 3.001 2.378 15.101 a. Dependent Variable: 中风风险 (a)一个中风风险关于个人的年龄、血压和是否吸烟的估计的回归方程为:

中风风险=-91.759+1.077*年龄+0.252*血压+8.740*吸烟者。

(b)吸烟者的斜率t检验均小于0.05,所以拒绝原假设,吸烟是一个显著的影响因素。 (c)Art Speen 是一位血压为 175 的 68 岁的吸烟者,他在今后 10 年内发生中风的概率是多少?(如果年龄用68岁带入,中风概率为34.27%,如果年龄用78岁带入,中风概率为45.03%,所以其中风的概率是区间值34.27%~45.03%),医生可以建议他戒烟。

11.公路管理部门进行一项有关交通流量和车速 之间关系的研究 。假设模型的形式如下:

。式中 是交通流量(辆 / 小时); 是车速(英

里 / 小时)。采集数据见文件“公路管理”。 • 对于这些数据建立一个估计的回归方程。 • 在显著水平为 解:SPSS数据表略。

(1)交通流量和车速之间的回归方程为:交通流量=943.048+8.714*车速。

(2)在拟合的回归模型中,车速对应的P值为0.005,小于0.01,可以认为x和y之间存在显著性关系。

=0.01 时,检验 之间的显著关系。

12 .在对上题做进一步分析时 ,统计学家建议利用下面曲线形式的估计的回归方程。

a. 利用上题数据去估计这个方程的参数。 b. 显著性水平为

时,检验关系的显著性。

c. 在车速为每小时38英里时,预测每小时的交通流量。

解:SPSS数据表略。

(1)曲线形式的估计的回归方程为:

(2)拟合的回归模型中相关系数R=0.990;Sig=0.003<0.01;并且也通过T检验, 认为因变量和变量之间存在显著性关系。

(3)在车速为每小时38英里时,预测每小时的交通流量为1302.01143。

13.有关中风风险与年龄、血压和吸烟嗜好相关性的一项研究已经由美国心脏学会实施了10年,并且提供了数据。这项研究的部分数据见文件“中风风险”。中风风险被认为是一个人在未来10年内发生中风的概率(乘100)。对于吸烟嗜好变量,1表示是一个吸烟者,0表示不是吸烟者。

a . 建立一个回归方程,当年龄和血压已知时,能利用这个方程预测中风的风险。

b.考虑增加两个自变量到(a)中所建立的模型上,一个自变量是年龄和血压之间的交互作用,另一个是一个人是否有吸烟嗜好。利用这4个自变量建立估计的回归方程。 c.在

显著水平下,通过检验去观察,增加交互作用项和吸烟嗜好这两个自变量,

对在(a)中建立的估计的回归方程是否有显著的作用。

解:(1) Model Summary Model R Std. Error of the R Square .898 aAdjusted R Square .784 Estimate 6.908 1 .806 a. Predictors: (Constant), 血压, 年龄 ANOVA Model 1 Regression Residual Total Sum of Squares 3379.640 811.310 4190.950 df 2 17 19 Mean Square 1689.820 47.724 F 35.408 Sig. .000 ab a. Predictors: (Constant), 血压, 年龄 ANOVA Model 1 Regression Residual Total Sum of Squares 3379.640 811.310 4190.950 df 2 17 19 Mean Square 1689.820 47.724 F 35.408 Sig. .000 ab a. Predictors: (Constant), 血压, 年龄 b. Dependent Variable: 中风风险 Coefficients Model Unstandardized Standardized Coefficients Std. B Error Beta t Sig. Coefficients 95.0% Confidence Interval for B Lower Bound Upper Bound Zero-order Partial Part Correlations a1 (Constant) -110.942 16.470 年龄 血压 1.315 .296 .173 .051 -6.736 .000 -145.691 -76.194 .851 7.588 .000 .651 5.804 .000 .949 .189 1.681 .404 .650 .388 .879 .810 .815 .619 a. Dependent Variable: 中风风险 回归方程为:中风风险=-110.942+1.315*年龄+0.296*血压。

(2)增加两个自变量:一个自变量是年龄和血压之间的交互作用,另一个是一个人是否有吸烟嗜好 Model Summary Model R Std. Error of the R Square .936 aAdjusted R Square .843 Estimate 5.881 1 .876 a. Predictors: (Constant), 吸烟者, 血压, 年龄, 交互变量 ANOVA Model 1 Regression Residual Total Sum of Squares 3672.109 518.841 4190.950 df 4 15 19 Mean Square 918.027 34.589 F 26.541 Sig. .000 ab a. Predictors: (Constant), 吸烟者, 血压, 年龄, 交互变量 b. Dependent Variable: 中风风险 Coefficients Model Standardized Unstandardized Coefficients Coefficients t Sig95.0% Confidence Correlations a. Interval for B Std. B 1 (Constant) 年龄 Error Beta Lower Upper Zero-ordBound Bound -2.16.04-244.53-1.793 7 5 5 er Partial Part -123.1656.945 2 .650 1.513 .780 .980 1.941 .071 -.149 3.175 .448 .176 血压 .448 .346 .985 1.297 .214 -.289 1.185 .388 .317 .118 交互变量 -.003 .005 -.442 -.573 .575 -.013 .007 .796 -.146 -.052 吸烟者 8.866 3.074 .306 2.884 .011 2.314 15.417 .680 .597 .262 a. Dependent Variable: 中风风险 回归方程为:中风风险=-123.165+1.513*年龄+0.448*血压+8.866*吸烟者-0.003*交互

(3)在0.05显著水平下,新增加的交互变量并没有通过检验,所以增加交互作用项,对a中建立的估计的回归方程没有显著的作用;而吸烟通过了检验,所以对回归方程有显著作用。

二、笔算题

1. r=-0.9818,两变量呈高度负相关线性关系 2. y=0.98+1.1545x

因篇幅问题不能全部显示,请点此查看更多更全内容

Top