《多元统计分析(第5版)》课后习题答案.pdf
《《多元统计分析(第5版)》课后习题答案.pdf》由会员分享,可在线阅读,更多相关《《多元统计分析(第5版)》课后习题答案.pdf(18页珍藏版)》请在文库网上搜索。
1、第第 1 1 章章 P20P20 1.在数据处理时,为什么通常要进行标准化处理?对数据进行标准化处理主要为了消除变量的量纲以及量纲差别较大时所带来的影响,尤其当变量间的单位不同且量级差别特别大时,使用不做任何处理的数据进行计算,可能会得到极不合理的结果。2.欧氏距离与马氏距离的优缺点是什么?欧氏距离是计算点与点之间距离的常用方法,其缺点是坐标的各维度对计算距离的贡献是同等的,距离的大小与各维度对应的指标变量的单位有关。因此,对于大部分统计问题,欧氏距离不太适合。而马氏距离弥补了欧氏距离在统计问题上的缺陷,马氏距离的计算中会将各指标变量转化为无量纲的数值,而且当变量服从或渐近服从多元正态分布时,
2、马氏距离具有良好的统计性质。3.当变量X1和X2方向上的变差相等,且X1与X2互相独立时,采用欧氏距离与统计距离是否一致?当变量X1和X2方向上的变差相等,且X1与X2互相独立时,采用欧氏距离与统计距离的计算结果会相差一个常数倍,即欧氏距离=统计距离*C,该常数项 C 为变量X1和X2的标准差。4.如果正态随机向量X=(x1,x2,x)的协方差阵是对角阵,证明X的分量是相互独立的随机变量。证 明:不 妨 设 =diag(12,2),X 的 均 值 向 量 为 =(1,),则XN(,).X的概率密度函数为:(1,)=(2)2|12exp12(X )1(X )=(2)2111 exp12(1 1,
3、)(12002)(1 1)=(2)2111 exp12()22=1=12exp()222=1=()=1 因此,X的分量是相互独立的随机变量。5.y1与y2是相互独立的随机变量,且y1N(0,1),y2N(3,4)。(a)求y12的分布。(b)如果y=y1(y2-3)/2,写出yy关于y1与y2的表达式,并写出yy的分布。(c)如果y=y1y2且yN(,),写出y1y关于y1与y2的表达式,并写出y1y的分布。解:(a)y1N(0,1),记y1的分布函数为(y1),y1的密度函数为(y1)=12exp(122)。(12)=(1)=()()=2()1,0 则y12的密度函数为:()=2()12=2
4、2exp(2)12=12exp(2),0 即()=12exp(2),00,5,4(0.01)可知,在 0.01 的显著性水平上边远及少数民族聚居区的社会经济发展水平与全国平均水平有显著差异。4.试针对某一实际问题具体运用多元方差分析方法。(答案略)第第 3 3 章章 P P8282 1.聚类分析的基本思想和功能是什么?聚类分析首先假定所研究的样品或指标(变量)之间存在不同程度的相似性(亲疏关系),然后对于给定的一批有多个观测指标的样品,可以根据一些能够度量样品或指标之间相似程度的统计量作为划分类型的依据,最终把相似程度接近的样品(指标)聚合为同一类。聚类分析的目的就是把研究对象根据相似程度进行
5、归类,使同类中对象的相似最大化,而类与类之间的差异性最大化。2.试述系统聚类法的原理和具体步骤。系统聚类的原理是根据样品(或指标变量)间的距离(或相似性)进行类的合并,首先将各样品或(变量)当作一类,然后每次将距离最近(或相似度最高)的两类(或变量)聚合成一类,如此重复进行下去,直至每个样品(或变量)最终被聚成一个大类。系统聚类的具体步骤如下:(1)将每个样品(或变量)独自作为一类,如此构造个类;(2)计算个类两两之间的距离;(3)合并距离最近的两类为一新类,并重新计算新类与当前各类之间的距离;(4)重复步骤(3),直至最后将所有的样品(或变量)全被聚成一个类。3.试述 K-均值聚类的方法原理
6、。K-均值聚类方法的思想是把每个样品聚集到其最近质心(均值)的类中,它是一种迭代求解的聚类分析算法。其步骤是:首先从数据集中随机选取个点作为初始聚类中心,然后计算各个样本到聚类中心的距离,并把样本归到离它最近的那个聚类中心所在的类,最后计算新形成的每一个类所包含对象的平均值作为新的聚类中心。重复前面的操作,直至相邻两次的聚类中心没有任何变化,说明样本调整结束。4.试述模糊聚类的思想方法。模糊聚类分析是根据研究对象的亲疏程度或相似性,通过建立模糊相似关系对研究对象进行聚类分析的方法。在模糊聚类中,每个样本不再仅属于某一类,而是以一定的隶属度属于每一类,意味着通过模糊聚类分析,可得到样本属于各个类
7、别的不确定性程度,即建立起了样本对于类别的不确定性的描述,这样就更能准确地反映实际情况。5.试运用 SPSS 软件进行一个实际问题的分类研究。(答案略)第第 4 4 章章 P P104104-P105P105 1.应用判别分析应该具备什么样的条件?判别分析最基本的要求是:分组类型在两组以上;每组案例的规模必须至少在一个以上;解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。另外,判别分析的假设条件有:判别变量间不存在多重共线性;各判别变量服从多元正态分布,且各组的协方差矩阵相等。2.试述贝叶斯判别方法的思路。贝叶斯统计的思想是假定对研究对象已有一定的认识,而且常用先
8、验概率分布来描述这种认识,然后对于取得的一个样本,可以用样本来修正已有的认识(先验概率分布)从而得到后验概率分布,各种统计推断都可以通过后验概率分布来进行。将贝叶斯统计思想用于判别分析,就是贝叶斯判别,具体为:假设 k 个总体分别具有 p 维的密度函数,并且 k 个总体的先验分布是已知的,k 个总体对应上的一个划分。通过建立判别规则和相应的损失函数,可以求得使平均损失(后验风险)最小的一个划分。3.试述费歇判别方法的思想。费歇判别的核心思想是投影,即将组维数据投影到某一个方向,使得组与组之间的投影尽可能地分开,其中费歇尔判别借用了一元方差分析的思想来衡量组与组之间的分开程度,进而求解使分开程度
9、最大化的投影向量。4.什么是逐步判别分析?凡具有筛选变量能力的判别方法统称为逐步判别法。逐步判别法的基本思想是:逐步引入变量,每次引入一个使检验统计量取得最优值的变量,同时也检验先前引入的变量,如果先前引入的变量其判别能力随新变量的引入而变得不显著,则需及时将其剔除,直到判别式中的变量都很显著,且剩下来的变量也再没有其他重要的变量可引入时,逐步筛选结束。5.简要叙述判别分析的步骤及流程。判别分析的逻辑步骤如下:(1)明确研究问题:这一步骤主要根据待研究的问题来确定具体的研究内容。(2)研究设计要点的确定:主要包括解释变量的选择、估计判别函数所需样本量的确定和用于后续的验证中的测试样本的保留。(
10、3)假定条件的验证:检验解释变量的多元正态性、协方差是否相等以及解释变量间是否存在多重共线性等。(4)估计判别函数:确定具体的判别分析方法,估计判别函数。(5)结果的解释:说明判别函数中每个解释变量的相对重要性,其中可以通过标准化判别权重、判别载荷、偏 F 值等方法来确定其重要性。(6)判别结果的验证:通常采用分割样本或者交叉验证法。判别分析的流程:明确研究问题设计要点的确定假定条件的验证估计判别函数使用分类矩阵评估预测的精度判别函数的解释判别结果的验证 6.为研究某地区人口死亡状况,已按某种方法将 15 个已知样品分为 3 类,指标及原始数据如下表所示,试建立判别函数并判定另外 4 个待判样
11、品属于哪类。x1:0 岁组死亡概率 x2:1 岁组死亡概率 x3:10 岁组死亡概率 x4:55 岁组死亡概率 x5:80 岁组死亡概率 x6:平均预期寿命 组别 序号 x1 x2 x3 x4 x5 x6 第一组 1 34.16 7.44 1.12 7.87 95.19 69.30 2 33.06 6.34 1.08 6.77 94.08 69.70 3 36.26 9.24 1.04 8.97 97.30 68.80 4 40.17 13.45 1.43 13.88 101.20 66.20 5 50.06 23.03 2.83 23.74 112.52 63.30 第二组 1 33.24
12、6.24 1.18 22.90 160.01 65.40 2 32.22 4.22 1.06 20.70 124.70 68.70 3 41.15 10.08 2.32 32.84 172.06 65.85 4 53.04 25.74 4.06 34.87 152.03 63.50 5 38.03 11.20 6.07 27.84 146.32 66.80 第三组 1 34.03 5.41 0.07 5.20 90.10 69.50 2 32.11 3.02 0.09 3.14 85.15 70.80 3 44.12 15.12 1.08 15.15 103.12 64.80 4 54.17
13、25.03 2.11 25.15 110.14 63.70 5 28.07 2.01 0.07 3.02 81.22 68.30 待判样品 1 50.22 6.66 1.08 22.54 170.60 65.20 2 34.64 7.33 1.11 7.78 95.16 69.30 3 33.42 6.22 1.12 22.95 160.31 68.30 4 44.02 15.36 1.07 16.45 105.30 64.20 解:我们选择使用费歇尔判别费歇尔判别方法来建立判别函数。(1)将上面表格中6个指标变量对应的数据复制粘贴到打开的SPSS数据框中,并定义一个新的变量 group,分别
14、用 1、2、3 表示第一、二、三组,而待判样本对应的分组保持空着。(2)按本书 90 页例 4-1 的操作步骤所示,打开判别分析的对话框并进行相应设置。然后,点击右侧 Statistics 按钮,在新打开的对话框中,勾选如下边左图所示的选项;点击 Classify 按钮,在新打开的对话中,勾选如下边右图所示的选项。(3)点击 OK 运行后,其中部分输出结果如下所示:从上面结果中可以看出,在 0.05 的显著性水平上,变量 x1、x2、x3、x6 对应的p 值均大于 0.05,说明这四个均不能拒绝三个分组上均值相等的原假设。另外,从协方差阵的齐性检验结果也可看出,协方差阵是奇异矩阵,主要由于p
15、n,因此,考虑仅使用变量 x4 和 x5 建立判别函数。(4)将变量 x1、x2、x3、x6 从 Independents 框中移出,重新运行,其中得到有如下结果。由上表可知,结果拒绝各组的协方差阵相等的原假设,认为各组的协方差阵不相等,因此在(2)中使用的协方差矩阵应该选择 Separate-groups。(5)将使用的协方差阵进行调整后,打开 Save 对话框,并选中第一个和第三个复选框,重新运行,可得到如下结果。另外,在数据框中也会出现 4 列新的变量,分别是对各样品的分组判别结果,以及分别被判为一、二、三组的概率。由以上第一张表可知判别函数 1 是显著的,而判别函数 2 是不显著的。其
16、中,标准化的判别函数 1 为:y1=0.531x4+1.341x5;非标准化的判别函数 1为:y1=0.0694+0.1025 10.610。(6)根据数据框中输出的结果可知,待判样本中 1 和 3 被判为第二组、2 和 4被判为第一组,而其他的样本中仅有第三组的第 3 个样本被判错。第第 5 5 章章 P P133133 1.主成分的基本思想是什么?主成分分析是研究如何通过原始变量的少数几个线性组合来解释原始变量绝大多数信息的一种多元统计方法。该方法主要基于众多变量之间有一定的相关性,则必然存在着起支配作用的共同因素这一想法,通过对原始变量相关矩阵或协方差矩阵内部结构关系进行研究,利用原始变
17、量的线性组合形成几个综合指标(主成分)。利用主成分分析得到的主成分与原始变量之间有如下基本关系:(1)每一个主成分都是各原始变量的线性组合;(2)保留了原始变量绝大多数信息的主成分的数目远少于原始变量的数目;(3)各主成分之间互不相关。主成分分析的基本思想是在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。2.主成分在应用中的主要作用是什么?主成分是原始变量的重新组合,少数的几个主成分就能包含原始变量的大部分信息,而且主成分之间互不相关,因此主成分主要可以解决实际应用中由指标变量的个数较多而且信息大量重叠所带来的复杂性增加、模型的建立和分析难度大等问
18、题。信息的重叠有时甚至会抹杀事物的真正特征与内在规律,使用主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。3.由协方差阵出发和由相关阵出发求主成分有什么不同?由于对原始数据的各变量进行减均值除以标准差的标准化后,再对标准化后的数据求协方差阵即为原始数据的相关阵。因此,由协方差阵出发和由相关阵出发求主成分时的区别可以转化为使用标准化前后的数据求解主成分所带来的不同。由于对数据进行标准化的过程实际上就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等
19、且均为 1,即意味着原始各变量自身变异这一部分重要信息被抹杀,使得标准化后各变量在对主成分构成中的作用趋于相等,因此使用标准化前后的数据求解主成分会有较大差异。一般而言,对于度量单位不同的指标变量或是取值范围彼此差异非常大的指标变量,我们不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化。但是对于取值范围相差不大或是度量相同的指标,由于进行标准化处理后的数据会损失各变量自身方差这一重要信息,因此,对同度量或是取值范围在同量级的数据还是直接从协方差矩阵求解主成分为宜。4.读者自己找一个实际问题的数据,应用 SPSS 软件试做主成分分析。(答案略)第第 6 6 章章 P P160160
20、 1.因子分析与主成分分析有什么本质不同?因子分析可以看作是主成分分析的推广。它也是利用降维的思想,从研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。相比主成分分析,因子分析更倾向于描述原始变量之间的相关关系,因此因子分析的出发点是原始变量的相关矩阵。二者的本质不同主要体现在以下几个方面:(1)因子分析把诸多变量看成是对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子的线性组合。因此,其目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子,以及公共因子和特殊因子的组合系数。主成分分析则简单一些,它只
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元统计分析第5版 多元 统计分析 课后 习题 答案