10 相关和回归分析.ppt
《10 相关和回归分析.ppt》由会员分享,可在线阅读,更多相关《10 相关和回归分析.ppt(97页珍藏版)》请在文库网上搜索。
1、Department of Biostatistics, School of Public Health Nanjing Medical University直线相关和回归分析Medical statistics医学统计学Department of Biostatistics, School of Public Health Nanjing Medical University直线相关分析Linear Correlation AnalysisPage 3相关分析:主要内容问题的提出相关关系与确定性关系相关和直线相关的概念直线相关的图示直线相关系数的计算直线相关系数的假设检验和区间估计Page
2、4问题的提出以往方法的局限仅限于考察一个观察指标Page 5问题的提出人的体重往往随着身高的增加而增加。二者之间是否存在某种关联?如果存在,可否用身高来推测体重的多少?儿童所能发出的最长音调往往和年龄有关。同样,是否可以建立年龄和音调长度的数量关系?人的肺活量往往随着胸围的增加而增加。举重运动员所能举起的最大重量是否与他的体重有关?Page 6相关关系与确定性关系所谓确定性关系是指两变量间的关系是函数关系。已知一个变量的值,另一个变量的值可以通过这种函数关系精确计算出来。C =2RS=vt非确定性关系是指两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高随年龄增长而增高;体表
3、面积与体重有关Page 72.相关的概念当两个数值变量之间出现如下情况:当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positive correlation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negative correlation)。 Page 8直线相关的概念直线相关(linear correlation),又称简单相关,用以描述两个呈正态分布的变量之间的线性共变关系,常简称为相关。Page 9用以说明具有直线关系的两个变量间相关关系的密切程度和
4、相关方向的指标,称为相关系数(correlation coefficient),又称为积差相关系数(coefficient of product-moment correlation),Pearson相关系数 。总体相关系数用希腊字母表示,而样本相关系数用r表示,取值范围均为-1,1。Page 10r=0r=0r-1r1完全正相关完全负相关零相关零相关0r1-1r0r=0 r=0零相关正相关负相关零相关直线相关的图示Page 11r =-1-1r 0r =0直线相关的图示与相关系数的关系0r 1r =1Page 12直线相关系数的计算Page 13以下资料选自Galton的一项研究,目的是探讨
5、成年时身高是否与两岁时的身高(单位:英寸)有关。两的身高(英寸)39 30 32 34 35 36 36 30成年身高(英寸)71 63 63 67 68 68 70 64Page 14绘制散点图Y 成年后身高(单位:英寸)X 2岁时的身高(单位:英寸)3032343638406365676971Page 15Page 16Page 17相关系数的假设检验H0:0,两变量间无直线相关的关系;H1:0。Page 18H0:0,两变量间无直线相关的关系;H1:0,两变量间有直线相关的关系; =0.05=8-2=6以自由度为6查附表2的t界值表,得P0.01,按=0.05的水准拒绝H0,接受H1,认
6、为2岁时的身高和成年身高之间存在正相关。Page 19总体相关系数的区间估计从相关系数不等于0的总体中抽样,样本相关系数的分布是偏态的。 Page 20相关系数的抽样分布( = - 0.8)-0.8-0.6-0.4-0.20.00100200300-1.0Page 21相关系数的抽样分布( = 0)-1.0-0.8-0.6-0.4-0.20.00.20.40.60.81.00100200300Page 22相关系数的抽样分布( =0.8) 00.20.40.60.81.00100200300Page 23R.A. Fisher(1921) 的 z 变换 z近似服从均数为 ,标准差为 的正态分布
7、。 Page 24相关系数的z 值的抽样分布( = - 0.8)00.51.01.52.0050100150200Page 25相关系数的z 值的抽样分布( = 0)-2-1012050100150200Page 26相关系数的z 值的抽样分布( = 0.8) 01234050100150200Page 27相关系数的可信区间估计将 r 变换为 z ;根据 z 服从正态分布,估计 Z 的可信区间;再将 z变换回 r 。Page 28相关系数的可信区间估计 Fishers 变换 r z 正态近似 Fishers 反变换 的95%CI Z的95%CI Page 29该可信区间有什么含义?Depar
8、tment of Biostatistics, School of Public Health Nanjing Medical University直线回归分析Linear Regression AnalysisPage 31直线回归分析:主要内容引言直线回归的定义直线回归方程的求解回归系数的t检验回归问题的方差分析直线回归系数和回归方程的解释与直线回归有关的区间估计相关与回归的区别和联系正确应用Page 32引言 对于2岁时的身高和成年后身高间的关系 即便具有相同的2岁身高,成年后的身高也不一定相同; 2岁身高X与成年后身高Y的散点图Y 成年后的身高(英寸)X 两岁时的身高(英寸)30323
9、43638406365676971Page 33引言 对于女大学生的体重和肺活量间的关系 即便具有相同的体重,肺活量也不一定相同;Y 肺活量(L)X 体重(kg)40602.04.03.02.53.5504555女大学生体重(X)与肺活量(Y)的散点图Page 34折衷的解释2岁身高影响成年的身高,但并非确定地决定它(determine it exactly) ;女学生的体重虽然影响了肺活量;但并非确定地决定它;因此,虽然它们之间有数量关系,但并非确定性的数量关系。是一种非确定性关系;一种宏观的关系!Page 35所谓确定性关系是指两变量间的关系是函数关系。已知一个变量的值,另一个变量的值可以
10、通过这种函数关系精确计算出来。非确定性关系是指两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。Page 36直线回归的定义 宏观上来讲,他们呈直线关系,但并不能用来描述。所以我们用“hat”表示估计值,给定X时Y的条件均数(Y均数的估计值)Page 37 Y 因变量,响应变量 (dependent variable, response variable) X 自变量,解释变量 (independent variable, explanatory variable) b 回归系数 (regression coefficient, slope) a 截距 (intercept)Page
11、38不同斜率时回归直线的表现XYPage 39直线回归方程的求解两的身高(英寸)39 30 32 34 35 36 36 30成年身高(英寸)71 63 63 67 68 68 70 64Page 40直线回归方程的求解:最小二乘原理Y 成年后身高(单位:英寸)X 2岁时的身高(单位:英寸)3032343638406365676971Page 41直线回归方程的求解最小二乘法(Least Square Method)Page 42最小二乘法求解(了解) 根据微积分学中的求极值的方法,令 Q对a、b的一阶偏导数等于0,即:Page 43最小二乘法求解(了解)Page 44直线回归方程的求解2岁身
12、高和成年身高之间关系Page 45直线回归方程Page 46直线回归系数的t检验回归系数也有抽样误差!检验方法针对回归系数b的检验:t检验针对回归方程的检验:F检验Page 47直线回归系数的t检验总体回归系数 =0,则回归关系不存在。H0:总体回归系数为0, =0;H1:总体回归系数不为0,0;=0.05。Page 48直线回归系数的t检验Y的剩余标准差扣除X的影响(即回归所能解释的部分)后Y本身的变异程度Page 49直线回归系数的t检验 名词辨析: Y的变异 Y本身的变异 Y 体重增加量(g)X 进食量(g)600 650 700 750 800 850 900 950120140160
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 相关和回归分析 相关 回归 分析