第十章--定性选择模型(计量经济学-潘省初).ppt
《第十章--定性选择模型(计量经济学-潘省初).ppt》由会员分享,可在线阅读,更多相关《第十章--定性选择模型(计量经济学-潘省初).ppt(46页珍藏版)》请在文库网上搜索。
1、第十章 定性选择模型 我们在第四章中曾介绍解释变量为虚拟变量的模我们在第四章中曾介绍解释变量为虚拟变量的模型,本章要讨论的是因变量为虚拟变量的情形。在这型,本章要讨论的是因变量为虚拟变量的情形。在这种模型中,因变量描述的是特征、选择或者种类等不种模型中,因变量描述的是特征、选择或者种类等不能定量化的东西,如乘公交还是自己开车去上班、考能定量化的东西,如乘公交还是自己开车去上班、考不考研究生等。在这些情况下,因变量是定性变量,不考研究生等。在这些情况下,因变量是定性变量,我们可以用定义虚拟变量的方法来刻画它们。这种因我们可以用定义虚拟变量的方法来刻画它们。这种因变量为虚拟变量的模型被称为定性选择
2、模型变量为虚拟变量的模型被称为定性选择模型(Qualitative choice modelsQualitative choice models)或定性响应模型)或定性响应模型(Qualitative response modelsQualitative response models)。)。如果只有两个选择,我们可用如果只有两个选择,我们可用0 0和和1 1 分别表示它们,分别表示它们,如乘公交为如乘公交为0 0,自驾车为,自驾车为1 1,这样的模型称为二元选择,这样的模型称为二元选择模型(模型(binary choice Modelsbinary choice Models),多于两个选择
3、(如),多于两个选择(如上班方式加上一种骑自行车)的定性选择模型称为多上班方式加上一种骑自行车)的定性选择模型称为多项选择模型(项选择模型(Multinomial choice modelsMultinomial choice models)。)。第一节 线性概率模型 二元选择模型如何估计呢?由于它看上去象是一个典型的OLS回归模型,因而一个简单的想法是采用OLS法估计。当然,对结果的解释与常规线性回归模型不同,因为二元选择模型中因变量只能取两个预定的值。线性概率模型(LPM)一般形式如下:这看上去与典型的OLS回归模型并无两样,但区别是这里Y只取0和1两个值,观测值可以是个人、公司、国家或任
4、何其他横截面个体所作的决定。解释变量中可以包括正常变量和虚拟变量。下面用一个关于是否读研究生的例子来说明如何解释线性概率模型的结果。模型为:其中:设回归结果如下(所有系数值均在10%水平统计上显著):对每个观测值,我们可根据(10.3)式计算因变量的拟合值或预测值。在常规OLS回归中,因变量的拟合值或预测值的含义是,平均而言,我们可以预期的因变量的值。但在本例的情况下,这种解释就不适用了。假设学生甲的平均分为3.5,家庭年收入为5万美元,Y的拟合值为 尽管因变量在这个二元选择模型中只能取两个值:尽管因变量在这个二元选择模型中只能取两个值:0或或1,可是该学生的的拟合值或预测值为,可是该学生的的
5、拟合值或预测值为0.8。我们。我们将该拟合值解释为该生决定读研的概率的估计值。因将该拟合值解释为该生决定读研的概率的估计值。因此,该生决定读研的可能性或概率的估计值为此,该生决定读研的可能性或概率的估计值为0.8。需要注意的是,这种概率不是我们能观测到的数字,需要注意的是,这种概率不是我们能观测到的数字,能观测的是读研还是不读研的决定。能观测的是读研还是不读研的决定。对斜率系数的解释也不同了。在常规回归中,斜率系数代表的是其他解释变量不变的情况下,该解释变量的单位变动引起的因变量的变动。而在线性概率模型中,斜率系数表示其他解释变量不变的情况下,该解释变量的单位变动引起的因变量等于1的概率的变动
6、。GPA的系数估计值0.4意味着家庭收入不变的情况下,一个学生的GPA增加一个点(如从3.0到4.0),该生决定去读研的概率的估计值增加0.4。INCOME的系数估计值0.002表明,一个学生的成绩不变,而家庭收入增加1000美元,该生决定去读研的概率的估计值增加0.002。LPM模型中,解释变量的变动与虚拟因变量值为1的概率线性相关,因而称为线性概率模型。线性概率模型存在的问题(1)线性概率模型假定自变量与Y=1的概率之间存在线性关系,而此关系往往不是线性的。(2)拟合值可能小于0或大于1,而概率值必须位于0和1的闭区间内。回到有关读研的例子。假设学生乙的GPA为4.0,家庭收入为20万美元
7、,则代入(10.3)式,Y的拟合值为 从而得到一个不可能的结果(概率值大于1)。假设另有一个学生丙的GPA为1.0,家庭收入为5万元,则其Y的拟合值为-0.2,表明读研的概率为负数,这也是一个不可能的结果。解决此问题的一种方法是,令所有负拟合值都等于0,所有大于1的拟合值都等于1。但也无法令人十分满意,因为在现实中很少会有决策前某人读研的概率就等于1的情况,同样,尽管某些人成绩不是很好,但他去读研的机会仍会大于0。线性概率模型倾向于给出过多的极端结果:估计的概率等于0或1。(3)另一个问题是扰动项不是正态分布的。事实上,线性概率模型的扰动项服从二项分布。(4)此外,线性概率模型存在异方差性。扰
8、动项的方差是 ,这里 是因变量等于1的概率,此概率对于每个观测值不同,因而扰动项方差将不是常数,导致异方差性。可以使用WLS法,但不是很有效,并且将改变结果的含义。(5)最后一个问题是在线性概率模型中,以及 不再是合适的拟合优度测度。事实上,此问题不仅是线性概率模型的问题,而是所有定性选择模型的问题。较好一点的测度是模型正确预测的观测值的百分比。首先,我们将每一预测归类为1或0。如果拟合值大于等于0.5,则认为因变量的预测值为1。若小于0.5,则认为因变量的预测值为0。然后,将这些预测值与实际发生的情况相比较,计算出正确预测的百分比:需要指出的是,这个测度也不是很理想,但预测结果的好坏,并非定
9、性选择模型唯一关心的事,这类模型常被用于研究影响人们进行某个决策的因素。让我们来看一个竞选的例子。假设候选人甲和乙二人竞选某市市长,我们可以用一个二元选择模型来研究影响选民决策的因素,数据见表101,模型为:其中:VariableCoefficientStandard errort-Statisticp-ValueConstant-0.510.19-2.650.01 INCOME0.00980.0033.250.00 AGE0.0160.00533.080.00 MALE0.00310.130.020.98 表10-2 两候选人选举线性概率模型回归结果Dependent variable:CA
10、ND1Observations:30 =0.58Adjusted =0.53Residual Sum of Squares=3.15F-statistic=11.87 如表102所示,INCOME的斜率估计值为正,且在1%的水平上显著。年龄和性别不变的情况下,收入增加1000元,选择候选人甲的概率增加0.0098。AGE的斜率估计值也在1%的水平上显著。在收入和性别不变的情况下,年龄增加1岁,选择候选人甲的概率增加0.016。MALE的斜率系数统计上不显著,因而没有证据表明样本中男人和女人的选票不同。我们可以得出如下结论:年老一些、富裕一些的选民更喜欢投票给候选人甲。表103给出CAND1的拟
11、合值,每个大于等于0.5的拟合值计入CAND1为1的预测,而小于0.5的拟合值则计入CAND1为0的预测。从表103可看出,30个观测值中,27个(或90%)预测正确。选甲的14人中,12人(或85.7%)预测正确。选乙的16人中,15人(或93.8%)预测正确。是0.58,表明模型解释了因变量的58%的变动,这与90%的正确预测比例相比,低了不少。注意表103中有一些拟合值大于1或小于0。这是我们前面指出的这类模型的缺点之一,这些拟合值是概率的估计值,而概率永远不可能大于1或小于0。第二节 Probit模型和Logit模型一Probit和Logit方法概要 估计二元选择模型的另一类方法假定回
12、归模型为 这里 不可观测,通常称为潜变量(latent variable)。我们能观测到的是虚拟变量:这就是Probit和Logit方法的思路。Probit模型和Logit模型的区别在于对(10.7)式中扰动项u的分布的设定,前者设定为正态分布,后者设定为logistic分布。(10.7)式与线性概率模型的区别是,这里假设潜变量的存在。例如,若被观测的虚拟变量是某人买车还是不买车,将被定义为“买车的欲望或能力”,注意这里的提法是“欲望”和“能力”,因此(10.7)式中的解释变量是解释这些元素的。从(10.8)式可看出,乘上任何正数都不会改变 ,因此这里习惯上假设 Var(ui)=1,从而固定
13、的规模。由(10.7)和(10.8)式,我们有其中F是u的累积分布函数。如果u的分布是对称的,则 ,我们可以将上式写成我们可写出似然函数:(10.9)式中F的函数形式取决于有关扰动项u的假设,如果 的累积分布是logistic分布,则我们得到的是logit模型。在这种情况下,累积分布函数为:因此这是因为,由(10.11)式,有:结合(10.9)式,对于logit模型,有:上式的左端是机会(odds)的对数,称为对数机会比率(log-odds ratio),因而上式表明对数机会比率是各解释变量的线性函数,而对于线性概率模型,为各解释变量的线性函数。如果(10.9)式中 服从正态分布,我们得到的是
14、probit模型(或normit模型),在这种情况下,累积分布函数为:无论是probit模型还是logit模型,极大似然函数(10.10)都伴随着非线性估计方法,目前很多计量经济分析软件已可用于probit和logit分析,用起来很方便。由于累积正态分布和累积logistic分布很接近,只是尾部有点区别,因此,我们无论用(10.11)还是(10.12),也就是无论用logit法还是probit法,得到的结果都不会有很大不同。可是,两种方法得到的参数估计值不是直接可比的。由于logistic分布的方差为 ,因此,logit模型得到的的估计值必须乘以 ,才能与probit模型得到的估计值相比较(正
15、态分布标准差为1)。二Probit模型 Probit模型可以解决很多线性概率模型中遇到的问题。如我们在前面指出的,线性概率模型会给出小于0或大于1 的这种不可能的概率估计值,Probit模型所依据的是累积正态概率分布,将避免这类问题的发生,同时它给出接近0或1的概率估计值的机会也要小于线性概率模型。与线性概率模型相比,Probit模型更准确地描述我们打算研究的许多决策过程。如图10-1所示概率=F(Z)10ZProbit模型线性概率模型图10-1 线性概率模型和Probit模型 虽然Probit模型实际是非线性的,但它可以以一种类似于其他经济模型的方式写出。首先,我们需要将等式(10.12)稍
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 文币 0人已下载
下载 | 加入VIP,免费下载 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十 定性 选择 模型 计量 经济学 潘省初