分享赚钱赏收藏举报版权申诉 / 19

立即下载加入VIP,免费下载

当前位置：首页 > 学术论文 > 自然科学 > 基于观察数据的传播学研究设计_王刚.pdf

基于观察数据的传播学研究设计_王刚.pdf

上传人：爱文献爱资料

文档编号：13944690

上传时间：2023-05-08

格式：PDF

页数：19

大小：665.05KB

《基于观察数据的传播学研究设计_王刚.pdf》由会员分享，可在线阅读，更多相关《基于观察数据的传播学研究设计_王刚.pdf（19页珍藏版）》请在文库网上搜索。

1、新闻与传播研究2022 年第 12 期基于观察数据的传播学研究设计王刚内容提要定量研究方法在传播学中的应用大多都是基于观察数据展开的。在条件独立假设无法满足的情况下，观察数据与生俱来的内生性问题，尤其是遗漏变量问题往往会导致参数估计的不一致，而多元回归模型和结构方程模型并不能有效地处理这些难题，这就给研究人员进行传播学的理论检验带来了极大困扰。但是，这些困难并非意味着传播学中的观察研究无法进行因果推断。论文以一些典型的传播学研究为案例，说明了使用观察数据的传播学定量研究可以考虑通过利用外生性因素来处理遗漏变量和分配机制的研究设计思路，并结合这些案例详细介绍了断点回归设计、工具变量法和双重差分模

2、型等方法。这些研究设计可以也应该在未来的传播学定量研究中发挥重要作用。关键词观察数据遗漏变量断点回归工具变量双重差分一、引言尽管实验方法是科学研究中的黄金方法，传播学中的许多定量研究由于各种原因还不得不依赖观察数据(observtional data)展开。观察数据有时也被称为回顾数据(retrospective data)或非实验数据(nonexperimental data)，是指由随机实验之外的方式所产生的数据，通常包括调查、人口普查或行政管理档案等。而观察研究(observational studies)则是一种关于处置(treatment)或政策及其因果影响的实证研究，这类研究与实验

3、研究的重要区别在于研究人员无法控制处置条件的分配。例如新媒体接触对社会治理参与的影响研究基于中国社会状况综合调查2013 201741非实验数据往往强调数据的非控制实验性质;而观测数据和回顾数据更强调数据是研究者被动收集到的。参见Wooldridge，Jeffrey M.，Introductory Econometrics:A Modern Approach.Boston，MA:Cengage Learning，2016，p.2。Winship，Christopher，Stephen L.Morgan，“The Estimation of Causal Effects from Observ

4、ational Data，”Annual eview ofSociology，vol.25，1999，pp.659 706.Morgan，Stephen L.，Chirstopher Winship，Counterfactuals and Causal Inference，New York:Cambridge University Press，2015，p54.基于观察数据的传播学研究设计年数据的实证分析一文就是一个典型的使用观察数据展开观察研究的案例。该研究中的数据来源于中国社会状况综合调查的 3 期混合截面数据，这些数据来自于社会调查，并非实验生成。在此观察研究中，研究人员观察到了个体在新

5、媒体接触方面的差异，但这些差异并不是由研究者控制形成的。对于传播学等社会科学而言，观察数据有一个先天的内生性(endogeneity)问题。数据的内生性会导致统计推断分析中的参数估计不一致，这就会给研究人员进行传播学的理论检验造成极大困扰。所以在现代社会科学比如经济学、政治学等学科的观察研究(observationalstudies)中，围绕着对内生性问题，尤其是对遗漏变量(omitted variable)问题处理的研究设计(research design)自然就成了这些研究中最重要的内容之一，也是其研究方法部分的核心。令人遗憾的是，目前在传播学中对于研究设计这个概念还存在着极大的误解。一个

6、研究设计是否恰当往往取决于一项研究的目的，对于以预测和政策建议为主、关注变量间相关性的传播学研究，研究设计围绕着多元回归模型或者结构方程模型中的测量模型展开是无可厚非的尽管在这一类相关性研究中研究设计是一个很少被涉及的名词。但是科研人员最感兴趣的，也是最有理论价值的研究大多都涉及变量间的因果关系和理论逻辑。这一类的研究从方法上来看难度要远远大于前一种相关性分析，其中最大的难点就在于如何有效地处理以遗漏变量为代表的内生性问题这就必然要求科研人员首先对观察数据进行策略性识别。所以，针对因果关系分析的这些识别策略才是一项传播学研究设计的核心内容。通过多元回归模型或结构方程模型得到的只有相关性解释

7、的回归系数来进行传播学中的因果关系推断显然是不恰当的。也正是由于对研究设计和回归系数的误解，在实际应用中，许多传播学定量研究还常常误把随机样本当作随机分配、错误地使用控制变量或解读其与因变量的关系、通过增减变量观察 2的变化来判断因果影响等等。这些现象说明了在传播学中有误把定量研究方法等同于应用统计学的趋势。事实上，社会科学中的定量研究方法与统计学最重要的区别之一就是对因果关系的关注和讨论，之二便是本文讨论的一些针对观察数据的识别策略，也就是研究51张云亮、冯珺、季芳芳、柳建坤:新媒体接触对社会治理参与的影响研究基于中国社会状况综合调查2013 2017年数据的实证分析，新闻与传播研究20

8、20 年第 7 期。关于内生性问题，更具体的请参见王刚、吴星漫:从统计推断到因果推断传播学定量研究中的内生性问题，新闻与传播研究2021 年第 4 期。从2018 年至今，新闻传播学主流期刊上仅有极个别文章考虑了如何处理内生性问题。极个别运用工具变量的案例(尽管这些工具变量的选择并不有效)，可参见张云亮、冯珺、季芳芳、柳建坤:新媒体接触对社会治理参与的影响研究基于中国社会状况综合调查 2013 2017 年数据的实证分析，新闻与传播研究2020 年第 7 期;张苏秋、王夏歌:媒介使用与社会资本积累:基于媒介效果视角，国际新闻界2021 年第 10 期。Angrist，Joshua，Jo

9、rn-Steffen Pischke，Mostly Harmless Econometrics:An Empiricists Companion，Princeton，NJ:PrincetonUniversity Press，2009，pp.113 114.新闻与传播研究2022 年第 12 期设计的核心。传播学研究的科学性与规范性首先就应该体现在其方法的科学性与规范性方面。与其他社会科学一样，对于以传播学理论构建为目的的研究，其研究设计自然也就应该围绕着对内生性问题的处理展开。接下来，本文首先说明为什么内生性问题中的遗漏变量问题是对传播学定量研究的最大挑战，以及多元回归模型和结构方程模型等目前

10、的流行方法在处理这一难题时的局限性。然后本文讨论基于观察数据的研究设计的核心问题识别策略，并结合一些传播学中的典型案例讨论几种观察研究中常用的研究设计，包括断点回归设计、工具变量法和双重差分模型等。二、传播学中的遗漏变量问题在传播学研究中最为常见的内生性问题包括循环因果、测量误差、遗漏变量和选择性偏差。在这四种常见情况中，循环因果从逻辑上是比较容易判断出来的，比如社会资本和社交 APP 的使用情况之间就存在互为因果关系。通常来讲，针对遗漏变量问题的一些研究设计，例如工具变量法，也可以同时处理循环因果和测量误差。而选择性偏差是构成遗漏变量偏差的一种常见形式，也可以被看作是遗漏变量的一种特殊情况

11、。所以，遗漏变量问题是对包括传播学在内的社会科学因果关系识别的最大挑战，也是传播学中极难处理、最需要相应的研究设计来处理的内生性问题。传播学中的观察研究与实验研究有一个极其重大的区别就在于，在实验研究中，处置变量的分配机制是由研究人员控制的，往往也是随机的。所以在一项理想的随机试验中，因果关系可以通过比较控制组与实验组在因变量上的均值差异来识别。但是在观察研究中，研究人员只能够观察到每一个个体在解释变量上的取值(比如对微博的使用情况)，至于这个取值是如何分配给每一个个体的(也就是为什么有的人使用微博很多，而有的人却很少使用)却是未知的，通常来讲也不可能是随机出现的(我们当然很难相信每个个体在微

12、博使用程度上的差异是随机产生的)。这种观察研究中解释变量的非随机性导致了一个严重的方法问题，那就是统计上的相关显著性很可能只是表面的，实际上只是由遗漏变量引起的。我们以下面这个传播学中颇为流行的主题为例。假设我们感兴趣的研究问题是社交类 APP 是否会提高人们的社会资本，并假设这里不存在循环因果、测量误差61Wooldridge，Jeffrey M.，Econometric Analysis of Cross Section and Panel Data，Cambridge，MA:MIT Press，2002.Antonakis，J.，Bendahan，S.，Jacquart，P.，Laliv

13、e，.，“On Making Causal Claims:A eview and ecommendations，”Leadership Quarterly，vol.21，no.6，2010，pp.1086 1120.注意，并不是观察样本的随机性或非随机性。Acemoglu，Daron，Simon Johnson，James obinson，Pierre Yared，“From Education to Democracy?”The American Economiceview，Papers and Proceedings，vol.95，no.2，2005，pp.44 49.近年来，在新闻传播学

14、的主流期刊上有许多关于这类问题的定量研究。尽管研究人员使用了不同但又类似的因变量和解释变量，他们面对的遗漏变量问题却是一致的。基于观察数据的传播学研究设计和选择性偏差。用 Yi表示社会资本，Xi表示 APP 的使用情况，Zi为一组控制变量，i为残差项。当我们试图用观察数据比如某次调查以及如下的多元回归模型(2.1)来研究这一问题时:Yi=+Xi+Zi+i(2.1)显然，调查问卷中能够涉及到的调查对象和问题是有限的，如果某个同时与 Yi和 Xi都相关的变量，比如家庭收入被“遗漏”到了 i中，那么被观察到的一个显著的，就不仅仅包含了社交 APP 对社会资本的影响，它也包含了收入对社会资本的影响。通

15、常情况下，家庭收入与社会资本和社交 APP 的使用都是正相关的，这也就意味着通过(2.1)式得到的一个显著的正的是有极大误差的，社交 APP 对社会资本的影响可能并不存在，至少无法通过(2.1)式以及的显著性来判断。如图 1 所示，一方面我们有理由认为家庭收入高的、父母教育水平高的或者具备某些思想观念和性格的个体可能更早地使用电脑或者智能手机，从而也就可能更早更多地使用社交 APP;另一方面，具备上述这些特征的个体又很可能拥有更高的社会资本。当这些变量被“遗漏”在(2.1)式中的残差项 i中时，他们对社会资本的影响便通过其与社交 APP 的相关关系被体现在了中。图 1遗漏变量在使用回归模

16、型(2.1)来检验与上文类似的传播学理论问题时，实际上隐含了极其重要但通常又不可能成立的一个假设前提，那就是代表了解释变量对因变量的影响这样自然也就可以通过的显著性来进行理论检验。而这个前提成立的条件是(Y1i，Y0i)Xi。前面的分析表明了，潜在结果不独立于解释变量的主要原71这里的解释变量 Xi和因变量 Yi也可以分别代表对社交 APP 的使用情况或满意度等并采用结构方程模型为例。但是，第一，结构方程模型最多只能解决因变量的测量误差，对于更为关键更为棘手的遗漏变量等问题并没有处理;第二，结构方程模型本质上与多元回归模型类似，都只能识别变量间的相关关系。为简单并说明问题起见，本文仅以多

17、元回归模型为例，但这里的逻辑分析同样适用于结构方程模型。新闻与传播研究2022 年第 12 期因就在于遗漏变量造成的混淆性(confoundedness)。那么一个简单直接的解决方案便是把所有潜在的混淆因素作为控制变量引入(2.1)式，在给定这样一组控制变量的条件下，(Y1i，Y0i)Xi|Zi是可以成立的，即潜在结果条件独立于解释变量。但是，使用满足条件独立假设的线性回归在传播学的实际应用中又面临着许多困难。要使得(2.1)式满足(Y1i，Y0i)Xi|Zi，就需要把全部“坏”的控制变量(也就是受 Xi影响的那些变量)剔除出 Zi，并且把所有“好”的控制变量(也就是与解释变量和因变量都相关的

18、混淆因素)引入 Zi中。在使用观察数据和多元回归模型来研究社交 APP 对社会资本的影响时，类似于家庭收入这一类可能同时与社交 APP 和社会资本都相关的变量有许多。虽然我们可以尽量地把这些变量都作为控制变量“控制”起来，但是能够被控制的变量毕竟是有限的。更重要的是，传播学研究中经常会涉及个体的能力、动机等不可观测变量(unobservable variable)，要控制这些不可观测因素是极其困难的，甚至可能还有些我们不知道但又需要被控制的因素也遗漏在了 i中。所以在观察研究中，通过(2.1)式很难对传播学的因果理论进行检验。在新闻传播学中，还有大量的案例使用结构方程模型来研究与个体的态度和认

19、知等与潜变量相关的问题，比如人们对某种 APP 的满意度是否会影响他们对 APP 的分享意愿和分享行为。通过结构方程模型也许可以解决某些解释变量的测量问题，也就是测量误差问题，但是显然无法解决遗漏变量问题。因为即使我们能够精准地测量人们对某种 APP 的满意度，但我们并不清楚是什么原因影响了满意度?为什么不同的人会形成不同的满意度?影响人们满意度的因素是否也会同时影响人们的分享意愿和行为?通过与满意度具有相关性的变量并无法充分解释这些关键问题，除非被用于测量满意度的变量是纯外生性的这也就属于后文中将要讨论的工具变量法，是与结构方程模型中的测量模型完全不同的一种识别策略。在当前传播学的定量研究

20、中，对一些概念的误解也可能是导致多元回归模型误用的原因，这些误解主要包括随机样本、2以及控制变量等。随机样本只是使得总体中的每一个潜在受访者以同等的概率被选中为实际的受访者。但是这一点，并不能够使得(Y1i，Y0i)Ti成立，当然也无法剔除遗漏变量的影响。2本身并不包含任何关于因果关系的信息，它只是一个刻画观察数据线性拟合程度的指标。但这并不表示一个较大的 2就能够剔除遗漏变量对因果关系的影响，也不能认为较小的 281(Y1i，Y0i)Xi|Zi即条件独立性(conditional independence)，也被称为非混杂性(unconfoundedness)或者依据观测的选择(select

21、ion on observable)。在经典的数理统计学教程中，随机样本是被这样定义的:“设 X 是具有分布函数 F 的随机变量，若 X1，X2，Xn 是具有同一分布函数 F 的、相互独立的随机变量，则称 X1，X2，Xn 为从分布函数 F(或总体 F，或总体 X)得到的容量为 n 的简单随机样本，简称样本。”盛骤、谢式千、潘承毅编:概率论与数理统计(第四版)，北京:高等教育出版社，2008 年，第 130 页。基于观察数据的传播学研究设计就表示解释变量对因变量没有影响。另外，2可以用来比较解释变量数目相同的线性回归模型，但不应被用于比较解释变量数目不同的线性回归模型。也就是说，我们不能通过增

22、减因变量并观察 2变化的情况来说明模型的改进情况，更不能通过这种手段来验证因果关系。因为在回归模型中只要增加自变量，2就绝对不会减小，通常只会增大。另外，在传播学的定量研究中，解释变量和控制变量的区别也远远不只是名称上，或者是研究人员“感兴趣”和“不太感兴趣”这么简单。它们在多元回归方程中的目的和作用，回归系数以及显著性水平的含义等等方面都是完全不同的。简单来讲，解释变量是用来帮助我们检验其与因变量之间在传播学上的理论关系的，而控制变量是帮助我们使得这些统计检验更有意义。也就是说，通过引入控制变量，多元回归模型确实能够有效地帮助科研人员检验解释变量与因变量之间的理论逻辑关系。在新闻传播学中，对

23、控制变量的使用有两类常见错误。第一类错误是在对控制变量的作用的认识上，通常表现为把控制变量与解释变量等同对待。第二类错误是第一类错误的延伸，主要表现为在模型中引入了“坏”的控制变量或剔除了“好”的控制变量。一个非常常见的例子就是在媒体使用对社会资本的影响这一类的研究中，家庭收入作为一个“好”的控制变量却往往被各类模型剔除在回归之外。总之，由于遗漏变量在观察研究中的普遍存在，通过简单的多元回归模型或结构方程模型是无法帮助我们有效地进行传播学理论检验的。这既是社会科学定量研究方法与统计学的区别之一，也是为什么需要研究设计并运用恰当的数据识别策略来帮助我们进行因果推断的原因。三、识别策略、外生性与随

24、机分配一个典型的传播学或其他社会科学的研究通常会包括理论构建(theorybuilding)、理想性实验(ideal experiment)、识别策略(identification strategy)和统计推断(statistical inference)四个重要部分。尽管在广义上一个研究设计可以完全包括以上这四个部分，但是从研究方法的角度来看，难度最大，对研究成败影响也最大的往往是中间两个部分。当然，在不同类型的研究设计中，理想性实验和识别策略的重要性和难度也会有差别。比如一项实验研究中的重点和难点经常是在分配机制(assignment mechanism)和处置(treatment)等与实

25、验设计相关的问题，识别策略相比之下要简单得多。而在一项基于观察数据的研究中，情况则可能相反，研究91洪永淼:高级计量经济学，北京:高等教育出版社，2011 年，第 57 页。Angrist，Joshua，Jorn-Steffen Pischke，Mostly Harmless Econometrics:An Empiricists Companion，Princeton，NJ:PrincetonUniversity Press，2009，pp.3 8。也有学者认为研究设计可以分为:研究问题、相关理论、数据和对数据的使用四个部分。参见 Gary King，obert D.Keohane，Sidn

26、ey Verba，Designing Social Inquiry:Scientific Inference in Qualitative esearch，Princeton，NJ:Princeton University Press，1994，p.13。新闻与传播研究2022 年第 12 期人员可以很容易获取调查数据，甚至是大量的随机样本，但发现并使用适当的数据识别策略的难度往往都很大。各类实验和准实验方法通常在随机分配机制方面比非实验方法有着天然的优势，因为在这些方法中研究人员可以人为地或者通过某种“自然”来控制分配机制。但是在传播学中，大量的科研工作由于受各种因素的影响还不得不依赖观察数

27、据展开。当我们把研究设计中的数据生成部分 “理想性实验”用生成观察数据的方式，比如一项全国性的调查来替代时，数据识别策略对于一项研究的成败是至关重要的。此时的研究设计也就从“理想性实验数据识别策略统计推断”变成“观察数据获取数据识别策略统计推断”。当数据的获取不是那么困难的时候，很可能也就意味着这些数据很难被直接应用于理论检验。于是，针对遗漏变量等内生性问题的数据识别策略在一项传播学的定量研究中便自然成为了整个研究设计的核心问题。目前在新闻传播学的定量研究中，绝大多数的文章都采用了“观察数据获取统计推断”的研究模式并依据统计推断的显著性来进行因果推断，识别策略在这些研究中都被误解为随

28、机样本或是忽略了。在前文我们已经说明了，传播学理论研究中遇到的最大挑战就是遗漏变量问题。实验方法备受推崇的一个主要原因就是一个实验设计通常可以通过对处置(treatment)的随机分配来解决遗漏变量的困扰。在观察研究中，我们就只能通过一定的数据识别策略来解决这个困扰。目前传播学领域流行的直接应用多元回归或结构方程模型的“观察数据获取统计推断”模式，可以研究变量间的相关关系，但对于处理内生性问题以及传播学理论构建的帮助极为有限。所谓的识别策略是 2021 年诺贝尔经济学奖得主 Agtrist 和 Kruener(1999 年)提出的一个术语，它被用来描述科研人员如何运用非实验数据来逼近一个理想

29、性实验的研究。简单来讲，在一项传播学研究中，所谓识别策略就是通过某些手段把观察数据中与实验数据(假如这一项研究真的可以通过一个理想性实验来完成)比较相似的那一部分数据识别出来，然后利用这一部分数据来研究感兴趣的变量之间的因果关系。也就是说，研究人员希望寻找到在他们关心的解释变量的取值上具备一定的随机性的那一部分数据。在识别策略的具体应用中，研究人员往往需要通过寻找某些外生性的因素来解决随机性，这些外生性因素在解决随机性的同时也就可以至少部分地解决内生性问题，从而消除或减小参数估计的偏差。外生性与随机性是两个不同但在研究方法中又联系紧密的概念。回到第二部分02除特殊说明的情况外，研究设计专指基于

30、观察数据的实证研究设计，实验设计专指基于实验数据的实证研究设计。Angrist，Joshua，D.，Alan B.Krueger，“Empirical Strategies in Labor Economics，”in Handbook of Labor Economics，ed.Orley C.Ashenfelter and David Card，vol.3，North Holland，Amsterdam.基于观察数据的传播学研究设计的回归方程(2.1)，在绝大多数的教科书中都会提及我们用(2.1)来进行因果关系识别的一个假设前提是 Xi是一个外生变量(exogenous variable)

31、，也就是 E(i|Xi)=0，或者说 Xi是由(2.1)这个系统以外的因素决定的变量。但在潜在结果框架(potential outcome framework)下，使得表示因果关系的前提是 Xi的随机性。只是，当 Xi是一个外生变量时，通常我们也就可以认为 Xi在(2.1)式中就具备了随机特征，也就满足了(Y1i，Y0i)Xi|Zi。从更严格意义上来讲，外生性并不必然代表着随机性，只是随机性往往伴随着外生因素而来。值得进一步强调的是，识别策略之所以重要也很困难，并不是因为某种观察数据的获取比如一项调查没有使用随机样本(random sample)，而是因为研究人员都是被动地得到这些观察数

32、据的，他们无法控制处置变量(treatment variable)的分配。在以因果推断和理论构建为目的的传播学研究中，不使用随机样本并不是一个大的问题，可是如果没有随机分配处置变量，条件独立假设就很难成立。此时如果不对观察数据进行有效地识别，统计推断在遗漏变量等内生性问题(endogeneity)的影响下，可以帮助研究人员得到变量之间的相关关系，但很难帮助研究人员进行理论检验。问题与解决问题的手段可能同时出现。在前面分析中，我们说明了当使用观察数据进行传播学理论研究时，研究人员已经无法控制解释变量的分配，只能面对具有内生性的解释变量。但是，

33、完全内生化了的失去全部随机性的解释变量也比较罕见。在现代社会科学的定量研究设计中，几乎都是通过寻找外生性因素的影响来完成数据识别策略，从而使得条件独立假设成立，继而展开统计推断。如果借助外生变量可以很好地完成识别策略，也就意味着在非实验条件下我们感兴趣的解释变量很可能“就像随机分配出来的那样好”。四、基于观察数据的常用识别策略(一)断点回归设计断点回归设计(egression Discontinuity Design，DD)最早被 Thistle-thwait 和Campbell 用于教育学研究中。但是在相当长的时间里，DD 一直没有得到重视，直到上个世纪 90 年代末和本世纪初，在一批经济学

34、家特别是在 Hahn、Todd 和12更详细的解释，参见:Jasjeet S.Sekhon，ocio Titiunik，“When Natural Experiments Are Neither Natural norExpetiments，”American Political Science eview，vol.106，no.1，2012，p.53。Angrist，Joshua，Jorn-Steffen Pischke，Mostly Harmless Econometrics:An Empiricists Companion，Princeton，NJ:PrincetonUniver

35、sity Press，2009，p.21.Thistlethwaite，Donald L.，D.T.Campbell，“egression-Discontinuity Analysis:An Alternative to the Ex Post FactoExperiment，”Journal of Educational Psychology，vol.51.no.6，1960，pp.309 317.新闻与传播研究2022 年第 12 期Klaauw 等人讨论了 DD 中的识别策略和因果效应的估计方法后，DD 逐渐成为了社会科学实证研究中最受欢迎的一种观察研究设计。这种研究设计也被认为是随机实

36、验的近亲，能够非常有效地解决参数估计的内生性问题。清晰断点回归(Sharp DD)和模糊断点回归(Fuzzy DD)是被应用得最广泛的两种 DD 设计。模糊断点回归设计可以看作是工具变量法的一种特殊形式，所以本节主要讨论清晰断点回归设计在传播学中的应用。在传播学中，有许多研究都涉及个体的状态或行为是否会影响其对媒介的使用和信任等方面，而这些个体的行为或状态经常是受一些外生性的规则制约。比如，我们可能感兴趣的问题是大学教育是否会影响个体对微博的使用，而能否上大学取决于高考录取分数线;或者工作/退休状态是否会影响人们对官方媒体的使用和信任，而退休时间是由法律规定的，等等。前文已经说明了通过调查数据

37、和多元回归模型很难对上面这些理论问题做出一个有效的检验。在前一个例子中，上大学的人和没有上大学的人，最直观的区别主要就在于他们的高考成绩不同，但同时这些人又在许多方面都有差异(比如智商、家庭收入、父母教育水平等等)。这些差异，如果是无法观测到的，就可能成为影响我们识别大学教育是否会影响个体对微博的使用的遗漏变量，他们会同时影响学生的高考成绩和对媒体的使用。在后一个例子中，个体的工作/退休状态是由一个外生变量年龄决定的，但是年龄又会对个体的许多方面产生影响，这些影响很可能又进一步影响他们对官方媒体的使用和信任。毕竟，我们很难相信 70多岁已经退休了的老人和 40 多岁的职工之间在官媒信任上的差异

38、都源自于他们的工作/退休状态。下面，我们仅以上大学的例子来说明如何应用清晰断点回归设计展开此项研究(对于工作/退休状态的案例只需要把高考成绩替换为出生日期即可)。用 yi表示微博的使用程度，Di代表上大学的状态，其中 Di=1 表示上了大学;Di=0 表示没有上大学。假设某省 2021 年高考录取分数线为 c，学生的高考成绩为分配变量 xi，于是图2 中的 c 点便构成了能否上大学的一个断点(cutoff)。接下来，我们考虑断点回归分析的识别策略。首先，处置状态 Di取决于分配变量。如果学生的升学状态完全由高考成绩决定，那么 Di=1(xic)，Di=0(xi c)，这里 x0=c 便构成了一

39、个精确断点。当然22Hahn，J.，p.Todd，W.Klaauw，“Identification and Estimation of Treatment Effects with a egression-Discontinuity Design，”Econometrica，vol.69，no.1，2001，pp.201 209.David S.Lee，Thomas Lemieux，“egression Discontinuity Designsin Economics，”Journal of Economic Literature，vol.48，2010，p.289.还有一些媒介会通过一定的

40、规则来规范个体对媒介的使用。例如某些 APP 对不同的个体发布视频时长的规定。这些外生性的政策规定也可能会对比如说，视频的质量、粉丝的数量等产生影响。也有学者称分配变量为参考变量，英文文献中多为 assignment variable，running variable，forcing variable 等名称。基于观察数据的传播学研究设计更现实的情况可能是学生成绩在 c 点附近以不同的概率升入大学(进入处置组)，那么x0=c 便构成了一个模糊断点。更具体的，limxc+E Di|xi=x limxcE Di|xi=x。也就是说，成绩大于录取分数线 c 的学生升入大学/进入处置组的概率更高。Di

41、=1ifxi c0ifxi c图 2清晰断点回归其次，在 x0=c 点的附近，成绩对于微博使用 yi的影响应该是一个连续函数。例如，对于一个成绩在 xi=c 1 分没有升入大学的学生来讲，假如他的成绩是 xi=c但是也没有升入大学，那么这 1 分的差异对于 yi产生的影响应该是连续的。换句话说，当观察到 xi=c 1，没有升入大学的学生与 xi=c 但是升入大学的学生在微博使用 yi方面产生了显著差异时，我们有理由认为这种差异可能主要是由上大学与否造成的，而不是由于成绩上仅仅 1 分的微小区别带来的。也就是说:lim0E Y0i|xi=x0+=lim0E Y0i|xi=x0 lim0E Y1i

42、|xi=x0+=lim0E Y1i|xi=x0 于是，在断点 x0=c 附近的一个小领域内，上大学的状态近似一个理想的随机实验，(Y0i，Y1i)Di|xi(x0=c)，0。尽管 Di是由学生的成绩 xi决定的，但是在分数线 x0=c 附近(c ，c+)处置组和控制组的分配，xic 从而 Di=1，或者 xi c 从而 Di=0 是随机发生的。上大学通常被认为是一件好事情，学生当然有充分的动机愿意自我选择(self-selection)或者努力地操纵结果从而进入处置组。可是最后的实际结果应该更多的是由诸多偶然性因素决定的，比如学生猜对或者猜错了某道题目的答案、阅卷老师当时的心情，等等。当观察对

43、象无法精准地操控进入控制组/处置组时，在断点附近处置状态的分配便是随机的，整体研究在断点附近也近32新闻与传播研究2022 年第 12 期似于一个随机实验，并且我们可以像分析随机实验一样来分析和检验因果关系。如果假设给定 xi的条件下，微博使用 yi服从线性分布:E y0i|xi=+xiy1i=y0i+我们便可以用如下的线性回归模型(4.1)来评估大学教育对微博使用情况的影响(参见图 2)。yi=+xi+Di+i，xi(x0=c)(4.1)其中，代表了在断点附近大学教育对微博使用情况的影响。如果 E y0i|xi=f(xi)是一个非线性函数，则可以采用如下的非线性回归模型:yi=f(xi)+D

44、i+i，xi(x0=c)(4.2)在实际应用中，个体的状态被断点完全决定的情况，也就是适用于清晰断点回归的情况是比较少的，更常见的情况是个体的状态以不同的概率分布在断点左右，这种模糊断点回归实际上是接下来要讨论的工具变量法的一种特殊情况。(二)工具变量法工具变量法可能是社会科学实证研究中使用得最为广泛的一种识别策略，基于工具变量的研究设计在许多重大的理论研究中都做出了突出贡献。例如，制度会影响经济发展吗?这似乎是一个不言自明的论断，但是要真正证明它却极其困难，因为这一理论受到了内生性问题的全面困扰。通过控制所有影响经济增长的变量，然后观察好的制度是否伴随着经济发展是不可行的，因为至少从逻辑上不

45、仅制度可能影响经济发展，经济发展也会影响社会的制度变迁。即使制度有连续性，用过去的制度来研究当今的经济发展通常也不可行，因为过去的制度是如何形成的呢?那些影响过去制度形成的因素同样也可以是影响今天经济增长的因素。那么是否存在一种外生性的制度，并且这种制度的形成与经济发展无关呢?Acemoglu、Johnson 和obinson 发表了一篇极具影响力的论文，他们发现可以利用早期殖民地的死亡率作为一个制度工具变量来研究制度对经济发展的影响。早期的欧洲殖民者在美洲和非洲等地建立起了不同的殖民制度，一些是掠夺性的，一些是建设性的。这些制度对于原殖民地而言显然是被强加的、外生的，但是又受殖民地的死亡率影

46、响。简单来讲，对于死亡率较低的地区，欧洲殖民者就更倾向于移民定居并建立起类似母国的制度;而对于死亡率较高的地区，他们就更倾向于建立起掠夺性的制度。在讨论工具变量法之前，我们先回顾一下遗漏变量或者混淆因素给传播学理论研究带来的困扰，因为这些问题本身就暗含了可以利用工具变量来解决这些内生性42David S.Lee，Thomas Lemieux，“egression Discontinuity Designsin Economics，”Journal of Economic Literature，vol.48，2010，p.283.Daron Acemoglu，Simon Johnson，Jame

47、s osinson，“The Colonial Origins of Comparative Development:An EmpiricalInvestigation，”American Economic eview，vol.91，no.5，2001，pp.1369 1401.基于观察数据的传播学研究设计问题的思路。假设我们想要研究的一个问题是学校质量与学生使用网络游戏或者手机的关系，用 yi表示网络游戏消费时间，Di代表学生升入的学校的质量，其中 Di=1 代表升入重点中学，Di=0 代表升入普通中学，Wi为一组观察到的控制变量。yi=+Di+Wi+i(4.3)如果我们把学校的质量视为“制

48、度”，学生使用网游的时间看作是“个体发展”，那么这里面临的内生性问题与前文中制度和发展的关系有些类似。只是在这个微观传播学的研究中遗漏变量问题可能更严重，因为总有一些诸如能力、动机这些无法观察到的变量作为混淆因素存在。由(4.3)式我们可以发现学校质量与网游时间之间的相关程度，但是即使在我们引入一组可观察到的控制变量 Wi的情况下，学校质量前的回归系数仍然不代表其对网游时间的影响。假设某个难以观察到的变量，比如学习动机 Mi，无法被引入 Wi，那么 Mi这一类混淆因素便会成为研究学校质量对网游时间影响的大麻烦，因为立志成为一名比如说传播学教授的学习动机会作为一个混淆变量同时影响学生是否进入重

49、点中学以及玩网游的时间，而这种影响却被遗漏在了(4.3)式的残差项中。实际上，(4.3)中的残差项 i可能包含了三类分别与 Di或 yi有关的变量。第一类是只与因变量 yi相关但是与 Di无关的，如果能把这一类变量引入 Wi，自然可以加强对 yi的解释。不过这一类变量即使没有引入(4.3)也并不会影响我们识别Di与 yi之间的因果关系。第二类就是诸如学习动机 Mi这些难以观察到的混淆因素，当这些变量被遗漏在 i中就会对我们识别因果关系造成极大的困扰。假如真的可以把所有这一类变量全部都引入(4.3)式，构建一个长回归模型，当然也就表示 Di对 yi的影响。第三类变量就是只与解释变量 Di相关但与

50、 yi等是无关的。假设存在这么一个变量 Zi，我们称其为工具变量，并且 Cov(Di，Zi)0，Cov(Zi，i)=0，Cov(Zi，Wi)=0。对于(4.3)式而言，Zi是一个纯外生的只与 Di相关的变量。更进一步的，如果 Zi对 yi有影响，那么这种影响也只能是通过 Di间接产生的。那么:Cov(Yi，Zi)=Cov(，Zi)+Cov(Di，Zi)+Cov(Wi，Zi)+Cov(i，Zi)=Cov(Di，Zi)=Cov(Yi，Zi)Cov(Di，Zi)=Cov(Yi，Zi)/Var(Zi)Cov(Di，Zi)/Var(Zi)(4.4)(4.4)式中的分子实际上是 yi对 Zi的总体回归系数