基于观察数据的传播学研究设计_王刚.pdf
《基于观察数据的传播学研究设计_王刚.pdf》由会员分享,可在线阅读,更多相关《基于观察数据的传播学研究设计_王刚.pdf(19页珍藏版)》请在文库网上搜索。
1、新闻与传播研究2022 年第 12 期基于观察数据的传播学研究设计王刚内容提要定量研究方法在传播学中的应用大多都是基于观察数据展开的。在条件独立假设无法满足的情况下,观察数据与生俱来的内生性问题,尤其是遗漏变量问题往往会导致参数估计的不一致,而多元回归模型和结构方程模型并不能有效地处理这些难题,这就给研究人员进行传播学的理论检验带来了极大困扰。但是,这些困难并非意味着传播学中的观察研究无法进行因果推断。论文以一些典型的传播学研究为案例,说明了使用观察数据的传播学定量研究可以考虑通过利用外生性因素来处理遗漏变量和分配机制的研究设计思路,并结合这些案例详细介绍了断点回归设计、工具变量法和双重差分模
2、型等方法。这些研究设计可以也应该在未来的传播学定量研究中发挥重要作用。关键词观察数据遗漏变量断点回归工具变量双重差分一、引言尽管实验方法是科学研究中的黄金方法,传播学中的许多定量研究由于各种原因还不得不依赖观察数据(observtional data)展开。观察数据有时也被称为回顾数据(retrospective data)或非实验数据(nonexperimental data),是指由随机实验之外的方式所产生的数据,通常包括调查、人口普查或行政管理档案等。而观察研究(observational studies)则是一种关于处置(treatment)或政策及其因果影响的实证研究,这类研究与实验
3、研究的重要区别在于研究人员无法控制处置条件的分配。例如新媒体接触对社会治理参与的影响研究 基于中国社会状况综合调查2013 201741非实验数据往往强调数据的非控制实验性质;而观测数据和回顾数据更强调数据是研究者被动收集到的。参见Wooldridge,Jeffrey M.,Introductory Econometrics:A Modern Approach.Boston,MA:Cengage Learning,2016,p.2。Winship,Christopher,Stephen L.Morgan,“The Estimation of Causal Effects from Observ
4、ational Data,”Annual eview ofSociology,vol.25,1999,pp.659 706.Morgan,Stephen L.,Chirstopher Winship,Counterfactuals and Causal Inference,New York:Cambridge University Press,2015,p54.基于观察数据的传播学研究设计年数据的实证分析一文就是一个典型的使用观察数据展开观察研究的案例。该研究中的数据来源于中国社会状况综合调查的 3 期混合截面数据,这些数据来自于社会调查,并非实验生成。在此观察研究中,研究人员观察到了个体在新
5、媒体接触方面的差异,但这些差异并不是由研究者控制形成的。对于传播学等社会科学而言,观察数据有一个先天的内生性(endogeneity)问题。数据的内生性会导致统计推断分析中的参数估计不一致,这就会给研究人员进行传播学的理论检验造成极大困扰。所以在现代社会科学比如经济学、政治学等学科的观察研究(observationalstudies)中,围绕着对内生性问题,尤其是对遗漏变量(omitted variable)问题处理的研究设计(research design)自然就成了这些研究中最重要的内容之一,也是其研究方法部分的核心。令人遗憾的是,目前在传播学中对于研究设计这个概念还存在着极大的误解。一个
6、研究设计是否恰当往往取决于一项研究的目的,对于以预测和政策建议为主、关注变量间相关性的传播学研究,研究设计围绕着多元回归模型或者结构方程模型中的测量模型展开是无可厚非的 尽管在这一类相关性研究中研究设计是一个很少被涉及的名词。但是科研人员最感兴趣的,也是最有理论价值的研究大多都涉及变量间的因果关系和理论逻辑。这一类的研究从方法上来看难度要远远大于前一种相关性分析,其中最大的难点就在于如何有效地处理以遗漏变量为代表的内生性问题 这就必然要求科研人员首先对观察数据进行策略性识别。所以,针对因果关系分析的这些识别策略才是一项传播学研究设计的核心内容。通过多元回归模型或结构方程模型得到的只有相关性解释
7、的回归系数来进行传播学中的因果关系推断显然是不恰当的。也正是由于对研究设计和回归系数的误解,在实际应用中,许多传播学定量研究还常常误把随机样本当作随机分配、错误地使用控制变量或解读其与因变量的关系、通过增减变量观察 2的变化来判断因果影响等等。这些现象说明了在传播学中有误把定量研究方法等同于应用统计学的趋势。事实上,社会科学中的定量研究方法与统计学最重要的区别之一就是对因果关系的关注和讨论,之二便是本文讨论的一些针对观察数据的识别策略,也就是研究51张云亮、冯珺、季芳芳、柳建坤:新媒体接触对社会治理参与的影响研究 基于中国社会状况综合调查2013 2017年数据的实证分析 ,新闻与传播研究20
8、20 年第 7 期。关于内生性问题,更具体的请参见王刚、吴星漫:从统计推断到因果推断 传播学定量研究中的内生性问题,新闻与传播研究2021 年第 4 期。从2018 年至今,新闻传播学主流期刊上仅有极个别文章考虑了如何处理内生性问题。极个别运用工具变量的案例(尽管这些工具变量的选择并不有效),可参见张云亮、冯珺、季芳芳、柳建坤:新媒体接触对社会治理参与的影响研究 基于中国社会状况综合调查 2013 2017 年数据的实证分析 ,新闻与传播研究2020 年第 7 期;张苏秋、王夏歌:媒介使用与社会资本积累:基于媒介效果视角 ,国际新闻界2021 年第 10 期。Angrist,Joshua,Jo
9、rn-Steffen Pischke,Mostly Harmless Econometrics:An Empiricists Companion,Princeton,NJ:PrincetonUniversity Press,2009,pp.113 114.新闻与传播研究2022 年第 12 期设计的核心。传播学研究的科学性与规范性首先就应该体现在其方法的科学性与规范性方面。与其他社会科学一样,对于以传播学理论构建为目的的研究,其研究设计自然也就应该围绕着对内生性问题的处理展开。接下来,本文首先说明为什么内生性问题中的遗漏变量问题是对传播学定量研究的最大挑战,以及多元回归模型和结构方程模型等目前
10、的流行方法在处理这一难题时的局限性。然后本文讨论基于观察数据的研究设计的核心问题 识别策略,并结合一些传播学中的典型案例讨论几种观察研究中常用的研究设计,包括断点回归设计、工具变量法和双重差分模型等。二、传播学中的遗漏变量问题在传播学研究中最为常见的内生性问题包括循环因果、测量误差、遗漏变量和选择性偏差。在这四种常见情况中,循环因果从逻辑上是比较容易判断出来的,比如社会资本和社交 APP 的使用情况之间就存在互为因果关系。通常来讲,针对遗漏变量问题的一些研究设计,例如工具变量法,也可以同时处理循环因果和测量误差。而选择性偏差是构成遗漏变量偏差的一种常见形式,也可以被看作是遗漏变量的一种特殊情况
11、。所以,遗漏变量问题是对包括传播学在内的社会科学因果关系识别的最大挑战,也是传播学中极难处理、最需要相应的研究设计来处理的内生性问题。传播学中的观察研究与实验研究有一个极其重大的区别就在于,在实验研究中,处置变量的分配机制是由研究人员控制的,往往也是随机的。所以在一项理想的随机试验中,因果关系可以通过比较控制组与实验组在因变量上的均值差异来识别。但是在观察研究中,研究人员只能够观察到每一个个体在解释变量上的取值(比如对微博的使用情况),至于这个取值是如何分配给每一个个体的(也就是为什么有的人使用微博很多,而有的人却很少使用)却是未知的,通常来讲也不可能是随机出现的(我们当然很难相信每个个体在微
12、博使用程度上的差异是随机产生的)。这种观察研究中解释变量的非随机性导致了一个严重的方法问题,那就是统计上的相关显著性很可能只是表面的,实际上只是由遗漏变量引起的。我们以下面这个传播学中颇为流行的主题为例。假设我们感兴趣的研究问题是社交类 APP 是否会提高人们的社会资本,并假设这里不存在循环因果、测量误差61Wooldridge,Jeffrey M.,Econometric Analysis of Cross Section and Panel Data,Cambridge,MA:MIT Press,2002.Antonakis,J.,Bendahan,S.,Jacquart,P.,Laliv
13、e,.,“On Making Causal Claims:A eview and ecommendations,”Leadership Quarterly,vol.21,no.6,2010,pp.1086 1120.注意,并不是观察样本的随机性或非随机性。Acemoglu,Daron,Simon Johnson,James obinson,Pierre Yared,“From Education to Democracy?”The American Economiceview,Papers and Proceedings,vol.95,no.2,2005,pp.44 49.近年来,在新闻传播学
14、的主流期刊上有许多关于这类问题的定量研究。尽管研究人员使用了不同但又类似的因变量和解释变量,他们面对的遗漏变量问题却是一致的。基于观察数据的传播学研究设计和选择性偏差。用 Yi表示社会资本,Xi表示 APP 的使用情况,Zi为一组控制变量,i为残差项。当我们试图用观察数据比如某次调查以及如下的多元回归模型(2.1)来研究这一问题时:Yi=+Xi+Zi+i(2.1)显然,调查问卷中能够涉及到的调查对象和问题是有限的,如果某个同时与 Yi和 Xi都相关的变量,比如家庭收入被“遗漏”到了 i中,那么被观察到的一个显著的,就不仅仅包含了社交 APP 对社会资本的影响,它也包含了收入对社会资本的影响。通
15、常情况下,家庭收入与社会资本和社交 APP 的使用都是正相关的,这也就意味着通过(2.1)式得到的一个显著的正的 是有极大误差的,社交 APP 对社会资本的影响可能并不存在,至少无法通过(2.1)式以及 的显著性来判断。如图 1 所示,一方面我们有理由认为家庭收入高的、父母教育水平高的或者具备某些思想观念和性格的个体可能更早地使用电脑或者智能手机,从而也就可能更早更多地使用社交 APP;另一方面,具备上述这些特征的个体又很可能拥有更高的社会资本。当这些变量被“遗漏”在(2.1)式中的残差项 i中时,他们对社会资本的影响便通过其与社交 APP 的相关关系被体现在了 中。图 1遗漏变量在使用回归模
16、型(2.1)来检验与上文类似的传播学理论问题时,实际上隐含了极其重要但通常又不可能成立的一个假设前提,那就是 代表了解释变量对因变量的影响 这样自然也就可以通过 的显著性来进行理论检验。而这个前提成立的条件是(Y1i,Y0i)Xi。前面的分析表明了,潜在结果不独立于解释变量的主要原71这里的解释变量 Xi和因变量 Yi也可以分别代表对社交 APP 的使用情况或满意度等并采用结构方程模型为例。但是,第一,结构方程模型最多只能解决因变量的测量误差,对于更为关键更为棘手的遗漏变量等问题并没有处理;第二,结构方程模型本质上与多元回归模型类似,都只能识别变量间的相关关系。为简单并说明问题起见,本文仅以多
17、元回归模型为例,但这里的逻辑分析同样适用于结构方程模型。新闻与传播研究2022 年第 12 期因就在于遗漏变量造成的混淆性(confoundedness)。那么一个简单直接的解决方案便是把所有潜在的混淆因素作为控制变量引入(2.1)式,在给定这样一组控制变量的条件下,(Y1i,Y0i)Xi|Zi是可以成立的,即潜在结果条件独立于解释变量。但是,使用满足条件独立假设的线性回归在传播学的实际应用中又面临着许多困难。要使得(2.1)式满足(Y1i,Y0i)Xi|Zi,就需要把全部“坏”的控制变量(也就是受 Xi影响的那些变量)剔除出 Zi,并且把所有“好”的控制变量(也就是与解释变量和因变量都相关的
18、混淆因素)引入 Zi中。在使用观察数据和多元回归模型来研究社交 APP 对社会资本的影响时,类似于家庭收入这一类可能同时与社交 APP 和社会资本都相关的变量有许多。虽然我们可以尽量地把这些变量都作为控制变量“控制”起来,但是能够被控制的变量毕竟是有限的。更重要的是,传播学研究中经常会涉及个体的能力、动机等不可观测变量(unobservable variable),要控制这些不可观测因素是极其困难的,甚至可能还有些我们不知道但又需要被控制的因素也遗漏在了 i中。所以在观察研究中,通过(2.1)式很难对传播学的因果理论进行检验。在新闻传播学中,还有大量的案例使用结构方程模型来研究与个体的态度和认
19、知等与潜变量相关的问题,比如人们对某种 APP 的满意度是否会影响他们对 APP 的分享意愿和分享行为。通过结构方程模型也许可以解决某些解释变量的测量问题,也就是测量误差问题,但是显然无法解决遗漏变量问题。因为即使我们能够精准地测量人们对某种 APP 的满意度,但我们并不清楚是什么原因影响了满意度?为什么不同的人会形成不同的满意度?影响人们满意度的因素是否也会同时影响人们的分享意愿和行为?通过与满意度具有相关性的变量并无法充分解释这些关键问题,除非被用于测量满意度的变量是纯外生性的 这也就属于后文中将要讨论的工具变量法,是与结构方程模型中的测量模型完全不同的一种识别策略。在当前传播学的定量研究
20、中,对一些概念的误解也可能是导致多元回归模型误用的原因,这些误解主要包括随机样本、2以及控制变量等。随机样本只是使得总体中的每一个潜在受访者以同等的概率被选中为实际的受访者。但是这一点,并不能够使得(Y1i,Y0i)Ti成立,当然也无法剔除遗漏变量的影响。2本身并不包含任何关于因果关系的信息,它只是一个刻画观察数据线性拟合程度的指标。但这并不表示一个较大的 2就能够剔除遗漏变量对因果关系的影响,也不能认为较小的 281(Y1i,Y0i)Xi|Zi即条件独立性(conditional independence),也被称为非混杂性(unconfoundedness)或者依据观测的选择(select
21、ion on observable)。在经典的数理统计学教程中,随机样本是被这样定义的:“设 X 是具有分布函数 F 的随机变量,若 X1,X2,Xn 是具有同一分布函数 F 的、相互独立的随机变量,则称 X1,X2,Xn 为从分布函数 F(或总体 F,或总体 X)得到的容量为 n 的简单随机样本,简称样本。”盛骤、谢式千、潘承毅编:概率论与数理统计(第四版),北京:高等教育出版社,2008 年,第 130 页。基于观察数据的传播学研究设计就表示解释变量对因变量没有影响。另外,2可以用来比较解释变量数目相同的线性回归模型,但不应被用于比较解释变量数目不同的线性回归模型。也就是说,我们不能通过增
22、减因变量并观察 2变化的情况来说明模型的改进情况,更不能通过这种手段来验证因果关系。因为在回归模型中只要增加自变量,2就绝对不会减小,通常只会增大。另外,在传播学的定量研究中,解释变量和控制变量的区别也远远不只是名称上,或者是研究人员“感兴趣”和“不太感兴趣”这么简单。它们在多元回归方程中的目的和作用,回归系数以及显著性水平的含义等等方面都是完全不同的。简单来讲,解释变量是用来帮助我们检验其与因变量之间在传播学上的理论关系的,而控制变量是帮助我们使得这些统计检验更有意义。也就是说,通过引入控制变量,多元回归模型确实能够有效地帮助科研人员检验解释变量与因变量之间的理论逻辑关系。在新闻传播学中,对
23、控制变量的使用有两类常见错误。第一类错误是在对控制变量的作用的认识上,通常表现为把控制变量与解释变量等同对待。第二类错误是第一类错误的延伸,主要表现为在模型中引入了“坏”的控制变量或剔除了“好”的控制变量。一个非常常见的例子就是在媒体使用对社会资本的影响这一类的研究中,家庭收入作为一个“好”的控制变量却往往被各类模型剔除在回归之外。总之,由于遗漏变量在观察研究中的普遍存在,通过简单的多元回归模型或结构方程模型是无法帮助我们有效地进行传播学理论检验的。这既是社会科学定量研究方法与统计学的区别之一,也是为什么需要研究设计并运用恰当的数据识别策略来帮助我们进行因果推断的原因。三、识别策略、外生性与随
24、机分配一个典型的传播学或其他社会科学的研究通常会包括理论构建(theorybuilding)、理想性实验(ideal experiment)、识别策略(identification strategy)和统计推断(statistical inference)四个重要部分。尽管在广义上一个研究设计可以完全包括以上这四个部分,但是从研究方法的角度来看,难度最大,对研究成败影响也最大的往往是中间两个部分。当然,在不同类型的研究设计中,理想性实验和识别策略的重要性和难度也会有差别。比如一项实验研究中的重点和难点经常是在分配机制(assignment mechanism)和处置(treatment)等与实
25、验设计相关的问题,识别策略相比之下要简单得多。而在一项基于观察数据的研究中,情况则可能相反,研究91洪永淼:高级计量经济学,北京:高等教育出版社,2011 年,第 57 页。Angrist,Joshua,Jorn-Steffen Pischke,Mostly Harmless Econometrics:An Empiricists Companion,Princeton,NJ:PrincetonUniversity Press,2009,pp.3 8。也有学者认为研究设计可以分为:研究问题、相关理论、数据和对数据的使用四个部分。参见 Gary King,obert D.Keohane,Sidn
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 观察 数据 传播学 研究 设计