改进的汉森-赫维茨估计量及其应用.pdf
《改进的汉森-赫维茨估计量及其应用.pdf》由会员分享,可在线阅读,更多相关《改进的汉森-赫维茨估计量及其应用.pdf(9页珍藏版)》请在文库网上搜索。
1、第 40 卷第 6 期 统计研究 Vol.40,No.6 2023 年 6 月 Statistical Research Jun.2023 改进的汉森赫维茨估计量及其应用*宗先鹏 邹国华 内容提要:本文利用阈值截断方法对经典的汉森赫维茨估计进行修正,提出改进的汉森赫维茨估计量(简称IHH估计量)。理论上,本文证明了IHH估计量的相合性,渐近无偏性和渐近正态性,并给出了IHH估计量的均方误差及其无偏估计。此外,基于IHH估计量,本文分别对分层抽样和二阶抽样下的有限总体估计进行改进。为说明所提出方法的有效性,本文比较了所有改进估计量和传统估计量的均方误差。最后,数值分析进一步说明本文提出的估计量具
2、有更高的精度。关键词:抽样调查;汉森赫维茨估计量;阈值截断方法;二阶抽样;分层抽样 DOI:10.19343/ki.111302/c.2023.06.011 中图分类号:O212 文献标识码:A 文章编号:10024565(2023)06014509 *基金项目:国家自然科学基金面上项目“大数据统计分析的模型平均方法”(11971323);国家自然科学基金面上项目“模型平均方法在计量经济学和统计学中的新研究”(71973116);国家自然科学基金青年项目“抽样数据分析的模型平均方法研究”(12201018)。Improved Hansen-Hurwitz Estimator and Its A
3、pplication Zong Xianpeng&Zou Guohua Abstract:In this paper,we use the threshold method to modify the classical Hansen-Hurwitz estimator,and propose an improved Hansen-Hurwitz estimator(IHH estimator).Theoretically,we prove the consistency,asymptotic unbiasedness and asymptotic normality of the IHH e
4、stimator.The mean square error of the IHH estimator and its unbiased estimator are obtained.In addition,based on the proposed IHH estimator,we improve the finite population estimation under stratified sampling and two-stage sampling respectively.To illustrate the effectiveness of the method proposed
5、 in this paper,we compare the mean square errors of improved estimators and traditional estimators.Numerical analysis further shows that the proposed estimator has higher accuracy.Key words:Sampling Survey;Hansen-Hurwitz Estimator;Threshold Method;Two-stage Sampling;Stratified Sampling 一、引言 抽样调查是指按一
6、定程序从总体中抽取部分样本进行调查或观测,并用获取的数据对总体目标参数作出推断(Cochran,1997;冯士雍等,2012)。常见的总体目标参数有总体总量、总体均值和总体比值。一般地,按照每个单元被抽中的概率是否相等,抽样方法可以划分为等概率抽样和不等概率抽样。在不等概率抽样中,根据每次抽中的单元是否放回又可以划分为有放回的不等概率抽样和不放回的不等概率抽样。虽然相同样本量下,不放回的不等概率抽样比有放回的不等概率抽样估计精度高,但在实际应用中常采用有放回的不等概率抽样,原因在于其易于实施且便于推断。值得一提的是,在大数据子抽样分析中,最优子抽样方法和杠杆值抽样均采用有放回的不等概率抽样方1
7、46 统计研究 2023 年 6 月 法,其相关研究可参考Dhillon等(2013)、Ma等(2015)、Wang等(2018)、Wang等(2019)以及Wang和Ma(2021)等文献。针对有放回的不等概率抽样,汉森和赫维茨在1943年提出了汉森赫维茨估计量(简称HH估计量),该估计量是总体总量的一个无偏估计,其通过入样概率逆概率加权得到(Hansen和Hurwitz,1943)。HH估计量表达形式简单,在实际中应用十分广泛(Srndal等,1992;金勇进等,2002)。然而,当入样概率的差异性较大、总体中部分单元的入样概率较小时,HH估计量的误差会变大。为解决该问题,一种简单常用的方
8、法是对一些权重(包含概率的倒数)进行阈值截断。Potter(1988)通过最小化修正估计量均方误差的无偏估计来确定阈值,不过该方法获得的阈值与研究变量有关;Potter(1990)假设了权重的分布形式,并基于该分布将一些大的且不太可能的权重截断;Valliant等(2013)描述了一些常见的权重截断形式;Chen等(2017)对权重截断的方法进行综述;Zong等(2019)针对不放回的不等概率抽样,提出改进的霍维茨汤普森估计量(简称IHT估计量),其通过比较传统估计量和修正估计量的均方误差确定阈值。与之前文献研究不同,该方法不需要假设权重的分布形式,且获得的阈值与感兴趣的变量无关。此外,该文献
9、提出的方法也不同于一些常见的校准估计(Deville和Srndal,1992;Wu和Sitter,2001;Montanari和Ranalli,2005),其确定阈值时不需要额外的辅助信息。本文利用阈值截断方法对有放回抽样下的汉森赫维茨估计进行修正,提出改进的汉森赫维茨估计量(简称IHH估计量)。余文结构安排如下:第2部分提出改进的汉森赫维茨估计量,并研究改进估计量的理论性质;第3部分对分层抽样下的有限总体估计进行改进,并给出改进估计量的理论性质;第4部分改进了二阶抽样下的有限总体估计,并研究了改进估计量的理论性质;第5部分利用数据模拟和实例分析进一步说明提出估计的有效性;第6部分是结论与展望
10、。二、改进的汉森赫维茨估计量 考虑一个有限总体1,NUUU=,其中iU表示总体的第i 个单元,N表示总体容量。简便起见,将总体U记为1,UN=,即直接用i表示单元iU。y表示研究变量,即调查指标,第i个单元的指标值记为iy。现通过有放回的不等概率抽样从总体U中采集一组样本s,其样本量为n。假 设每次抽取是相互独立的,第i个单元的入样概率为ip,且满足1iUp=。本节是估计总体总量iUty=(或总体均值tt N=)。针对以上抽样设计,汉森(M.H.Hansen)与赫维茨(W.N.Hurwitz)在1943年提出了汉森赫维茨估计量(HH估计量):1iysiytnp=,该估计量表达形式简单,是总体总
11、量的无偏估计,其方差为21()iyiUiyV tptnp=|。可以发现,HH估计是通过逆概率加权平均得到的,其方差与入样概率有关。当入样概率的差异性较大时,总体中部分单元的入样概率可能很小,这时HH估计的方差将 变得非常大。为弥补这一缺陷,本文基于Zong等(2019)的思想,利用阈值截断方法对传统的HH估计进行改进。定义定义2.1 令(1)(2)(),Nppp是原始一阶入样概率1Niip=从小到大的排序值。假设存在一个整数2K 使得()1()1KpnK+,则定义修正的一阶入样概率为:()()*()KiKiiiKppppppp|=|第 40 卷第 6 期 宗先鹏 邹国华:改进的汉森赫维茨估计量
12、及其应用 147 其中,K为截断点,p(K)是阈值。通过以上定义,有限总体U被分成两部分:一部分是由入样概率大于p(K)的单元组成,记为1U;另一部分由入样概率小于等于p(K)的总体单元组成,记为2U。根据修正的入样概率*1Niip=,本文提出以下改进的汉森赫维茨估计量(IHH估计量):*1isyiyptn=可以看出,IHH估计形式比较简单,也是通过逆概率加权得到的。由于对入样概率进行了截断修正,因此在一定程度上可以避免受到高异质入样概率的影响。下面给出IHH估计量的一些理论性质。定理定理2.1 在有放回的不等概率抽样下,改进的汉森赫维茨估计量*yt是有偏的,其偏差、方差、均方误差以及均方误差
13、的一个无偏估计分别为:()2*B1iyiUiptyp=|,()22*2*1ViiiiyUUiip yp ytnpp|=|,()2222*2*11MSE1iiiiiyiUUUiiipp yp ytypnpnp=+|,()*2*22*22*()()()(1)MSE(1)iijjijiiiiyiijssijiiijijn ppppp pn pppptyy yn p pnnp p p p+=+。以上定理给出了IHH估计的均方误差及其无偏估计。相较于传统的HH估计量,本文提出的IHH估计量是有偏差的,但可以证明:随着样本量的增加,IHH估计量偏差的平方相较于方差可以忽略。定理定理2.2 如果条件max|
14、ii Uy和12minmaxiii Ui Unpnp成立,则有()2*2B()ytO n=和()*1V()ytO n=,其中、1和2为正常数且*yyttN=。结合马尔可夫不等式,以上定理可以推出改进的汉森赫维茨估计量是渐近无偏且相合的。下面的定理比较了HH估计和IHH估计的均方误差。定 理定 理 2.3 如 果 条 件max|ii Uy和12minmaxiii Ui Unpnp 成 立,则 有()*MSEyt()1MSE()yto n+,这里yyttN=。定理2.3表明在一些正则条件下,本文提出的IHH估计是有效的。实际中,通常选取满足条件1()(1)ipni+的最大截断点,即截断点*1()m
15、ax:(1)iKiUpni=+。由Zong等(2019)的研究可知,IHT估计的修正条件为1()(1)KK+,因此当条件iinp=成立时,1 Nii=的最大截断点与1Niip=的最大截断点是相近的。此外,IHH估计量的阈值仅与入样概率的大小有关,不依赖于样本数据。通过阈值方法,本文构建的IHH估计会对入样概率小的样本单元进行惩罚,虽然会引入较小的偏差,但可以提升估计精度。一般来说,入样概率异质性越大,该方法提升的效率就越高。定理定理2.4 如果条件max|ii Uy和12minmaxiii Ui Unpnp成立,则有()*dyyntt(0,)N,其中222*2*1iiiiUUiip yp yN
16、pp|=|。因篇幅所限,本文涉及的定理证明以附件展示,见统计研究网站所列附件。148 统计研究 2023 年 6 月 定理2.4证明了改进汉森赫维茨估计量的渐近正态性。与不放回的不等概率相比,放回的不等概率抽样下估计量的理论性质比较容易推导,这是因为放回的不等概率抽样是独立采集样本的。另外,放回的不等概率抽样一般要比不放回的不等概率抽样更容易实施。因此,在实际抽样调查中,常常采用放回的不等概率抽样。三、分层抽样下改进的汉森赫维茨估计量 实际问题中,经常采用分层抽样方法提高估计精度。一般来说,层内差异越小,分层抽样的效果就越好。本部分将讨论分层抽样下汉森赫维茨估计的改进方法。假设有限总体U划分为
17、L层,第h层用字母hU表示。记第h层的单元数为hN,层权为hhWNN=。用y表示研究变量,第h层第i个 样本的指标值为hiy,其对应的入样概率为hip,且满足1hhiUp=。在第h层中,利用有放回的不等概率抽样采集一组样本hs,其样本量为hn。假设各层的抽样是独立进行的,目标仍然是估计总体总量iUty=或总体均值tt N=。对于分层不等概率抽样,基于HH估计量易得到总体总量t的一个无偏估计(简称SHH估计量):111hLLhisyhshhhhiyttnp=其中,ht表示第h层的HH估计。以上估计量的方差为:()2111V()VhLLhisyhihhUhhhhiytpttnp=|=|(1)其中,
18、ht表示第h层的总量。可以发现,SHH估计是由各层总量的HH估计加总得到的,因此SHH估计的方差也会受到逆概率加权的影响。为解决该问题,本文首先按照定义2.1将各层的入样概率1hNhiip=修正为*1hNhiip=,然后基于IHH估计方法,提出以下改进的估计量(简称SIHH估计量):*111hLLhisyhshhhhiyttnp=其中,*ht表示第h层的IHH估计。如果要估计总体均值,只需除以总体容量N即可。为了探究SIHH估计的理论性质,本文给出以下正则条件:条件条件1 max|ii Uy,这里是一个正常数;条件条件2 对任意的h,hhnn,这里h是正常数;条件条件3 对任意的h,有12mi
19、nmaxhhhhhihhihi Ui Un pn p,其中1h和2h为正常数。定理定理3.1 如果条件13成立,则SIHH估计量的均方误差为:()()*211MSEMSE()Lsyhhtnto N=+(2)其中,()*MSEht表示第h层IHH估计量的均方误差。进一步,均方误差的渐近无偏估计为:()()*211MSEMSE()Lsyhhtto N n=+其中,()*MSEht表示第h层IHH估计量均方误差的无偏估计。定理3.1给出了分层不等概率抽样中SIHH估计量的均方误差及其估计。下面比较SIHH和SHH估计的有效性。定理定理3.2 如果条件13成立,则()()*1MSEMSE()sysyt
20、to n+,这里sysyttN=且*sysyttN=。第 40 卷第 6 期 宗先鹏 邹国华:改进的汉森赫维茨估计量及其应用 149 以上定理比较了改进前后估计量的均方误差。一般情况下,()MSEsyt的阶为1()O n,因此随着样本量的增加,以上定理结论的第二项1()o n是可忽略的。四、二阶抽样下改进的汉森赫维茨估计量 实际应用中,为了调查方便、节约成本,常常采用二阶抽样方法。用 y 表示研究变量,第i 个初级单元中第j个次级单元的研究变量和辅助变量分别记为ijy 和ijz,1,;1,iiN jN=。假设第一阶抽样采用不放回的简单随机抽样,第二阶抽样采用放回的不等概率抽样。第一阶抽取的样本
21、(初级单元)记为s,样本量为n;在第二阶抽样中,从第i 个被抽中初级单元获得的样本记为is,样本 量为in。第i 个初级单元中第j个次级单元的入样概率ijijpz且满足11iNijjp=。假设各阶抽样是独立进行的,目标是估计总体总量1iNijtt=,it表示第i个初级单元的总量。对于以上二阶抽样,基于HH估计易得到总体总量t的一个无偏估计(简称THH估计):cyt=isNtn,其中1iiijijsitypn=是第i个被抽中初级单元总量it的HH估计。以上估计量的方差为:()2211()V()V()(1)NNcyiiiiN NnNttttn Nn=+(3)其中,11NiittN=且()2211V
22、()iNiijijijijtpyptn=表示第i个被抽中初级单元总量估计it的方差。可 以发现,THH估计的方差也会受到逆概率加权的影响,当一些次级单元的入样概率很小时,估计量 的方差会很大。为解决该问题,本文首先按照定义2.1将次级单元的入样概率1iNijjp=修正为*1 iNijjp=,然后基于IHH估计方法,提出以下改进的估计量(简称TIHH估计):*cyisNttn=,其中*it=*1iijijsiypn表示第i个被抽中初级单元总量it的IHH估计。为了探究TIHH估计的理论性质,本文作出以下正则条件:条件条件4,max|i jijy,这里是一个正常数;条件条件5 0n N,这里0是一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 改进 赫维茨 估计 及其 应用