改进的汉森-赫维茨估计量及其应用.pdf

上传人：爱文献爱资料

文档编号：21773010

上传时间：2024-04-28

格式：PDF

页数：9

大小：1.16MB

《改进的汉森-赫维茨估计量及其应用.pdf》由会员分享，可在线阅读，更多相关《改进的汉森-赫维茨估计量及其应用.pdf（9页珍藏版）》请在文库网上搜索。

1、第 40 卷第 6 期统计研究 Vol.40，No.6 2023 年 6 月 Statistical Research Jun.2023 改进的汉森赫维茨估计量及其应用*宗先鹏邹国华内容提要：本文利用阈值截断方法对经典的汉森赫维茨估计进行修正，提出改进的汉森赫维茨估计量（简称IHH估计量）。理论上，本文证明了IHH估计量的相合性，渐近无偏性和渐近正态性，并给出了IHH估计量的均方误差及其无偏估计。此外，基于IHH估计量，本文分别对分层抽样和二阶抽样下的有限总体估计进行改进。为说明所提出方法的有效性，本文比较了所有改进估计量和传统估计量的均方误差。最后，数值分析进一步说明本文提出的估计量具

2、有更高的精度。关键词：抽样调查；汉森赫维茨估计量；阈值截断方法；二阶抽样；分层抽样 DOI:10.19343/ki.111302/c.2023.06.011 中图分类号：O212 文献标识码：A 文章编号：10024565(2023)06014509 *基金项目：国家自然科学基金面上项目“大数据统计分析的模型平均方法”（11971323）；国家自然科学基金面上项目“模型平均方法在计量经济学和统计学中的新研究”（71973116）；国家自然科学基金青年项目“抽样数据分析的模型平均方法研究”（12201018）。Improved Hansen-Hurwitz Estimator and Its A

3、pplication Zong Xianpeng&Zou Guohua Abstract:In this paper,we use the threshold method to modify the classical Hansen-Hurwitz estimator,and propose an improved Hansen-Hurwitz estimator(IHH estimator).Theoretically,we prove the consistency,asymptotic unbiasedness and asymptotic normality of the IHH e

4、stimator.The mean square error of the IHH estimator and its unbiased estimator are obtained.In addition,based on the proposed IHH estimator,we improve the finite population estimation under stratified sampling and two-stage sampling respectively.To illustrate the effectiveness of the method proposed

5、 in this paper,we compare the mean square errors of improved estimators and traditional estimators.Numerical analysis further shows that the proposed estimator has higher accuracy.Key words:Sampling Survey;Hansen-Hurwitz Estimator;Threshold Method;Two-stage Sampling;Stratified Sampling 一、引言抽样调查是指按一

6、定程序从总体中抽取部分样本进行调查或观测，并用获取的数据对总体目标参数作出推断（Cochran，1997；冯士雍等，2012）。常见的总体目标参数有总体总量、总体均值和总体比值。一般地，按照每个单元被抽中的概率是否相等，抽样方法可以划分为等概率抽样和不等概率抽样。在不等概率抽样中，根据每次抽中的单元是否放回又可以划分为有放回的不等概率抽样和不放回的不等概率抽样。虽然相同样本量下，不放回的不等概率抽样比有放回的不等概率抽样估计精度高，但在实际应用中常采用有放回的不等概率抽样，原因在于其易于实施且便于推断。值得一提的是，在大数据子抽样分析中，最优子抽样方法和杠杆值抽样均采用有放回的不等概率抽样方1

7、46 统计研究 2023 年 6 月法，其相关研究可参考Dhillon等（2013）、Ma等（2015）、Wang等（2018）、Wang等（2019）以及Wang和Ma（2021）等文献。针对有放回的不等概率抽样，汉森和赫维茨在1943年提出了汉森赫维茨估计量（简称HH估计量），该估计量是总体总量的一个无偏估计，其通过入样概率逆概率加权得到（Hansen和Hurwitz，1943）。HH估计量表达形式简单，在实际中应用十分广泛（Srndal等，1992；金勇进等，2002）。然而，当入样概率的差异性较大、总体中部分单元的入样概率较小时，HH估计量的误差会变大。为解决该问题，一种简单常用的方

8、法是对一些权重（包含概率的倒数）进行阈值截断。Potter（1988）通过最小化修正估计量均方误差的无偏估计来确定阈值，不过该方法获得的阈值与研究变量有关；Potter（1990）假设了权重的分布形式，并基于该分布将一些大的且不太可能的权重截断；Valliant等（2013）描述了一些常见的权重截断形式；Chen等（2017）对权重截断的方法进行综述；Zong等（2019）针对不放回的不等概率抽样，提出改进的霍维茨汤普森估计量（简称IHT估计量），其通过比较传统估计量和修正估计量的均方误差确定阈值。与之前文献研究不同，该方法不需要假设权重的分布形式，且获得的阈值与感兴趣的变量无关。此外，该文献

9、提出的方法也不同于一些常见的校准估计（Deville和Srndal，1992；Wu和Sitter，2001；Montanari和Ranalli，2005），其确定阈值时不需要额外的辅助信息。本文利用阈值截断方法对有放回抽样下的汉森赫维茨估计进行修正，提出改进的汉森赫维茨估计量（简称IHH估计量）。余文结构安排如下：第2部分提出改进的汉森赫维茨估计量，并研究改进估计量的理论性质；第3部分对分层抽样下的有限总体估计进行改进，并给出改进估计量的理论性质；第4部分改进了二阶抽样下的有限总体估计，并研究了改进估计量的理论性质；第5部分利用数据模拟和实例分析进一步说明提出估计的有效性；第6部分是结论与展望

10、。二、改进的汉森赫维茨估计量考虑一个有限总体1,NUUU=，其中iU表示总体的第i 个单元，N表示总体容量。简便起见，将总体U记为1,UN=，即直接用i表示单元iU。y表示研究变量，即调查指标，第i个单元的指标值记为iy。现通过有放回的不等概率抽样从总体U中采集一组样本s，其样本量为n。假设每次抽取是相互独立的，第i个单元的入样概率为ip，且满足1iUp=。本节是估计总体总量iUty=（或总体均值tt N=）。针对以上抽样设计，汉森（M.H.Hansen）与赫维茨（W.N.Hurwitz）在1943年提出了汉森赫维茨估计量（HH估计量）：1iysiytnp=，该估计量表达形式简单，是总体总

11、量的无偏估计，其方差为21()iyiUiyV tptnp=|。可以发现，HH估计是通过逆概率加权平均得到的，其方差与入样概率有关。当入样概率的差异性较大时，总体中部分单元的入样概率可能很小，这时HH估计的方差将变得非常大。为弥补这一缺陷，本文基于Zong等（2019）的思想，利用阈值截断方法对传统的HH估计进行改进。定义定义2.1 令(1)(2)(),Nppp是原始一阶入样概率1Niip=从小到大的排序值。假设存在一个整数2K 使得()1()1KpnK+，则定义修正的一阶入样概率为：()()*()KiKiiiKppppppp|=|第 40 卷第 6 期宗先鹏邹国华：改进的汉森赫维茨估计量

12、及其应用 147 其中，K为截断点，p(K)是阈值。通过以上定义，有限总体U被分成两部分：一部分是由入样概率大于p(K)的单元组成，记为1U；另一部分由入样概率小于等于p(K)的总体单元组成，记为2U。根据修正的入样概率*1Niip=，本文提出以下改进的汉森赫维茨估计量（IHH估计量）：*1isyiyptn=可以看出，IHH估计形式比较简单，也是通过逆概率加权得到的。由于对入样概率进行了截断修正，因此在一定程度上可以避免受到高异质入样概率的影响。下面给出IHH估计量的一些理论性质。定理定理2.1 在有放回的不等概率抽样下，改进的汉森赫维茨估计量*yt是有偏的，其偏差、方差、均方误差以及均方误差

13、的一个无偏估计分别为：()2*B1iyiUiptyp=|，()22*2*1ViiiiyUUiip yp ytnpp|=|，()2222*2*11MSE1iiiiiyiUUUiiipp yp ytypnpnp=+|，()*2*22*22*()()()(1)MSE(1)iijjijiiiiyiijssijiiijijn ppppp pn pppptyy yn p pnnp p p p+=+。以上定理给出了IHH估计的均方误差及其无偏估计。相较于传统的HH估计量，本文提出的IHH估计量是有偏差的，但可以证明：随着样本量的增加，IHH估计量偏差的平方相较于方差可以忽略。定理定理2.2 如果条件max|

14、ii Uy和12minmaxiii Ui Unpnp成立，则有()2*2B()ytO n=和()*1V()ytO n=，其中、1和2为正常数且*yyttN=。结合马尔可夫不等式，以上定理可以推出改进的汉森赫维茨估计量是渐近无偏且相合的。下面的定理比较了HH估计和IHH估计的均方误差。定理定理 2.3 如果条件max|ii Uy和12minmaxiii Ui Unpnp 成立，则有()*MSEyt()1MSE()yto n+，这里yyttN=。定理2.3表明在一些正则条件下，本文提出的IHH估计是有效的。实际中，通常选取满足条件1()(1)ipni+的最大截断点，即截断点*1()m

15、ax:(1)iKiUpni=+。由Zong等（2019）的研究可知，IHT估计的修正条件为1()(1)KK+，因此当条件iinp=成立时，1 Nii=的最大截断点与1Niip=的最大截断点是相近的。此外，IHH估计量的阈值仅与入样概率的大小有关，不依赖于样本数据。通过阈值方法，本文构建的IHH估计会对入样概率小的样本单元进行惩罚，虽然会引入较小的偏差，但可以提升估计精度。一般来说，入样概率异质性越大，该方法提升的效率就越高。定理定理2.4 如果条件max|ii Uy和12minmaxiii Ui Unpnp成立，则有()*dyyntt(0,)N，其中222*2*1iiiiUUiip yp yN

16、pp|=|。因篇幅所限，本文涉及的定理证明以附件展示，见统计研究网站所列附件。148 统计研究 2023 年 6 月定理2.4证明了改进汉森赫维茨估计量的渐近正态性。与不放回的不等概率相比，放回的不等概率抽样下估计量的理论性质比较容易推导，这是因为放回的不等概率抽样是独立采集样本的。另外，放回的不等概率抽样一般要比不放回的不等概率抽样更容易实施。因此，在实际抽样调查中，常常采用放回的不等概率抽样。三、分层抽样下改进的汉森赫维茨估计量实际问题中，经常采用分层抽样方法提高估计精度。一般来说，层内差异越小，分层抽样的效果就越好。本部分将讨论分层抽样下汉森赫维茨估计的改进方法。假设有限总体U划分为

17、L层，第h层用字母hU表示。记第h层的单元数为hN，层权为hhWNN=。用y表示研究变量，第h层第i个样本的指标值为hiy，其对应的入样概率为hip，且满足1hhiUp=。在第h层中，利用有放回的不等概率抽样采集一组样本hs，其样本量为hn。假设各层的抽样是独立进行的，目标仍然是估计总体总量iUty=或总体均值tt N=。对于分层不等概率抽样，基于HH估计量易得到总体总量t的一个无偏估计（简称SHH估计量）：111hLLhisyhshhhhiyttnp=其中，ht表示第h层的HH估计。以上估计量的方差为：()2111V()VhLLhisyhihhUhhhhiytpttnp=|=|（1）其中，

18、ht表示第h层的总量。可以发现，SHH估计是由各层总量的HH估计加总得到的，因此SHH估计的方差也会受到逆概率加权的影响。为解决该问题，本文首先按照定义2.1将各层的入样概率1hNhiip=修正为*1hNhiip=，然后基于IHH估计方法，提出以下改进的估计量（简称SIHH估计量）：*111hLLhisyhshhhhiyttnp=其中，*ht表示第h层的IHH估计。如果要估计总体均值，只需除以总体容量N即可。为了探究SIHH估计的理论性质，本文给出以下正则条件：条件条件1 max|ii Uy，这里是一个正常数；条件条件2 对任意的h，hhnn，这里h是正常数；条件条件3 对任意的h，有12mi

19、nmaxhhhhhihhihi Ui Un pn p，其中1h和2h为正常数。定理定理3.1 如果条件13成立，则SIHH估计量的均方误差为：()()*211MSEMSE()Lsyhhtnto N=+（2）其中，()*MSEht表示第h层IHH估计量的均方误差。进一步，均方误差的渐近无偏估计为：()()*211MSEMSE()Lsyhhtto N n=+其中，()*MSEht表示第h层IHH估计量均方误差的无偏估计。定理3.1给出了分层不等概率抽样中SIHH估计量的均方误差及其估计。下面比较SIHH和SHH估计的有效性。定理定理3.2 如果条件13成立，则()()*1MSEMSE()sysyt

20、to n+，这里sysyttN=且*sysyttN=。第 40 卷第 6 期宗先鹏邹国华：改进的汉森赫维茨估计量及其应用 149 以上定理比较了改进前后估计量的均方误差。一般情况下，()MSEsyt的阶为1()O n，因此随着样本量的增加，以上定理结论的第二项1()o n是可忽略的。四、二阶抽样下改进的汉森赫维茨估计量实际应用中，为了调查方便、节约成本，常常采用二阶抽样方法。用 y 表示研究变量，第i 个初级单元中第j个次级单元的研究变量和辅助变量分别记为ijy 和ijz，1,;1,iiN jN=。假设第一阶抽样采用不放回的简单随机抽样，第二阶抽样采用放回的不等概率抽样。第一阶抽取的样本

21、（初级单元）记为s，样本量为n；在第二阶抽样中，从第i 个被抽中初级单元获得的样本记为is，样本量为in。第i 个初级单元中第j个次级单元的入样概率ijijpz且满足11iNijjp=。假设各阶抽样是独立进行的，目标是估计总体总量1iNijtt=，it表示第i个初级单元的总量。对于以上二阶抽样，基于HH估计易得到总体总量t的一个无偏估计（简称THH估计）：cyt=isNtn，其中1iiijijsitypn=是第i个被抽中初级单元总量it的HH估计。以上估计量的方差为：()2211()V()V()(1)NNcyiiiiN NnNttttn Nn=+（3）其中，11NiittN=且()2211V

22、()iNiijijijijtpyptn=表示第i个被抽中初级单元总量估计it的方差。可以发现，THH估计的方差也会受到逆概率加权的影响，当一些次级单元的入样概率很小时，估计量的方差会很大。为解决该问题，本文首先按照定义2.1将次级单元的入样概率1iNijjp=修正为*1 iNijjp=，然后基于IHH估计方法，提出以下改进的估计量（简称TIHH估计）：*cyisNttn=，其中*it=*1iijijsiypn表示第i个被抽中初级单元总量it的IHH估计。为了探究TIHH估计的理论性质，本文作出以下正则条件：条件条件4,max|i jijy，这里是一个正常数；条件条件5 0n N，这里0是一

23、个正常数；条件条件6 对任意的i，有iiin N和121,1,min max iiiiijiijijNjNn pn p=，其中1i和2i为正常数。定理定理4.1 TIHH估计量的均方误差为：()()22*11112()MSE1()(1V)iNNNNijcyijiiijiiijpN NnNtytttpn Nn=+|其中，*1iNijiijjijptyp=，*11NiittN=且22*2*2*1111V()iiNNijijijijijjiijiijp yp ytnpnp=|表示第i个被抽中初级单元总量估计*it的方差。定理4.1给出了二阶抽样下TIHH估计量的均方误差。可以看出，在二阶抽样设计下，

24、TIHH估计的方差形式是非常复杂的，因此本文没有给出方差估计的无偏估计。实际中，可以采用刀切法或者随机组方法进行方差估计。下面比较TIHH和THH估计的均方误差。定理定理4.2 如果条件46成立，则：150 统计研究 2023 年 6 月 ()()*1MSEMSENcycyiittON=+|以上定理比较了改进前后估计量的均方误差。特别地，当每个初级单元大小相等（即iNM=，1,iN=）时，以上定理可推出()()()*MSEMSEcycyttO NM+。进一步，如果两次抽样都采用简单随机抽样，THH估计量均方误差的阶为2()O NM。可以看出，当M趋于无穷时，余项()O NM相对于2()O NM

25、是可忽略的。五、数值研究本部分将通过数据模拟和实例分析来说明所提出的改进估计比传统估计更加有效。定义相对提升度为Re(MSE1MSE2)100%MSE1=。其中，MSE1和MSE2分别表示传统估计和改进估计的经验均方误差（重复2000次计算得到）。可以看出，Re值越大说明改进估计的精度提升越明显。（一）数据模拟设一个样本量N=3000的有限总体U由以下模型生成，233(1),iiiyxe=+1,2,i=3000，其中，(0,1)ixU，|(0,1)|ieN且为控制辅助变量相关性的调节参数。1.用概率比例规模（PPS）抽样进行采样，其包含概率满足iipx。分别设置三组不同相关性系数0.8=，

26、0.5=和0.2=，比较传统估计和改进估计在不同抽样比f=（0.02，0.04，0.08，0.10，0.12）下的均方误差（MSE），偏差的平方（2B）和方差（V）。为方便区分，用1和2分别表示传统估计和改进估计（如：MSE1和MSE2）。与Zong等（2019）中PPS抽样模拟不同，本文使用的修正节点为*1()max:(1)iKiUpni=+。注意，本部分给出的均方误差，偏差的平方和方差都是通过重复估计总体均值2000次得到。图1展示了HH估计（实线）与IHH估计（虚线）的比较结果。随着样本量的增加，IHH估计和HH估计的均方误差都会减少；IHH估计的均方误差明显小于HH估计的均方误差，表1

27、给出了提升度Re的值。从图1的偏差图中可以看出，IHH估计是略微有偏的，当样本量较小时比较明显，但偏差的平方和方差相比是可以忽略的（定理2.2）。另外，通过观察可以发现，IHH估计的均方误差随样本量变化要更平稳一些，这是因为其通过阈值方法对入样概率小的单元进行了惩罚，防止出现异常波动情况。随着相关系数的降低，两种估计的精度都有所下降，但IHH估计的均方误差仍明显小于HH估计的均方误差。2.按照x的大小将数据分为两层（以0.5为限），每层采用PPS抽样方法采样，各层样本量按比例分配，入样概率满足iipx。图2展示了分层抽样中SHH估计与SIHH估计的比较结果。与上一个模拟类似，SIHH估计的均方

28、误差明显小于SHH估计的均方误差，其均方误差的变化也要更平稳；表2给出了提升度Re的值；SIHH估计是略微有偏的，但偏差的平方和方差相比可以忽略；此外，图2的模拟结果要略好于图1，这是因为该模拟采用分层抽样方法。3.将3000个数据分成10个群，利用不放回的简单随机抽样抽取5个群，然后利用不等概率抽样从被抽中的群中抽取m个单元（各群中抽取的数目相同），每个单元的入样概率满足iipx。设置相关性系数0.8=，比较传统估计和改进估计在不同单元数m=（6，12，24，36，48，60，72）下的均方误差（MSE），偏差的平方（2B）和方差（V）。表3展示了二阶抽样下THH估计与TIHH估计的比较结果

29、。可以看出，TIHH估计的均方误差明显比THH估计的均方误差小，其均方误差的变化也更平稳；TIHH估计是有偏的，但随着样本量的增加，偏差的平方和方差相比可以忽略。iid iid 第 40 卷第 6 期宗先鹏邹国华：改进的汉森赫维茨估计量及其应用 151 图1 不同相关系数下HH估计和IHH估计的比较表1 图1中IHH估计提升度Re的值（%）Re 0.02 0.04 0.06 0.08 0.10 0.12 图1（a）45.20 39.78 47.12 39.84 24.64 25.52 图1（b）65.78 56.06 81.99 79.74 38.59 32.96 图1（c）41.49

30、 69.18 76.27 44.32 32.56 27.25（二）实例分析本部分利用R语言“TeachingSampling”包中的“Lucy”数据集进行实际数据分析。该数据集收集了某城市2396个企业的信息，主要包括：企业名称（ID），收入（Income），雇佣人数（Employees）和税收（Taxes）等指标。本文通过有放回的不等概率抽样从2300家中小型企业中采集样本来估计该城市企业的平均雇佣人数，其入样概率与各企业的收入成正比。重复2000次抽样估计后，比较IHH 估计和HH估计的精度。这里，设置样本量n=（46，92，138，184，230，345，460）。表4展示了实际数据中

31、HH估计与IHH估计的比较结果。随着样本量的增加，IHH估计和HH估计的均方误差均会减小，IHH估计的均方误差明显比HH估计的均方误差小，IHH估计比HH估计的偏差大，但偏差的平方和方差相比是可以忽略的。另外，通过观察可以发现，IHH估计的均方误差随样本量变化要更平稳一些。152 统计研究 2023 年 6 月图2 不同相关系数下SHH估计和SIHH估计的比较表2 图2中SIHH估计提升度Re的值（%）Re 0.02 0.04 0.06 0.08 0.10 0.12 图2（a）68.40 36.11 58.63 67.29 23.73 55.21 图2（b）49.31 38.43 46.

32、01 48.89 32.26 15.99 图2（c）51.06 59.69 56.86 52.24 71.79 37.27 表3 二阶抽样下THH估计量和TIHH估计量比较结果 m 6 12 24 36 48 60 72 2B1 4.68106 1.34105 2.09105 4.37107 5.38106 2.32106 1.07105 2B2 0.0172 0.0046 0.0015 0.0006 0.0005 0.0002 0.0002 V1 0.0787 0.0692 0.0162 0.0101 0.0077 0.0066 0.0054 V2 0.0142 0.0101 0.0068

33、0.0056 0.0044 0.0042 0.0034 MSE1 0.0787 0.0693 0.0162 0.0101 0.0077 0.0066 0.0054 MSE2 0.0314 0.0147 0.0082 0.0062 0.0049 0.0045 0.0036 Re 60.17%78.75%49.16%38.18%37.12%32.02%33.36%表4 实际数据中HH估计量和IHH估计量比较结果 n 46 92 138 184 230 345 460 2B1 0.0009 0.0019 0.0003 0.0212 0.0014 0.0009 0.0002 2B2 0.2500 0.

34、1385 0.0250 0.0911 0.0275 0.0407 0.0056 V1 36.9488 67.3474 13.3192 10.4228 15.4012 14.7488 6.3351 V2 29.2650 15.1010 10.8788 8.1754 6.8559 4.5090 3.5127 MSE1 36.9497 67.3492 13.3195 10.4440 15.4026 14.7497 6.3353 MSE2 29.5150 15.2395 10.9039 8.2666 6.8834 4.5497 3.5183 K*79 37 27 18 16 11 11 Re 20.1

35、2%77.37%18.14%20.85%55.31%69.15%44.46%第 40 卷第 6 期宗先鹏邹国华：改进的汉森赫维茨估计量及其应用 153 六、结论与展望本文基于Zong等（2019）的思想，利用阈值截断方法对传统的汉森赫维茨估计进行修正，提出改进的汉森赫维茨估计量，并给出IHH估计量的均方误差及其估计。本文也讨论了IHH估计量的相合性、渐近无偏性和渐近正态性，虽然改进的估计量是有偏的，但其偏差的平方相对于方差是可以忽略的。另外，本文利用类似的方法分别对分层抽样和二阶抽样下的有限总体估计进行改进。为说明所提出方法的有效性，本文比较了所有改进估计量和传统估计量的均方误差。数据模

36、拟和实例分析进一步说明了改进估计的有效性和稳健性。但是，在对分层抽样和二阶抽样下的有限总体估计进行改进时，本文假设层（或群）内单元的入样概率完全已知，这在实际应用中可能有一定的局限性。因此，利用阈值方法修正最终权重（即估计量的权重，而非层或群内单元的入样概率）值得进一步研究。此外，本文提出的改进估计量是有偏差的，如何对这些估计量进行纠偏也是值得研究的问题。参考文献 1 冯士雍,倪加勋,邹国华.抽样调查理论与方法M.北京:中国统计出版社,2012.2 金勇进,蒋妍,李序颖.抽样技术M.北京:中国人民大学出版社,2002.3 Chen Q,Elliott M R,Haziza D,et al.Ap

37、proaches to Improving Survey-weighted EstimatesJ.Statistical Science,2017,32(2):227248.4 Cochran W G.Sampling Techniques,3rd editionM.New York:John Wiley&Sons,1977.5 Deville J C,Srndal C E.Calibration Estimators in Survey SamplingJ.Journal of the American Statistical Association,1992,87(418):376382.

38、6 Dhillon P,Lu Y,Foster D P,et al.New Subsampling Algorithms for Fast Least Squares RegressionJ.In Advances in Neural Information Processing Systems,2013,1(12):360368.7 Hansen M H,Hurwitz W N.On the Theory of Sampling from Finite PopulationsJ.The Annals of Mathematical Statistics,1943,14(12):333362.

39、8 Ma P,Mahoney M,Yu B.A Statistical Perspective on Algorithmic LeveragingJ.Journal of Machine Learning Research,2015,16(1):861911.9 Montanari G E,Ranalli M G.Nonparametric Model Calibration Estimation in Survey SamplingJ.Journal of the American Statistical Association,2005,100(472):14291442.10 Potte

40、r F.Survey of Procedures to Control Extreme Sampling WeightsC.In Proceedings of the Survey Research Methods Section of the American Statistical Association,1988:453458.11 Potter F.A Study of Procedures to Identify and Trim Extreme Sampling WeightsC.In Proceedings of the Survey Research Methods Secti

41、on of the American Statistical Association,1990:225230.12 Srndal C,Swensson B,Wretman J.Model Assisted Survey SamplingM.New York:Springer,1992.13 Valliant R,Dever J A,Kreuter F.Practical Tools for Designing and Weighting Survey SamplesM.New York:Springer,2013.14 Vaart A W van der.Asymptotic statisti

42、cs:Cambridge Series in Statistical and Probabilistic MathematicsM.New York:Cambridge University Press,1998.15 Wang H,Ma Y.Optimal Subsampling for Quantile Regression in Big DataJ.Biometrika,2021,108(1):99112.16 Wang H,Yang M,Stufken J.Information-based Optimal Subdata Selection for Big Data Linear R

43、egressionJ.Journal of the American Statistical Association,2019,114(525):393405.17 Wang H,Zhu R,Ma P.Optimal Subsampling for Large Sample Logistic RegressionJ.Journal of the American Statistical Association,2018,113(522):829844.18 Wu C,Sitter R R.A Model-calibration Approach to Using Complete Auxili

44、ary Information from Survey DataJ.Journal of the American Statistical Association,2001,96(453):185193.19 Zong X P,Zhu R,Zou G H.Improved Horvitz-Thompson Estimator in Survey SamplingJ.Survey Methodology,2019,45(1):165184.作者简介宗先鹏（通讯作者），北京工业大学理学部讲师。研究方向为抽样调查、模型平均。电子邮箱：。邹国华，首都师范大学数学科学学院教授。研究方向为抽样调查、模型平均、大数据统计分析。(责任编辑:张晓梅)