左删失右截断数据的分位数的固定宽度序贯置信区间估计_计量经济
一、引言
在生存分析研究中,一些个体生存时间的开始点在试验开始之前,所以人们无法观察到这些个体在进入试验之前的数据。这样所获得的个体数据就是左截断数据。如果个体一旦进入试验,人们可能在试验结束之前未能完全观察到这个个体的全部过程,因此引起了右删失的数据。这样的左截断右删失数据是生存分析中常常遇到的数据之一。具体地说,设(x,t,y)表示三维的随机变量,其中x为感兴趣的随机变量,具有连续的分布函数f;t是左截断随机变量具有分布函数g,以及y是右删失随机量具有分布l。假定x是与(t,y)独立的,但t和y可以是相关的。所谓左截断右删失数据是:如果z≥t,(z,t,δ)是可以观察的,其中z=x∧y=min(x,y)和δ=i(x≤y)。而当z<t时,人们无法观察到任何数据。不失一般性,设α≡p(t≤z)>0和w表示z的分布函数,即有1-w=(1-f)(1-l)。在文中,设(z[,i],t[,i],δ[,i])是一列独立同分布的观察样本且与(z,t,δ),i=1,2,…,n具有相同的分布。又设表示分布函数的累积风险函数。周知,累积风险函数Λ与分布函数f是一对一的关系,具有如下表示式
附图
容易证明
附图
在左截断右删失数据下,固定宽度的分位数序贯置信区间估计是生存分析中的重要研究对象之一,一个例子是基于分位数估计对研究对象进行分类。有关的真实数据是心脏病的心率数据(数据见[8]),目的是进行它和正常人数据的比较,由于没有足够多的数据和所获数据的不完全性,难于对分位数进行准确估计。因此准确分类也是不可能的。但一个重要而有效的解决方法是进行序贯试验,在给定所要求的精度下,适当增加试验样本。在独立同分布情况下,choudhury,serfling[9]研究了相类似的固定长度的序贯置信区间。在右删失数据下,gijbels,veraverbeke[10,11]以及wang,hettmansperger[12]研究了这样的置信区间,gürler,stute,wang[4]考虑了左截断的情况。
在生存分析中,序贯方法是统计中一种广泛应用的方法之一,它的优点是节约成本和试验时间,在试验中可以由它来控制所需的时间和成本进行抽样。在实际工作中,试验者往往要求在给定的置信水平和满足一定的精度下,对所感兴趣的量进行统计估计和推断,同时不要浪费太多的资源。因此,此时的序贯区间估计就是一种很好的选择。具体体现是,人们首先要求统计推断满足一定精度,即是给定固定区间的长度,当置信水平已知(即给定某个置信水平)的情况下进行抽样。这些方法在大多数的应用中是很乎合实际要求的。这就是所谓固定宽度的序贯置信区间估计。本文就在这方面进行研究。
为了证明分位数的固定宽度序贯置信区间的渐近性质,我们给出一个扩展的p[,n]分位估计的bahadur的强表示定理,其中p[,n]可以是一个随机量。当ξ[,pn]是ξ[,p]强相合估计。在某些简单的条件下,的bahadur表示是
附图
其中f=f'和r[,n]是剩余项。在下一节,我们给出剩余项r[,n]的几乎处处渐近收敛速度,其中是一列收敛于p的随机变量。对于特别的应用,p[,n]一般定义为乘积限估计的渐近方差的泛函。此表示定理在推导分位数估计的大样本性质上具有广泛的应用,此结果是[13]中重要结果的推广。为了获得分位数的置信区间估计,这种推广是必要的。在此节的最后,给出相合的渐近方差估计。为方便,假设y和t是非负的随机变量。在本文,我们多次用到如下的积分条件,对于任意t<t[,w],
附图
根据[7]的结果,我们表述如下的引理
引理1.1 假定a[,g]<a[,w]或a[,g]=a[,w]和(3)成立。当a[,w]<x≤b<b[,w],一致地有
附图
其中表示概率收敛。
在右删失数据下,cheng[14],aly,,horváth[15],lo,singh[16]研究了bahadur表示中剩余项r[,n](p)的几乎处处收敛速度。gijbels,veraverbeke[10,11]给出了ghosh型的弱表示定理。zhou[17]考虑了光滑分位数估计和给出了其一致bahadur表示定理。padgett[18]获得了些核光滑的分位数估计的渐近性质。gürler,stute,wang[4]首先考虑了左截数据下的分位数估计的各种渐近性质。
二、bahadure表示定理及固定长度置信区间
在这节,给出分位数估计表示式(2)的结果。为些我们需要如下的条件。
条件(i) 对于t<t[,w],
附图
附图
虽然f的估计容易获得,但是卷入麻烦的窗宽选择,因此尽量不用其非参数估计。使用y[,i]的次序统计量可以简单地构造分位数的置信区间,克服使用f的非参数估计的窗宽选择的麻烦。这置信区间是
附图
关于固定长度的序贯区间方法(11)及其所要求的随机样本大小τ,我们容易推导出如下定理。
附图
附图
在这里,我们进行一个小的计算机模型试验,目的是在左截断右删失数据下,检验分位数估计序贯方法的有效性,以及在给定精度下,如何有效地进行序贯试验,即在更短的试验时间里,获得合乎精度要求的分位数估计。我们的随机试验是在如下的条件下进行的。设(x,t,y)分别来自指数分布的随机变量,对应于指数分布的参数分别是θ[,1],θ[,2],θ[,3],它们的值分别取1,1.5,0.25。共进行500次试验,每次产生样本数分别是100,200和500。因此,在这些设计下,被删失的数据占20%而且被截断的占45%。获得的结果如上表。其它参数的组合下进行了同样的模拟试验,所获结果与此情况相似,故略。在此我们仅列出样本为200的结果,其它情况略。
表中的是指数分布p-分位数的估计,对于每个分位数的序贯估计分别取3种不同的精度。d[,1]的取法是全样本下的分位数估计值除以1.96,d[,2]是d[,1]的一半。而d[,3]是全样本估计的标准差乘以1.96的两倍再除于,n是全部样本的数量。sd(q)(se)指的是标准方差和在括号里面的是500次分位估计值的标准方差。bias是估计相对误差。n(d)是序贯方法所使用的样本数。covag是分位数估计落入95%的置信区间的次数。这个数值越靠近95%越好。从表中我们可以看出,序贯估计是相当精确的。同时,我们可以从下面p-分位数估计的直方图中可以看出,不管是全样本还是部分样本的分位数估计的分布形状近似于正态分布,而且它们是非常相近。最后,从表中看出当分位点靠近分布的尾部时,标准差估计不足,这主要是在方差估计中我们使用了(1-p)[2]这个因子。相信适当的修改改进这个估计。
附图
分位点p=0.5,指数分布p分位数的真值是0.6928。图(a)是全样本分位数估计,估计值是0.690,图(b)是在区间长度的精度为d[,1]=0.30下,分位数序贯估计,估计值是0.653。图(c)是在区间长度的精度为d[,2]=0.15下,分位数序贯估计,估计值是0.653。图(d)是在区间长度的精度为d[,3]=0.10下,分位数序贯估计,估计值是0.689。
三、定理的证明
下面的一些引理具有独立的应用意义。首先我们扩展p-分位数的定义到p=0和p=1。
证 这个引理的证明与周勇[13]中的引理2类似,故略。
命题2.1的证明 注意到
附图
证 周知,仅要证明对于某个d[,0]>0,有
附图
4.由引理3.5,随机变量是一致可积的,因此(22)取均值仍成立。最后,因为一致可积性可推得,因此有eτ<∞,d>0。定理2.2获证。
【责任编辑】彭非
【参考文献】
1 tsai w y,jewell n p,wang m c.a note on the product-limit estimator under right censoring and left truncation.biometrika,1987,74:883-886.
2 kaplan e l,meier p.nonparametric estimation from incomplete observations.j.amer.
stat.assoc.,1958,53:457-481.
3 lynden-bell d.a method of allowing for known observationalselection in small samples
applied to 3cr quasars.monthly notices roy.astronom.soc.,1971,155:95-118.
4 güler ,stute w,wang f l.weak and strong quantile representations for
randomly truncated data with applications.statist.prob.lett.,1993,17:139-148.
5 zhou y.a note on the tjw product-limit estimator for truncated and censored data.statist.probab.lett.,1996,26:
381-387.
6 woodroofe m.estimating a distribution function with truncated data.ann.
statist.1985,13:163-177.
7 zhou y,pau yip.a strong representation of the product-limit estimator for truncated and censored data.j.multivariate.anal.,1999,
69(2):261-280.
8 izenman a.recent developments in nonparametric density
estimation.j.amer.statist.assoc.,1991,86:205-224.
9 choudhury j,serfling r j.generalized order statistics,bahadur representations
and sequential nonparametric fixedwidth confidence intervals.j.statist.plann.
inference,1988,19:269-282.
10 gijbels i.veraverbeke n.weak asymptotic representation for quantiles of
the product-limit estimator.j.statist.plann.inference,1988,18:151-160.
11 gijbels i,veraverbeke n.sequential fixed-width confidenceintervals for quantiles in presence of censoring.j.statist.plann.
inference,1989,19:213-222.
12 wang j l,hettmansperger t p.two-sample inference for median survival times based on one-sample pro for censored survival data.j.amer.statist.assoc.,1990,85:529-536.
13 周勇.左删失右截断情形下分位函数的分位估计.应用学报,1997,20(3):456-465.
(zhou yong.the product-limit quantile estimator for randomly truncated and censored data.acta
appl.math.sinica,1997,20(3):456-465.)
14 cheng k f.on almost sure representation for quantiles of the
product-limit estimator with applications.sankhyā(ser.a),1984,46:426-443.
15 aly a a, m,horaáth l.strong approximation of the quantile process of
the product-limit estimator.j.mult.anal.,1985,16:185-210.
16 lo s h,singh k.the product limit estimator and the bootstrap:some
asymptotic representation.prob.theory related fields,1986,71:455-465.
17 zhou y.bahadur-kiefer theorems for kernel smooth product-limit quantile estimator.commun.statist.theory meth.,1996,24:2815-2828.
18 padgett w j.a kernel-type estimator of a quantile function from
right-censored data.j.amer.statist.assoc.,1986,81:215-222.
19 sander j m.the weak convergence of quantiles of the product-limit estimator.technical report 5,division of biostatistics,stanford university,
1975.
20 serfling r j.approximation theorems of mathematical statistics.new york:
wiley,1980.
21 zhu y j.the exponential bound of the survival function estimator for
randomly truncated and censored data.j.sys.scien.math.,1996,16:260-269.
22 lo s h,mack y p,wang j t.density and hazard rate estimation for
censored data via strong representations of the kaplan-meier estimator.probab.th.r
在生存分析研究中,一些个体生存时间的开始点在试验开始之前,所以人们无法观察到这些个体在进入试验之前的数据。这样所获得的个体数据就是左截断数据。如果个体一旦进入试验,人们可能在试验结束之前未能完全观察到这个个体的全部过程,因此引起了右删失的数据。这样的左截断右删失数据是生存分析中常常遇到的数据之一。具体地说,设(x,t,y)表示三维的随机变量,其中x为感兴趣的随机变量,具有连续的分布函数f;t是左截断随机变量具有分布函数g,以及y是右删失随机量具有分布l。假定x是与(t,y)独立的,但t和y可以是相关的。所谓左截断右删失数据是:如果z≥t,(z,t,δ)是可以观察的,其中z=x∧y=min(x,y)和δ=i(x≤y)。而当z<t时,人们无法观察到任何数据。不失一般性,设α≡p(t≤z)>0和w表示z的分布函数,即有1-w=(1-f)(1-l)。在文中,设(z[,i],t[,i],δ[,i])是一列独立同分布的观察样本且与(z,t,δ),i=1,2,…,n具有相同的分布。又设表示分布函数的累积风险函数。周知,累积风险函数Λ与分布函数f是一对一的关系,具有如下表示式
附图
容易证明
附图
在左截断右删失数据下,固定宽度的分位数序贯置信区间估计是生存分析中的重要研究对象之一,一个例子是基于分位数估计对研究对象进行分类。有关的真实数据是心脏病的心率数据(数据见[8]),目的是进行它和正常人数据的比较,由于没有足够多的数据和所获数据的不完全性,难于对分位数进行准确估计。因此准确分类也是不可能的。但一个重要而有效的解决方法是进行序贯试验,在给定所要求的精度下,适当增加试验样本。在独立同分布情况下,choudhury,serfling[9]研究了相类似的固定长度的序贯置信区间。在右删失数据下,gijbels,veraverbeke[10,11]以及wang,hettmansperger[12]研究了这样的置信区间,gürler,stute,wang[4]考虑了左截断的情况。
在生存分析中,序贯方法是统计中一种广泛应用的方法之一,它的优点是节约成本和试验时间,在试验中可以由它来控制所需的时间和成本进行抽样。在实际工作中,试验者往往要求在给定的置信水平和满足一定的精度下,对所感兴趣的量进行统计估计和推断,同时不要浪费太多的资源。因此,此时的序贯区间估计就是一种很好的选择。具体体现是,人们首先要求统计推断满足一定精度,即是给定固定区间的长度,当置信水平已知(即给定某个置信水平)的情况下进行抽样。这些方法在大多数的应用中是很乎合实际要求的。这就是所谓固定宽度的序贯置信区间估计。本文就在这方面进行研究。
为了证明分位数的固定宽度序贯置信区间的渐近性质,我们给出一个扩展的p[,n]分位估计的bahadur的强表示定理,其中p[,n]可以是一个随机量。当ξ[,pn]是ξ[,p]强相合估计。在某些简单的条件下,的bahadur表示是
附图
其中f=f'和r[,n]是剩余项。在下一节,我们给出剩余项r[,n]的几乎处处渐近收敛速度,其中是一列收敛于p的随机变量。对于特别的应用,p[,n]一般定义为乘积限估计的渐近方差的泛函。此表示定理在推导分位数估计的大样本性质上具有广泛的应用,此结果是[13]中重要结果的推广。为了获得分位数的置信区间估计,这种推广是必要的。在此节的最后,给出相合的渐近方差估计。为方便,假设y和t是非负的随机变量。在本文,我们多次用到如下的积分条件,对于任意t<t[,w],
附图
根据[7]的结果,我们表述如下的引理
引理1.1 假定a[,g]<a[,w]或a[,g]=a[,w]和(3)成立。当a[,w]<x≤b<b[,w],一致地有
附图
其中表示概率收敛。
在右删失数据下,cheng[14],aly,,horváth[15],lo,singh[16]研究了bahadur表示中剩余项r[,n](p)的几乎处处收敛速度。gijbels,veraverbeke[10,11]给出了ghosh型的弱表示定理。zhou[17]考虑了光滑分位数估计和给出了其一致bahadur表示定理。padgett[18]获得了些核光滑的分位数估计的渐近性质。gürler,stute,wang[4]首先考虑了左截数据下的分位数估计的各种渐近性质。
二、bahadure表示定理及固定长度置信区间
在这节,给出分位数估计表示式(2)的结果。为些我们需要如下的条件。
条件(i) 对于t<t[,w],
附图
附图
虽然f的估计容易获得,但是卷入麻烦的窗宽选择,因此尽量不用其非参数估计。使用y[,i]的次序统计量可以简单地构造分位数的置信区间,克服使用f的非参数估计的窗宽选择的麻烦。这置信区间是
附图
关于固定长度的序贯区间方法(11)及其所要求的随机样本大小τ,我们容易推导出如下定理。
附图
附图
在这里,我们进行一个小的计算机模型试验,目的是在左截断右删失数据下,检验分位数估计序贯方法的有效性,以及在给定精度下,如何有效地进行序贯试验,即在更短的试验时间里,获得合乎精度要求的分位数估计。我们的随机试验是在如下的条件下进行的。设(x,t,y)分别来自指数分布的随机变量,对应于指数分布的参数分别是θ[,1],θ[,2],θ[,3],它们的值分别取1,1.5,0.25。共进行500次试验,每次产生样本数分别是100,200和500。因此,在这些设计下,被删失的数据占20%而且被截断的占45%。获得的结果如上表。其它参数的组合下进行了同样的模拟试验,所获结果与此情况相似,故略。在此我们仅列出样本为200的结果,其它情况略。
表中的是指数分布p-分位数的估计,对于每个分位数的序贯估计分别取3种不同的精度。d[,1]的取法是全样本下的分位数估计值除以1.96,d[,2]是d[,1]的一半。而d[,3]是全样本估计的标准差乘以1.96的两倍再除于,n是全部样本的数量。sd(q)(se)指的是标准方差和在括号里面的是500次分位估计值的标准方差。bias是估计相对误差。n(d)是序贯方法所使用的样本数。covag是分位数估计落入95%的置信区间的次数。这个数值越靠近95%越好。从表中我们可以看出,序贯估计是相当精确的。同时,我们可以从下面p-分位数估计的直方图中可以看出,不管是全样本还是部分样本的分位数估计的分布形状近似于正态分布,而且它们是非常相近。最后,从表中看出当分位点靠近分布的尾部时,标准差估计不足,这主要是在方差估计中我们使用了(1-p)[2]这个因子。相信适当的修改改进这个估计。
附图
分位点p=0.5,指数分布p分位数的真值是0.6928。图(a)是全样本分位数估计,估计值是0.690,图(b)是在区间长度的精度为d[,1]=0.30下,分位数序贯估计,估计值是0.653。图(c)是在区间长度的精度为d[,2]=0.15下,分位数序贯估计,估计值是0.653。图(d)是在区间长度的精度为d[,3]=0.10下,分位数序贯估计,估计值是0.689。
三、定理的证明
下面的一些引理具有独立的应用意义。首先我们扩展p-分位数的定义到p=0和p=1。
证 这个引理的证明与周勇[13]中的引理2类似,故略。
命题2.1的证明 注意到
附图
证 周知,仅要证明对于某个d[,0]>0,有
附图
4.由引理3.5,随机变量是一致可积的,因此(22)取均值仍成立。最后,因为一致可积性可推得,因此有eτ<∞,d>0。定理2.2获证。
【责任编辑】彭非
【参考文献】
1 tsai w y,jewell n p,wang m c.a note on the product-limit estimator under right censoring and left truncation.biometrika,1987,74:883-886.
2 kaplan e l,meier p.nonparametric estimation from incomplete observations.j.amer.
stat.assoc.,1958,53:457-481.
3 lynden-bell d.a method of allowing for known observationalselection in small samples
applied to 3cr quasars.monthly notices roy.astronom.soc.,1971,155:95-118.
4 güler ,stute w,wang f l.weak and strong quantile representations for
randomly truncated data with applications.statist.prob.lett.,1993,17:139-148.
5 zhou y.a note on the tjw product-limit estimator for truncated and censored data.statist.probab.lett.,1996,26:
381-387.
6 woodroofe m.estimating a distribution function with truncated data.ann.
statist.1985,13:163-177.
7 zhou y,pau yip.a strong representation of the product-limit estimator for truncated and censored data.j.multivariate.anal.,1999,
69(2):261-280.
8 izenman a.recent developments in nonparametric density
estimation.j.amer.statist.assoc.,1991,86:205-224.
9 choudhury j,serfling r j.generalized order statistics,bahadur representations
and sequential nonparametric fixedwidth confidence intervals.j.statist.plann.
inference,1988,19:269-282.
10 gijbels i.veraverbeke n.weak asymptotic representation for quantiles of
the product-limit estimator.j.statist.plann.inference,1988,18:151-160.
11 gijbels i,veraverbeke n.sequential fixed-width confidenceintervals for quantiles in presence of censoring.j.statist.plann.
inference,1989,19:213-222.
12 wang j l,hettmansperger t p.two-sample inference for median survival times based on one-sample pro for censored survival data.j.amer.statist.assoc.,1990,85:529-536.
13 周勇.左删失右截断情形下分位函数的分位估计.应用学报,1997,20(3):456-465.
(zhou yong.the product-limit quantile estimator for randomly truncated and censored data.acta
appl.math.sinica,1997,20(3):456-465.)
14 cheng k f.on almost sure representation for quantiles of the
product-limit estimator with applications.sankhyā(ser.a),1984,46:426-443.
15 aly a a, m,horaáth l.strong approximation of the quantile process of
the product-limit estimator.j.mult.anal.,1985,16:185-210.
16 lo s h,singh k.the product limit estimator and the bootstrap:some
asymptotic representation.prob.theory related fields,1986,71:455-465.
17 zhou y.bahadur-kiefer theorems for kernel smooth product-limit quantile estimator.commun.statist.theory meth.,1996,24:2815-2828.
18 padgett w j.a kernel-type estimator of a quantile function from
right-censored data.j.amer.statist.assoc.,1986,81:215-222.
19 sander j m.the weak convergence of quantiles of the product-limit estimator.technical report 5,division of biostatistics,stanford university,
1975.
20 serfling r j.approximation theorems of mathematical statistics.new york:
wiley,1980.
21 zhu y j.the exponential bound of the survival function estimator for
randomly truncated and censored data.j.sys.scien.math.,1996,16:260-269.
22 lo s h,mack y p,wang j t.density and hazard rate estimation for
censored data via strong representations of the kaplan-meier estimator.probab.th.r
[1]