同门读书会:充分利用统计分析:改善研究解释和表达
英文名字:
Making the Most of Statistical Analyses:Improving Interpretation and Presentation
Gary King Harvard University
Michael Tomz Harvard University
Jason Wittenberg Harvard University
American Journal of Political Science, Vol. 44, No. 2, April 2000, Pp. 341(R)C35
本论文图片版相册地址:
http://picasaweb.google.com/woodphone/071006
本论文word版下载地址:
http://www.divshare.com/download/2408110-5ab
本文首发地址:
http://www.qixianglu.cn/473570.html
充分利用统计分析:改善研究解释和表达
American Journal of Political Science, Vol. 44, No. 2, April 2000, Pp. 341(R)C35
Gary King Harvard University
Michael Tomz Harvard University
Jason Wittenberg Harvard University
Gary King
Michael Tomz
http://www.stanford.edu/~tomz/
Jason Wittenberg
http://polisci.berkeley.edu/faculty/bio/permanent/Wittenberg,J/#biography
一、前言:
社会科学家很少充分利用统计结果中的信息。结果,他们就错失了大量与他们的研究兴趣有直接关系的很多数据,并且不能很恰当地表达这些数据的不确定程度。本文提供了一种基于统计模拟的方法,来提取目前在各种统计方法中被忽略的信息,用一种"读者友好(reader-friendly )"的方式解释和表达出来。这种方法能够使得定量文章信息含量更高,并且表达更加清楚。为了演示这种方法的优点,我们复制了几篇公开发表作品的结果,并说明在每一个案例中,在不改变任何数据和统计假设的前提下,如何使用我们的方法来揭示有关研究问题的重要新信息,作者自己的结论如何被表达得更加鲜明。我们同样还提供了一种非常易用的软件来应用我们的建议。
我们演示了如何将任何一种统计过程的原始结果转化成为表达:
- 表达出对研究有实际价值的变量的精确数值估计;
- 包括对这些估计值不确定程度的适当测量;
- 不需要专业知识就能够理解;
下面这个简单的句子就符合我们的标准:"在其他条件相同的情况下,受教育年数每增加一年,平均年收入增加1500美元,加减约 500美元"。无论统计模型多么复杂,任何一个聪明的高中生都能够理解这个句子。这个句子包含了实质的信息,因为传达了读者想知道的关键变量的数值。同时,这个句子表明了研究者对这个估计值的不确定程度。结论永远都不可能是完全确定的,因此任何诚实的统计结果都应该包括这样的限定语:"加减 500美元"。
相反,一个不好的解释是模糊的,并且充满了方法术语:"受教育年数的系数在0.05 的水平上统计显著"。社会科学中这样的描述很常见,但学生、官员和学者们不应该需要理解诸如"系数"、"统计显著"和"在0.05的水平上"这样的词组才能理解一项研究。而且,即使是懂统计的读者也会抱怨这样的句子不能够传达出关键的信息:如果学生受教育年数增加一年,他进入社会的起始薪水会高多少。
我们所建议的方法能够帮助研究者在三个方面做得更好:
- 能够从标准统计模型中提取出感兴趣的新变量,这样可以丰富社会科学研究的实质内容;
- 我们的方法允许学者评估任何重要变量的不确定程度,因此可以改善政治学统计话语的公正性和现实性。
- 我们的方法能够将统计原始结果转换成任何人(无论是否受过统计训练)都能够理解的结果。
在很多情况下,我们用模拟方法能做的工作也同样可以用直接的数学分析或者其他计算技术来做。为了帮助研究者应用我们的建议,我们开发除了一个易用的共享软件包:CLARIFY,将在附录部分介绍。
统计解释中的问题
我们旨在从非常一般的统计模型出发来解释原始统计结果,我们用两个等式来概括:
第一个等式描述了统计模型的随机部分(注:就是指分布形式?):因变量是从概率密度函数 中随机抽样生成的。这个函数每个观察值的某些特征都是不同的(指),同时每一个观测值的另一些特征都是相同的(指)。
第二个等式给出了模型的系统部分(systematic component),表示 如何随着解释变量值(包括一个常数项)的变化而变化,解释变量由1×k的向量和k×1 的影响参数构成,函数有时称作连接函数,其作用是明确说明解释变量和影响参数如何转化成 。
标准线性回归模型是这个一般模型的一个特例,也称为最小方差回归(最小二乘法)。只要对一般模型做如下限定,就可以得到标准线性回归模型:
- 让服从正态分布;
- 并且主要参数向量数量均值(? set the main parameter vector to the scalar mean)(注:抽样分布的均值等于总体均值);
- 并假设辅助参数矩阵是等方差的( assume that the ancilliary parameter matrix is the scalar homoskedastic variance);
- 最后,系统部分调整为线性形式:
这样就得到了标准线性回归的模型:
类似的,也可以写出一个logit模型,只需要将模型的随机部分限定为伯努利分布( bernoulli distribution),主要参数,没有辅助参数,并且系统部分调整为logistic 形式:
等式1同样包括了社会科学中几乎所有其他统计模型,包括多个等式的模型( multiple-equation,这样的模型中也是一个变量),同样也包括了概率分布、函数形式或解释变量模型是估计的而不是假设的情况。
在估计了统计模型之后,很多研究者仓促看一下系数和影响参数的"统计显著性"就止步了。这种做法明显不符合我们的要求。因为,对很多非线性模型而言,和 的含义很难解释,它们与那些有关研究兴趣的实质性参数的关系是间接的(Cain and Watts 1970;Blalock 1967)。相比仅仅写出影响系数和辅助系数,研究者应该计算和表达出更直接的实质性变量的数值。
某些研究者做得更深入一点,计算出了派生变量(?导数?derivative)、拟合值( fitted value)和一阶差分(first differences),这些数值能够传达出有关研究兴趣的变量更精确的估计值,并且只需要更少的专业知识就能理解。但即使这种方法也还是不够的。因为他们忽视了 两种形式的不确定性。
- 估计值的不确定性(抽样统计推论导致的误差Estimation uncertainty):由于不可能观察无数个案例,就不能完美地知道 。研究者常常通过报告标准差或t值来承认这种不确定性。但是当他们计算重要变量的时候却忽视这一点。由于和 是不确定的,任何计算(包括基于这些参数计算出来的派生变量、拟合值和一阶差分)必然也是不确定的,这点却几乎没有学者予以考虑。
- 根本的不确定性(忽略重要解释变量误差fundamental uncertainty ):误差变化的第二种形式,等式1中的随机部分(注:分布f 中的方差)所带来根本的不确定性,由于无数的偶然事件,比如天气或疾病可能影响Y,但是却不包含在X 中。即使我们知道了所有参数的精确值(意味着消除了估计值的不确定性),根本的不确定性仍然存在并影响预测的准确性。
因此,我们计算感兴趣变量数值的方法必须考虑这两种不确定性。
基于模拟的解释方法
我们推荐使用统计模拟这种计算变量数值和不确定程度的简单方法。模拟能够帮助研究者理解整个统计模型,充分利用参数估计,并且以读者友好的方式表达研究发现。(见Fair 1980;Tanner 1996;Stern 1997 )。
统计模拟是什么?
统计模拟使用调查抽样检验的逻辑来近似进行复杂数学计算。在调查研究中,我们通过抽取随机样本来研究一个总体。我们使用这个样本来估计这个总体的特征,比如它的均值或者方差,如果我们增加样本规模n ,估计会更加准确。模拟遵循类似的逻辑,能够告诉我们抽样分布,而不是总体分布。我们通过模拟(抽取随机数)来了解其分布并近似了解这个分布的某些特征。如果我们增加抽取的随机数的数量M,就能够提高近似的精确程度。因此,模拟使得我们能够近似了解概率分布的任何特征,而不需要求助于高深的数学。
比如,我们能够通过积分计算出概率分布的均值,这通常靠经验得不出来。或者,我们能够通过从 中抽取大量随机数并计算它们的均值的模拟方法来获得概率分布的均值。如果我们对Y的理论上的方差有兴趣,我们可以通过计算抽取的大量随机数样本代入模型获得的结果的方差。如果我们想知道 Y>0.8的概率,我们可以计算样本中大于0.8的部分。同样,我们可以通过抽取 1000个随机数,并且计算每一个随机数的函数值,然后将函数值从低到高排列,选取第25个和第976 个值,这样可以发现函数Y的95%置信区间。通过画出大量 Y模拟值的平方根的直方图,我们甚至还可以近似得到的整个分布。
与增加调查样本规模来提高精确度类似,通过增加模拟值的数量,可以计算出任何精确度的近似值。评估近似值精确度的方法很简单:用同样数量的模拟值重复运行同样的程序。如果每次重复得到的结果在四位小数点内都是相同的,那就说明精确度是小数点后四位。如果需要更高的精确度,增加模拟值的数量再尝试。通过模拟除了一点计算时间没有任何损失,却很容易得到很多东西。
参数模拟
我们现在介绍如何利用模拟来计算感兴趣的变量及其不确定程度。
第一步涉及到主要参数和辅助参数的模拟。由于我们的样本是有限的,所以对和的参数估计都存在不确定性。为了获得估计值的不确定程度,我们从它们后面或样本分布中抽取一些近似的参数组(? we draw many plausible sets of parameters from their posterior or sampling distribution)。某些抽取值会小于或大于和,反映了我们对参数精确值的不确定程度,但所有的值都会与数据和统计模型保持一致。
?为了模拟这些参数,我们需要点估计值和估计值的方差-协方差矩阵,多数统计软件都会报告。我们用 表示由除之外的累加产生的向量( we denote as the vector produced by stacking on top of )。用公式表示就是:,此处vec 表示仅累加项,作为列向量(?where "vec" stacks the unique elements of and in a column vector)。用表示这些估计值的方差矩阵。中心极限定理告诉我们,只要样本足够大,方差有限,我们就能够从一个多元正态分布中随机抽取参数(或模拟值),得到的均值等于 ,方差等于。可表示为:
重复第二步,比如M=1000次,得到主要参数和辅助参数的1000 个抽样值。
如果我们完美地知道中的元素,每次那么抽取到的样本组都是相同的;我们对知道地越少(由于方差矩阵中更多的要素 due to larger elements in the variance matrix),每次抽取到的样本组的差异越大。我们从统计过程得到的参数概括了特定的变化模式。我们仍然需要将转换成为我们感兴趣的变量,但是现在我们已经概括了 的所有信息,这样我们就能很好地完成转换。在下面三个小章节中,我们描述了将模拟参数转成预测值、期望值和一阶差分的算法。
预测值
我们的任务是在每个自变量给定取值的情况下抽取一个Y值,我们用变量 表示自变量。将模拟值表示为,相应地Y用 表示,作为模拟预测值。预测值的变化取决于所使用的X值的类型。比如, 可能等于未来的某个取值(这样就是一个模拟预测),或者等于未来不一定发生的假设值(就是一个模拟的反现实预测值)。所有这些值都不等于我们接下来的小章节要讨论的线性回归中的期望值( )。
模拟一个预测值,要遵循以下步骤:
- 使用前面所讲的算法,从变量中抽取一个值。
- 确定你想计算哪种类型的预测值,在这个基础上为每一个自变量选择一个值。用 来表示这些值。
- 从的最高部分选取模拟的影响系数(taking the simulated effect coefficients from the top portion of ),计算,其中是统计模型的系统部分。
- 从统计模型的随机部分中随机抽取获得模拟的结果变量。
重复这个算法,比如M=1000次,获得1000 个预测值,从而获得的完整概率分布。通过这些模拟值,研究者不但能够计算出预测值的均值,还能够评估均值不确定程度。预测值的表达标准与因变量相同,所以它应该不需要很多专业知识就能理解。
期望值
因变量的期望值或均值可能比预测值更有价值,这取决于研究问题。这其中的差异是微妙的但是却很重要。一个预测值同时包括了根本的不确定性和估计的不确定性,而期望值通过平均消除了由于纯粹的随机造成的根本的不确定性,只剩下由于观察案例数目有限造成的估计的不确定性( 注:预测值需要先估计模型,这样就涉及到忽略重要变量的可能,就产生了根本的不确定性;而期望值只需要计算均值,不需要估计模型,不存在忽略重要变量导致的误差,所以不存在根本的不确定性。新注:期望值通过对预测值取平均值,消除了随机误差带来的根本的不确定性)。因此,预测值比期望值有更大的方差,即使二者的平均值接近相同。
当选择这两个变量的时候,研究者应该重视他们从样本中得出的结论的根本不确定性。在某些应用中,比如预测选举结果或预测下个月外汇汇率,学者们和政治家们以及投资者们,希望知道的不只是期望值,还希望知道结果会由于未纳入模型的随机因素的影响而偏离多少。这样的情况下,预测值似乎就更合适。在其他的应用中,研究者可能想要强调特定自变量的平均影响,所以期望值可能更合适。
我们现在提供计算模拟的期望值的算法:
- 按照参数模拟的程序,从中抽取一个值。
- 为每一个自变量选择一个值,用 表示。
- 从的最高部分选取模拟的影响系数,计算,其中 是统计模型的系统部分。?(此处不是也计算了模型吗?)
- 从统计模型的随机部分 中抽取结果变量的值m个。这一步骤是模拟根本的不确定性。(注:当给定 X和系数的时候,得到的实际上是Y的一个分布,所以还可以从中抽取 Y值)
- 通过取平均来消除根本的不确定性,计算m 个模拟值的平均值来产生一个模拟的预测值。
当m=1时,这个算法只产生一个预测值。如果m 值很大,第四步实际上模拟了根本的误差(随机误差),而步骤五取平均值获得一个期望值(注:预测值的期望值)。m值越大,这个算法越能够成功地消除 根本的不确定性。?(注:应该是估计的不确定性吧?)
m取某个固定值,重复整个算法M=1000次,就能够得到 1000个期望值的模拟值。每一个期望值不会相同,因为估计的不确定性,每一个期望值对应一个不同的。这M个模拟值近似的模拟了 的整个概率分布,使得研究者可以计算平均值、标准差、置信区间和几乎任何其他感兴趣的变量。
这个算法适应于任何情况,但是存在一定的近似值误差,但增大M和m 的取值可以减小。对于某些统计模型,有一个减小计算时间和近似值误差的捷径。无论何时,这样研究者可以略去期望值算法的第4-5 步,因为1-3步足够模拟一个期望值了。这个捷径适用于等式2和等式 3对应的标准线性模型和logit模型。 (注:因为系数是从系数矩阵的多元正态分布中随机抽取的。)
一阶差分
一阶差分是两个期望值而不是预测值之间的差异。要模拟一阶差分,研究者只需要运行期望值算法2-5步两次(注:这意味着只抽取一次系数),自变量使用不同的设置。
比如,要模拟第一个自变量的一阶差分,除了第一个自变量之外的其他自变量取均值,将第一个自变量取起点值为其固定值,用表示解释变量的起始值,并运行预测值算法 (注:应该是期望值算法吧)一次来生成,用来表示自变量取 的条件下的Y值的均值。然后改变第一个解释变量的值为其终点值(eding point ),其他自变量仍然和前面一样取均值。用表示这个新的变量,重新运行算法得到,即表示自变量取 的条件下的Y值的均值。一阶差分就等于。重复一阶差分的算法M=1000 次,就得到了一阶差分的近似分布。对这些模拟值取均值,就得到了一个点估计,计算可以得到标准差,以及置信区间。
我们前面讨论了Y的期望值,这一部分讨论了基于这种类型期望值计算的一阶差分。有时候可能对定序probit 模型(ordered-probit model)中的Pr(Y=3)的不同期望值感兴趣,在这种情况下,期望值算法就需要稍作修改。我们已经在 CLARIFY程序中做了必要的修改,附录中对此做了介绍,这个软件可以帮助研究者计算不同的期望值、一阶差分、预测值和其他感兴趣的变量。
本文中的算法不需要新的假设,而是依赖于在社会科学中已经成为标准的一些基本假设。尤其,我们假设统计模型是符合规范的并且有正确的具体说明,有何时的解释变量和函数形式,允许我们将精力集中在解释和表达最终结果上。我们还假设样本规模能够达到中心极限定理的要求,这样,样本的参数分布(不是指统计模型的随机部分)能够用正态分布来描述。尽管我们聚焦于非对称的结果,即使多数的研究者使用非线性模型,使用有限样本分布进行模拟,只要满足通常的模型假设都能够使用我们的算法来做模拟。
替代方法(注:有一些数学原理,比较难懂)
在本节,我们讨论几种生成感兴趣变量和衡量其不确定性的其他技术。这些方法对于模拟很有价值,因为它们提供了重要的数学直觉,或者说,在某些情况下,它们证明了使得有限样本来预测变得可行。
计算密集型的替代方法(computer-intensive alternatives):我们的模拟方法并非唯一的 computer-intensive technique用于获得感兴趣变量值和估计不确定性。完全的贝叶斯方法,使用马尔可夫链-蒙特卡洛技术( Markov-Chain Monte Carlo techniques)比我们的方法更加强大,因为它们允许研究者从精确的有限样本分布中抽样,而不是依赖于中心极限定理来证明渐进正态趋势的合理性(justify an asymptotic normal approximation )(Carlin and Louis 1996)。但是这些方法都难以使用,尤其当马尔可夫链集中于真实的posterior分布的时候(when a Markov chain has converged in distribution to the true posterior),统计学家对于近似标准仍存在争议(Cowles and Carlin 1996; Kass et al. 1998)。然而,这个领域在过去十年已经有了很大进展,值得政治学的科学家们关注。
另一种有用的替代方法是bootstrapping,一种非参数方法,其逻辑是通过重新抽样来近似估计参数分布 (Mooney and Duval 1993;Mooney 1996)。理论上,的抽样分布可以用有限数量的 的直方图来表示,从同一个总体中每次抽取不同规模n的样本来估计。Bootstrapping 模拟这个过程来从原始样本中抽取很多个子样本,然后对每一个子样本估计,然后作出不同的直方图。 Bootstrapping方法有很多优点。它对概率分布没有很强的假设要求,蒙特卡洛研究显示,该方法在用小样本研究某些问题的时候具有优势。该方法也不要求很强的参数分布假设。尽管商业统计软件不能很快地开发出相应的统计模块,Bootstrapped 估计的程序也不复杂。该方法的缺点是在估计Y的最大值这类特定变量的时候存在偏差。
本文所讨论的贝叶斯方法和bootstrapping方法都可以直接使用。唯一改变的是从等式4 的多元正态分布中抽取参数的方法,我们可以用MCMC-based模拟法(即:马尔可夫链 -蒙特卡洛技术)或者 bootstrapping法来抽取参数。即使是我们的软件CLARIFY,也不需要额外的编程就可以使用。
MCMC和bootstrapping法生成参数模拟值的方法和我们的方法类似。假如参数不是研究者直接需要的,研究者必须将它们转成预测值、期望值和一阶差分这样的变量。上面所提供的算法展示了转换的办法。实际上,我们的软件 CLARIFY能够很容易的修改以用于这些替代的方法。
?分析方法。主流的(数学)分析方法有delta 方法,这种方法用微积分来近似模拟随机变量的非线性函数(van der Vaart 1998)。如果我们对 均值和方差感兴趣,而g是非线性函数。如果概率很大的情况下,g 近似为线性函数,那么,g关于的泰勒级数展开(Taylor-series expansion of g about )常常是合理的。按照第一个顺序,, 。结果,的最大似然估计近似为,其方差近似为。例如,在指数泊松回归模型( King 1989,第五章),Y是泊松均值 ,如果我们想要计算给定情况下的事件数的期望值,在这种情况下,事件数的期望值的最大似然估计是,其方差为 ,值得注意的是这个最大似然估计值依然不能够反映的不确定程度,而在模拟法和其他计算密集型方法中,这一点可以自动获得。为了体现这种额外的不确定性,我们需要另一层次的复杂数学方法,我们必须近似估计积分及其方差。详细的例子见 King和Zeng(1999 )在logistic回归中的例子。
尽管随着计算机速度的提高,delta法也用数学分析揭示了其中的统计直觉,但该方法仍有两个缺点,而模拟法能够帮助克服。第一,该方法对技术要求比较高,因为它要求研究者计算导数和线性函数的积分。 因此,大多数学者即使能够意识到报告不确定性程度的重要性时,也不会使用delta法。第二,delta 法中的泰勒级数仅仅是非线性形式的一种近似。尽管研究者有时能够用泰勒级数中的附加项来改进其近似程度,但仍然很难,而且要发现附加项的估计值通常是不可能的。实际上,多数研究者在展开级数到第一顺序或第二顺序之后,就停止了,这能够满足近似精确度的要求。而用模拟法,只需要简单地增加M值然后让计算机运行时间久一点就可以提高精确度。
有几个权衡模拟法优点的通用理由。第一,几乎基于模拟的方法都能够替代几乎每一种计算变量和统计检验分析方法,但反之不成立(Noreen 1989)。因此,即使不存在分析性解决方案的时候,模拟法也能够提供精确的答案。 第二,模拟法拥有很好的教学优势。研究显示,无论分析方法教得怎么好,学生通常用模拟法更能够获得正确的答案(Simon,Atkinson,and Shevokas 1976)。有一个学者甚至提供 5000美元的奖励给任何一个能够展示分析方法教学优势的人(Simon 1992)。当然,delta 法潜在的数学视野能够揭示一些优势,如果可行,我们也鼓励研究者同时学习模拟法和分析法。
Tricks of the trade
前面章节所提到的算法适用于所有的统计模型,但是如果采取下面的一些小诀窍能够做得更好,而且能够避免一些常见的误解。
参数模拟的诀窍
统计软件通常会报告参数估计的标准差,但是精确的模拟要求完全的方差矩阵。的对角线元素包含了方差 ,而非对角的元素表示一个参数估计值与另一个从同一个概率分布中重复抽样得到的参数估计值之间的协方差。单独模拟每一个参数是不正确的,因为这个过程会忽视参数之间的协方差。几乎所有好的统计软件能够报告完整的方差矩阵,但是大多数统计软件都要求研究者通过修改设置来明确要求。附录中描述的软件可以自动获得方差矩阵。
一个常见的错误是当从多元正态分布中抽样的时候排除某些参数。不同参数有不同的逻辑,比如效应参数与辅助参数 ,但是我们的算法不需要区分二者:二者都是不确定的,应该被模拟,即使在后面的计算中可以证明只有其中之一是有用的。有可能在模拟阶段排除某些参数来提高算法的效率,但在多数情况下,这些小技巧都是不必要的,而且有可能导致错误。研究者通常遵循我们的参数模拟算法不做改变,风险更小。
在某些统计模型中,项是正交的(orthogonal注:这意味着各个自变量之间是相互独立的?意味着各个自变量之间协方差为 0),所以统计软件为每一组提供独立的方差矩阵。当应用算法来模拟这些参数的时候,研究者可能想要通过在对角放置单独的估计方差矩阵和在其他各处插入0 值来生成一组对角线矩阵。很明显,的子项如果真的是正交的,从独立的多元正态分布中可以抽取相等的两组,但是用单个样本分布会更简单。
研究者应该对项再参数化(注:意思就是取对数或者做其他数学变换,使得该参数的值域扩充到从负无穷大到正无穷大)以增加似然性,在有限样本中渐进的多变量标准近似值会保持不变。一般而言,所有的参数都应该再参数化,除非它们已经像正态分布那样是无限的且在逻辑上是对称的 。比如,一个变量参数必须大于零,如果使用类似的表达形式再参数化就会有好处。这允许研究者估计 值,该值作为项取值范围从,并且假设认为是服从多元正态分布的。当再参数化的时候,我们要给参数模拟算法增加额外的一步:从多元正态分布中抽取 样本之后,我们通过计算来再参数化回到原来的取值范围。
其他几种再参数化都很方便。相关参数的取值范围从-1到 +1,可以通过Fisher Z转换再参数化为取值范围从的 。同样的,一个表示概率的参数能够使用logistic转换 转成取值范围无限的形式。这些技巧可以增加参数模拟法的效果。
变量模拟的诀窍
将模拟参数转成感兴趣的变量的时候,最安全的做法是模拟出Y并用它作为获得其他变量的基础。这条规则等同于吸收了所有模拟参数——因此包容了统计模拟的所有信息——进行计算。当然,仍然存在某些不足。我们已经提到,在 logit模型中,可以通过stopping with 获得 E(Y),因为Y的二分抽样(drawing dichotomous Y's)和取平均会产生精确的值。如果不确定,可以继续下去直到模拟出结果变量。?
如果Y的函数,比如ln(Y),在估计阶段作为因变量使用,研究者可以模拟出 ln(Y),然后可以用exp (ln(Y))计算得到Y 值。我们在第一个例子中采用了这种程序估计一个log-log回归模型。模拟和转换的顺序很关键,因为不使用模拟法计算E(ln(Y)) 的通常顺序,然后取自然对数,会得到错误的结果:。而使用模拟法Y和E(Y) 都很容易计算,这与研究者在估计阶段的取值范围无关(regardless of the scale that the researcher used during the esti8mation stage)。
研究者应该通过重复整个算法看是否有任何实质性的重要变化来评估任何模拟变量的精确性。如果有些值改变了,增加模拟数(M值,在计算期望值的情况下还要增加 m值)再次尝试。某些情况下——尤其是当研究者没有正确使用非线性统计模型的时候——相同精度要求模拟所需的数量比通常要大。数值估计应该按照正确的精度来报告,所以如果重复用同样数量的模拟值来运行,模拟产生的估计值的改变仅仅在第四位小数点后,那么,假设这能够满足实质性的目的——报告的数值应该精确到两到三位小数点。
本文介绍的模拟程序几乎能够用于计算研究者感兴趣的所有变量。这样,他们能够考虑采用经典的模拟方法。对于某些模型,有很多其他的模拟算法可用。这些替代方法可以加快估计的速度,或者对于固定数量的模拟可以更精确,他们应该吸收到统计软件中作为一般使用的功能。在某些情况下,分析计算也是可能的,而且能够更快获得结果。但是我们的算法为社会科学家们提供了所有他们需要理解的基本概念:那些变量会被计算,如何计算等。而且,只要 M和m值足够大,这些或所有其他正确的算法可以给出合理的答案。
经验案例
为了演示我们的算法如何实际使用,我们演示了五个经验研究作品。我们没有选择那些很另类的文章,而是从一些很有威望的报刊中选择了一些最杰出的作者最成功的研究。在这些文章中,我们剔除了很多我们无法重复研究过程的作品,选取了五篇来演示五种不同的模型和解释项。对这五种模型解释的程序是很典型的。如果我们遵循这些案例,那么社会科学的研究报告会有很大的改进。对每一篇文章,我们描述了实质性的问题和模型选择;我们还不评价他们的统计过程,即使某些情况下统计方法还有改进的余地。我们详细演示作者如何解释他们的结果,而我们的方法如何能够改进其解释艺术。
线性回归
下面是Tufte(1974)的作品,我们估计一个美国各州政府规模的 log-log回归模型。因变量是,是1990 年州政府全职雇员人数(单位是千人)的自然对数。Tufte感兴趣的是值是否会随着州人数的增长而增长;但是考虑到另一个政治学家可能更感兴趣的假设:州政府雇员人数可能取决于州议会中民主党的比例,因为即使调整了政府人口数后,民主党比共和党更喜欢大政府。因此,我们两个主要的解释变量是州人口数 (千人)的对数,众议院中民主党比例的对数。
我们应用预测值算法来预测有600万人口和民主党占80% 席位的州政府雇员人数。第一步,我们用附录中的统计软件来估计对数线性模型,模拟影响系数和辅助参数的一组值。接着,我们将主要解释变量设为 和,这样,我们就能够建立的模型 。然后我们从正态分布中抽取一个值。最后,我们计算的 exp值,这样可以得到政府雇员人数的实际数值。重复这个过程M=1000次,我们可以生成1000 个预测值,从低到高排列。95%置信区间就是第25个数和第 975个数所代表的区间下界和上界。因此,我们我们可以得到州政府雇员人数在73000人和149000 人之间。我们点估计值是106000全职雇员,这是所有预测值的均值。
我们同样计算了某些期望值和一阶差分,发现增加民主党比例从一半到三分之二,州政府雇员数平均增加7000人。一阶差分的 95%置信区间是从3000人到12000人。我们的结果值得进一步探究,因为就我们所知,研究者(作者)没有在州政治的文献中说明这种关系。
Logit模型
第三部分的算法同样能够帮助研究者解释logit模型的结果。我们从Rosenstone 和Hansen(1993)的作品中选取的例子,他们试图解释为何美国社会中的某些人比其他人更可能参与投票。按照 Rosenstone和Hanson的研究,我们从总统选举年每个州的选举研究中汇集数据。我们的因变量编码规则:如果受访者报告在总统选举年参与了投票则编码为 1,否则编码为0。
出于讲解的目的,我们将重心放在Rosenstone和Hanson 强调的少数人口变量上:年龄()和教育年数(),收入()单位是万美元,和种族(如果是白人 =1,否则编码为0)。我们还包括一个平方项用来检验假设:投票参与率随着年龄增长直到受访者年龄接近退休( 注:意味着是非线性的,一条曲线)。这样,我们的解释变量组,其中1是常数项, 是平方项。
在我们的logit模型中,总统选举中的投票概率是。我们估计在其他变量取均值的条件下,两种不同教育水平的受访者在不同年龄的投票概率和不确定程度。在每一种情况中,我们重复期望值算法 M=1000次获得投票概率的99%置信区间。结果显示在图一中,该图能够很好地阐释 Rosenstone和Hansen的结论:投票概率从45岁到 65岁稳定上升到峰值,然后到退休年龄逐渐下降。该图还显示,期望值的不确定程度在两个年龄极端值处达到最大值:垂直直方图代表的99%置信区间显示,当受访者非常年轻或非常年老的时候。
时间序列截面模型
我们的算法还可以用来解释时间序列截面模型的结果。通常认为,市场的全球化驱使政府大幅削减公共支出,但是Garrett( 1998)的一本新书提供了相反的证据。左翼政党和贸易联盟能够和平共处,Garrett认为,全球化导致政府支出占 GDP的比重更大,而相反的情形发生在左翼和工会都比较薄弱的国家。
为了支持他的观点,Garrett建构了一个按年测量的经济和政治变量的面板数据(panel ),数据来自十四个工业民主国家在1966-1990年的数据。然后,他估计了一个标准线性回归模型,因变量是每个国家每年的政府支出占每年 GDP的百分比。三个关键的解释变量是资本流动性,该值越大说明政府更少限制跨国的商业流动;贸易,该值越大意味着外贸占 GDP的百分比越大;左翼劳工的力量,该值越高表示左翼政党和工会更强的联盟。
为了解释他的结果,Garrett计算了:
在不同的民主政治条件和经济全球化卷入程度的情况下的一系列反事实结果。方法是将回归等式中的其他变量设为其均值,然后与其系数相乘,然后检查不同左翼劳工联盟力量和全球化程度的反事实的结果……(1998 ,82)
Garrett尤其区分了较高和较低的, 和值。对这些变量,数组中第14百分位的表示一个低值,低86 百分位的表示一个高值。
反事实估计如表1所示,Garrett用这个数据得出了三个结论:
- 当左翼-劳工力量较大的时候,政府支出总是更大,与市场整合水平无关(两个表格中第二行的数值都要大于第一行的数值)。
- 相比更低市场整合(注:贸易和资本流动率低)的情况,在较高的贸易和资本流动率的情况下,左翼-劳工力量较低和较高的国家之间的差距更大,这意味着,较高经济国际化程度的国家相比更封闭的国家,党派政治对政府支出有更大的影响力。
- 在左翼-劳工力量较低的情况下,如果从较低市场整合水平的地方迁往较高市场整合水平的地方,政府支出减少;但是在左翼-劳工力量较高的情况下,相反的假设也成立。
Garrett的反事实结果远远超出了通常的系数列表和t检验 ,但是我们的工具能够帮助从他的模型和数据中提取出更多信息。比如,模拟可以揭示不同单元数值差异是否可能因为偶然因素单独作用而增大。为了作这个估计,我们重新估计了Garrett回归等式中的参数,并使用参数模拟的算法从后面的分布中抽取了 1000组模拟系数。然后,我们固定和的值在第 14百分位,其他变量取其均值,计算1000个(反事实)期望值,每一个模拟系数一个值。按照同样的程序,我们生成了表1 各单元,和其他反事实取值组合。最后,我们画出反事实取值的"密度估计"(比直方图更平滑的图形),这些结果见图 2。
我们可以想象每一个概率密度估计是一堆的政府支出数值的模拟分布。在给定的政府支出水平,概率估计密度越高,就有越多的模拟值出现在该点。
图2显示,贸易和资本流动率的全球化程度越低,左翼政府支出是稍微比右翼多一点。更重要的是,概率密度估计重叠太多,所以很难区分这两种支出模式的信度(表达这种观点的另一个方式就是,这两种分布的均值在通常的置信水平下是不显著的)。在全球化时代,相反,国内政治对财政支出的影响力更大:左翼政府比右翼政府支出更多,平均超过 2个GDP百分点,这一点差异我们比较确定,因为这两种政权形式的概率密度估计相距较远。总之,我们的模拟值使得我们质疑 Garrett的观点:左翼-劳工政府通常比右翼政府支出更多,无论市场整合水平如何:尽管这种趋势可能是正确的,这种结果却有可能是由于偶然因素被夸大了。模拟结果支持了 Garrett的观点,即全球化加强了党派政治与政府支出之间的关系。
多分类logit模型
在传统的一党独大的国家,当公民有机会让一个政党下台的时候他们如何投票的呢?Dominguez和McCann (1996)通过分析1988年墨西哥总统选举的调查数据提出了这个问题。在那次选举中,选民从三个总统候选人之间选择: Carlos Salinas(来自执政的PRI), Manuel Clouthier(代表PAN,右翼政党)和Cuauhtemoc Cardenas (左翼联盟的领袖)。这次选举具有重要的历史意义,因为第一次三个总统候选人具备了高度的竞争性。Dominguez和McCann使用了多分类的 logit模型来解释为何某些选民更喜欢某个候选人而不是其他人。下面的等式总结了该模型,和 是三个候选人:
三个候选人的影响系数不同,分别用来区分三个变量,每一个有k×1个元素。
和传统的调查研究一样,该书重点讨论个人投票行为,但是我们首先使用模拟法来检验那些Dominguez和McCann 感兴趣的变量:投票结果。尤其,如果每一个投票者认为PRI处于弱势,那么哪一个候选人会赢得总统选举呢?为了回答这个问题,我们将每一个选民都编码为"认为 PRI处于弱势",选民的其他属性取真实值。然后,我们使用预测值算法来模拟样本中每一个人的投票,然后使用投票来运行一个模拟的选举。我们重复这个过程100次,产生 100个模拟选举结果。为了比较,我们还编码每一个选民为"认为PRI处于强势",也模拟100 次。
图3显示了我们的结果。该图叫做"三元图"(ternary plot )(见Miller 1977;Katz和King 1999 ),图中的坐标表示在不同模拟选举结果中,三个候选人获得预测票数。
大概而言,一个点离某一条边的垂直距离越近,该条边顶点所写的候选人得到的投票数越多。靠近中间的那个点表示模拟选举胜负难分的点(a dead heat)。我们还在图中添加了" win lines"来将三角图分为三个区域,表示某个候选人获得了多数选票,因此就赢得了选举(例如,一个点出现在三角形的顶端表示模拟选举结果是Cardenas获得了多数选票)。
在该图中,几乎接近左边底部的圆形区域是每个人都认为PRI很强势的情况下的模拟结果,而所有的点都差不多接近中心位置是所有人认为 PRI处于弱势的情况下的模拟结果。该图显示,当全国认为PRI处于强势,Salinas 会获胜。如果选民相信PRI处于弱势,尽管1988年的选举持这两种观点的人都持平,那么,每一个候选人都有相等的获胜机会。
这必须是那些希望终结PRI统治的人的清醒认识。希望打败PRI ,即使在这种乐观的情况下,也还是需要在两个竞争对手之间做某种妥协。该图同样支持这样的观点:尽管多数选民的投票行为与调查回答不一致,Salinas很可能赢得1988 年的总统选举。他可能以比报道更微弱的优势获胜,但是该图有很强的证据显示他确实会打败竞争对手。
Censored Weibull回归模型
战争如何影响政治领袖的生存?Bueno de Mesquita和Siverson(1995) 通过估计一个censored Weibull回归模型(一种纵贯模型)研究了这个问题,因变量测量了战争开始后领袖 i仍然执政的年数。对于全部观察的案例(领袖在研究时期内已经下台),模型是:
其中,是一个辅助参数,是 gamma函数,表示持续时间的阶乘(an interpolated factorial that works for continuous values of its argument)。该模型包括四个解释变量:领袖战前的任职年数,战前任职年数与民主的交互作用,每10000居民中战死人数,和一个表示领袖是否赢得战争的虚拟变量。 作者发现,从对外战争中获得好处的领袖通常会在国内失去权力,但是在战前有较长任期的权威型领袖能够比其他类型的领袖执政更久。
Bueno de Mesquita和Siverson通过计算每个变量的"hazard rate"讨论了解释变量的边际影响。Hazard rates是文献中的传统解释方法,但是需要相当的统计知识来理解它们。模拟能够帮助我们计算出更加直观的变量,比如战争爆发后领袖继续执政的期望月数。第一步,我们用中等水平的战前任职年数预测在民主国家的领袖的继续执政年数,其他变量取均值。对每一个权威领袖重复这个过程,我们想知道如果领袖战前任职年数增加 10年结果会怎么样。在我们的四个案例中,我们每一个生成了500个模拟结果以反映估计值和根本的不确定程度。
结果见图4,显示了战前任职条件下,独裁和民主两类领袖继续执政年数的概率密度估计。圆点曲线对应的是平均水平的战前任职年数的领袖,实线代表战前任职年数多 10年的领袖的概率密度。图中的箭头表示每一种方案结果的中位数。这些箭头在左图(a)中比右图( b)中隔得更远,强烈支持了作者原来的观点:相比民主国家的领袖,战前任职年数更有利于权威式领袖。平均而言,有经验的专制领袖比没有经验的专制领袖的继续执政年数要长11.8 年;相反,战前任职年数多10年的民主国家领袖仅仅多2.8年。
图四还展示了感兴趣变量的整个分布,而不是均值这样简单的概括。因为随机分布的影响,模型中的生存时间(每一个分布的均值)与生存时间的中位数并不相关。这种戏剧性的偏差也是很重要的,因为它清楚显示了最高的生存机会非常短(低于5 年)和集中,而更长执政时间分布在更宽的范围内(5-20年或更久)。
结论性观点
政治学家们从定量数据中获取了越来越多的信息。感谢过去一二十年内政治学方法论工作者的工作,我们从其他学科引进和采用了统计方法,创造了新的模型,并将这些模型用于每一个经验领域。我们现在搜集和分析了来源丰富而且时间跨度大的定量研究数据,我们在诸如跨学校的政治学和社会研究协会的文献中积累了大量的数据。令人印象深刻的是,政治科学杂志中大约全部文献的一半包含了某种形式的统计分析,而且方法变得越来越精密。
不幸的是,我们在发展和应用新的定量方法上取得成功的同时却缺乏交流。很多定量文章包含了很多令人费解的统计术语和不熟悉的数学表达,这些都让读者感到迷惑。统计方法难以理解,难以使用,看似难以让那些非定量的社会科学家理解。很少有人反对统计在数据分析中的中心地位,只是认为单独的定性或定量分析都是不充分的。统计分析有责任以一种容易理解的透明方式来呈现分析结果。 在太多的研究中,甚至要理解一个复杂定量模型都很困难。
政治科学家已经从很多立场出发批评这种交流困难。多数研究生培养规划提供了一些列的政治方法论课程,而且越来越多的学校提供非正式的暑期数学课程。方法学者也经常性的支持这些培训规划并写了一些教学文章。当然,所有这些活动都离不开统计学家的定量研究。
作为一种新的批评立场,我们建议应该花更多成本来进行统计再培训,这样政治学家不只是"消费"统计研究,而是可以"生产"统计研究。我们主张从现存统计模型中提取新的信息,帮助学者们传递更精确的数值估计、对不确定程度进行合理估计和只需要更少的专业知识就能理解。
我们建议的方法比政治科学中现在使用的方法更加麻烦。我们的方法需要更多的计算,研究者将它们用于实践的时候必须花更多时间思考那些变量是真正重要的,以及如何与更多读者交流。但是我们的方法能够帮助在定量学者和非定量学者之间搭起桥梁,让那些对研究项目有实质性兴趣的学者能够利用统计研究的成果。也许最重要的是我们的建议有利于改善经验研究,揭示现存统计程序中忽视的新事实。这意味着,在没有新假设、新统计模型或新数据的情况下,我们所建议的解释程序能够产生新的结论。
附录软件
我们编写了一个很容易使用的统计软件,叫做CLARIFY:该软件用于帮助使用我们的方法来解释和表达统计结果。该软件是统计软件 stata的宏,能够计算大多数统计模型中的常用变量,包括线性回归、二分的logit模型、二分的probit 模型,定序logit模型、定序probit模型、多分类 logit模型、泊松回归、负二项式回归(negative binomialregression),和很多其他模型。该软件和详细的文档可以在该网址获得:
我们在此提供一些简短的描述:
该软件包括三个宏,需要按这样的顺序来运行:
ESTSIMP
SETX
将的值设为需要的值,比如均值、中位值、百分位、最小值、最大值、特殊值等。
SIMQI
计算感兴趣的变量,比如预测值、期望值和一阶差分。
这个程序有许多参数,但是为了展示该软件的易用性,我们提供一个简单的例子。假如我们有一个定序的probit模型,因变量 y取值为1,2, 3,4和5,因变量为 x1和x2。假如我们想要知道当x1=12.8, x2设为其均值,置信水平为90%的时候,y=4的概率。为了生成这个变量,我们需要在 stata命令行中输入下面三行命令:
Estsimp oprobit y x1 x2
Setx x1 12.8 x2 mean
Simqi,prval(4) level(90)
第一行估计以y为因变量,x1和 x2为自变量的定序probit模型,并将所有参数估计的模拟值存储起来。
第二行命令将x1的值设为12.8, x2取其均值。
第三行命令计算感兴趣的变量,即y=4的90% 置信水平的概率。
--
最新奇有趣的新技术、科幻、社会学信息:
奇想录 http://www.qixianglu.cn
订 阅 http://feed.feedsky.com/woodphone
forcode科幻小说《抽水马桶的秘密》:
http://www.cmfu.com/showbook.asp?Bl_id=60008