结构方程论坛SEM-Structural·Equation·Modeling's Archiver

semchina 发表于 2011-4-9 15:34

引自:2000 年APA 统计推断特别工作小组的建议对我国心理统计教学的启示

为了更好的学习 APA 1999那篇文献,我从网上找了一些中文的参考文献,对照APA1999文献看,希望能有更深入的学习。
引自:2000 年APA 统计推断特别工作小组的建议对我国心理统计教学的启示
李伟明 曹 怡(华东师范大学心理系,上海,200062)
APA 统计推断特别工作小组成立的一个直接原因是由于心理学杂志中对应用显著性检验的争论愈演愈烈。早在30年之前,社会学家Morrison 和Henkel (1970) 就编印过一本题为《显著性检验的争论》的书[2 ]。近年来,最具代表性的是Cohen (1994)的题为《地球是圆的( P < . 05) 》一文[3 ]。该文不仅列举了九十年代以来有关显著性检验争论的文章,而且从逻辑(三段论式) 和贝叶斯统计(给定数据D的原假设H0 的概率P(H0| D)不同于假设检验中给定H0 后的D 的概率P (D| H0) ) 两个方面对假设检验的问题作了形象化的说明。[u][b]文章认为零假设显著性检验(NHST , Null Hypothesis Significance Test2ing) 存在着诸多误区,包括近乎全球通用的将p误解释为零假设为假时的概率;将1 - p 误解释为成功重复的概率;以及错误地认为如果拒绝了零假设,则导致检验的理论假定就得到了肯定等等。[/b][/u]此外,该文还建议使用探索性数据分析、图表、置信区间和估计效应大小等方法以避免单纯使用NHST 所造成的误解。
正是鉴于NHST 的种种争论,APA 召集成立了TFSI ,并明确其宗旨为“阐明一些有关统计应用方面的有争议的议题,包括显著性检验及其它替换方法;提供可挑选的基础模型和数据转换,以及功能强大的计算机可实施的新方法”。
TFSI的成员组成包括了统计学家、教授统计的教师、杂志编辑、统计书作者、计算机专家以及一些博学的老资格专家。此外,还邀请了著名的测量学家———哈佛大学的Lee Cronbach 和统计学家———普林斯顿大学的John Tukey 等四人担任特别工作小组的高级顾问,对TFSI的各种书面报告进行审查、修改和评论。
……
2  几个例证
  众所周知,统计显著性检验( Z 检验、t 检验、F检验、χ2 检验等)在心理统计学教科书中是作为推断统计的重要组成部分而引进的,它和参数估计(点估计、区间估计)组成了这个部分的两大基石。心理学家们一般都认为推断统计比描述统计更能反映事物的本质,因为它用了概率论的知识,从样本数据到母体性质作了科学的推断。但是,简单的显著性检验在应用中却会产生这样或那样的问题,这类问题从下面两个例子中可见一斑。211 统计显著性与实际意义不符以下是一个简单的结构方程模型的例子[4 ] :([u]此处为结构方程图)
[/u]表1  原始数据表
直尺度量
( T)
高林的
估计值( G)
包龙的
估计值(B)
安可的
估计值(A)
1 613 510 418 610
2 411 312 311 315
? ? ? ? ?
15 215 212 116 210
  表1 中有四组测量值,T 是由直尺测得的15 条绳子的长度, G、B、A 是高林、包龙和安可三人独自猜测这15条绳子的长度所得的估计值。图1 是研究者最初假定的一个因素分析模型的路径图(pathdiagram) 。图中潜在变量F是绳子的真实且未知的长度,即因素,T、G、B、A 都是观测变量,均对应着各的误差E1 、E2 、E3 、E4。为估计参数的需要,将其中直尺的度量值T 在真实值F 上的因素负荷固定为1 ,但T 仍含有随机误差E1 ,这一关系可用T = F+ E1来表示。
图1  绳长的简单因素分析模型的路径图(注: 3 表示在因素F 上的负荷为待估自由参数)
  随后,研究者使用第二个模型,即假设用直尺度量的结果是无误的,恰好等于绳子的真实长度( T =F) ,模型仅作了小的修改。为了检验所加入的限定条件Var ( E1) = 0是否成立,应检验前后两个模型所得到的χ2 是否有显著性差异。这里两个模型的χ2 之差(21487 - 2. 347 ,df = 2 - 1 =1) 用来检验误差是否为零,结果相应的概率远大于0。05 ,[u][b]因此没有足够的证据拒绝误差为零这一假设,也就是说,两模型没有显著性差异,在统计上可以认为第二个模型,即直尺度量的绳长就是真实值这一模型有显著意义。但是我们从最一般的常识出发,也会得出直尺度量是存在误差的结论。实际上,直尺不可能提供完全无误的度量,虽然它要比人为的估计值更为精确。由此可见,统计的显著性有时会与实际情况相悖。[/b][/u]
212  显著性检验的变式之———元分析(meta analy2sis) 的必要性
对于零假设显著性检验的争论由来已久,且持续升温;而作为其可能的一种替换方法———元分析也受到越来越多的关注。[u][b]一般传统的统计教学和教材都着重强调控制和最小化I 型错误α的概率,而忽略了Ⅱ型错误β的估计,用较为积极的术语来说,即缺乏对功效的计算。这种忽视所可能导致的问题,[/b][/u]用下面这个例子来说明。例如,针对某两种心理治疗方法之间的差异,独立的研究者进行了100 次研究,并得到其效应大小指标d 为014。每个研究者所采用的两个独立样本的大小均为30 ,从中计算出每个统计检验的功效均较低,仅为0134(Cohen ,1988) [5 ]。因此,100 个这样的研究中有34 个正确地显示出统计的差异显著性,而有66个认为无统计显著性。也就是说,不用元分析而是用投票计数少数服从多数的方法(vote2counting)(Bushman ,1994) [6 ],结果将显示无显著性差异(比例为2 :1) 。进而,研究者可能得出的结论为两种心理治疗方法无显著性差异[7 ]。但事实上是差不多三分之二的研究者可能犯了Ⅱ型错误,这使本来应有显著性差异的结果变得无显著性差异了。按照美国教育联合传播协会专家评论组(Na2tional Institute of Education’s joint DisseminationReview Panel)的看法,平均效应为014 已经超过了他们经验上的显著性水平(Wolf ,1986) [8 ] 。可以说,功效分析的重要性正逐日递升。
……
3  改革与建议
3。11  [u][b]增加现代描述统计的内容[/b][/u]
普遍而言,心理学家们都认为推断统计比描述统计更能反映事物的本质。因此,在众多报告中两者相较而言更着重于对推断统计结果的说明。但是,描述统计却是推断统计的基础,它对数据起了描绘,总结和探索的作用。借[b][u]助于统计图表、特征量数等工具,描述统计可以将数据背后蕴含的信息很清楚的表现出来。[/u][/b]阅读文献、撰写报告都离不开它。[i][u][b]在第一部分提到的APA 的TFSI 报告中也对今后文章中统计部分如何使用“图和表”进行了具体的规定[/b][/u][/i],[u][b]如,不要在表中报告超出数据可能产生的精度的小数点、按有意义的顺序排列行和列变量等。[/b][/u]因此,我们建议在教学中应对描述统计部分作充分的介绍。例如: 4R 的思想( Resistance 稳健,Residuals 残差,Re2expression 变换, Revelation 显示);数据变换、残余分析、中位数平滑等常用技术;雷达图、星座图等统计图画法、含义等。当然这还应该包括如何正确地确定表格上变量的位置和测量的精度,以及如何有效地将数字中的信息充分显露出来( Bailar & Mosteller , 1988 , Ehrenberg , 1975,1981) [10 - 12 ] 。
3。12  加述效应大小和功效分析的内容
第二部分的第二个例证,其实从一个侧面反映了功效分析的重要性。TFSI的建议中也对发表论文中的功效和效应大小提出了一定的要求:“必须详细说明有关效应大小,取样和测量假设,以及用于功效计算中的分析方法。因为在收集和考察数据之前做功效计算最有意义。??一旦研究被分析,在描述结果时置信区间将代替计算的功效。”“请将效应大小作为主要结果表达出来。如果测量的单元在某一实际水平上有意义(如,每天吸烟的数量) ,那么我们使用一个非标准化的度量(回归系数或均差) 要比使用一个标准化的度量( r 或d)更好。这对于在实际或理论背景下对效应大小作一个简要的评论,是有帮助的。”
3。13  学习稳健统计的思想和方法
统计杂志中的许多文章已指出:当差异存在、当随机变量之间有所关联或当正态性稍有偏离时,标准方法不再稳健,或者说将导致低功效。如果使用更现代的统计方法,那么心理学杂志上充斥着的很多不显著的结果将会表现出显著性( Wilcox ,1998) [13 ] 。[u][b]也即是说,运用现代稳健统计方法可能会发现许多运用传统统计方法时湮灭的成果。另外,现在有些国外文献资料已经使用稳健统计方法来说明、解释研究成果。[/b][/u]为了阅读这些文献,理解其的含义,运用其成果于自身的研究,同时,为了提高自身研究成果的科学价值,为了将自己的研究成果进行总结和发表,并进行国际间的学术交流,都需要稳健统计思想与方法的学习。在本科生的心理统计教学中就可以强调中位数的稳健性并教授其他有关的稳健均值统计量,如去尾均值(trimmed mean) 、Winsorized 样本平均(Win2sorized Sample Mean) , 及有关的偏差统计量,如Winsorized 样本方差和绝对偏差的中位数(Median Absolute Deviation),并介绍稳健回归的思想。关于这方面的内容,我们推荐一本适用于社会科学领域内的统计书,即由R. R. Wilcox 撰写,1996年由A2cademic Press Inc. 出版的《社会科学的统计学》一书[14 ] 。在该书的前言中,Wilcox写道,本书的首要目标是为了给在社会科学领域内的学生们一个关于统计基本概念和方法的“现代的引论”。Wilcox又写道,该书的第二个目的是为了描述在分析数据时可能会作出有完全不同结论的统计方法之各种趋势和发展。Wilcox [b]将现代统计中的稳健思想和方法巧妙地揉合到传统的统计教学当中,读后令人受益匪浅。
[/b]3。14  构造心理统计与测量之间的桥梁
心理统计与心理测量就像一对孪生姐妹,相互需要,相互促进,密不可分。心理统计为心理测量提供了研究方法论,而心理测量也为心理统计开拓了广阔的应用新天地。例如,心理测量领域内的一些新进展、新技术,如项目反应理论( IRT) 、标准参照测验(CRT) 中标准的设定、概化理论( GT)、题目差异功能(DIF) 等等,就其本质而言,其实都脱不了广义心理统计应用的范畴。TFSI 的这篇文章本身是对今后的APA出版物上发表的文章的统计方法作了规定,但其中也包含了一大段关于测量的论述,涉及变量、实验材料和方法等。[b][u]例如,在“实验材料”一段中, TFSI就指出如果用问卷调查的方法收集数据,就必须概括其分数的心理计量学特性,包括信效度及其它任何影响结论的问卷特性的度量。在“方法”上也要求“清楚地描写进行测量的条件,如格式、时间、地点、收集数据的人员等”。文章甚至非常专业地要求,如果信度已达到要求的话,应当说明收敛效度和区分效度的证据。[/u][/b]

页: [1]

Powered by Discuz! Archiver 7.2  © 2001-2009 Comsenz Inc.