引自:心理学研究中应用统计方法应注意的几个问题
陈启山( 香港中文大学教育心理系, 香港) 心理与行为研究2006, 4( 3) : 200~206知道这篇日志老师应该已经不算在成绩内了,不过我还是贴出来吧。这是在复习统计的时候在网上找的参考文献。
关于统计推论:
抛开具体情况, 不管假设是什么, 有一点是肯定的: 观测值越多, p 就越敏感。因为显著性受到样本大小的强烈影响, 所以,统计显著性并不一定能告诉我们一项效应有多大或者实际上有多重要。第三, “5%的显著性水平”是否置之四海而皆准? 显著性检验用p值来描述样本是否提供了足够证据推翻虚无假设, 但是要证明虚无假设不正确, p值要多大才能令人信服?应用者常会强调10%、5%、1%和0.1%等几个显著性水平, 其中5%尤其常用, 似乎成了一条约定俗成的铁律。正如Rosenthal所言:很多人所受的训练就是不要太仔细看数据。你建立一项假设, 决定用何种统计检验, 然后执行该检验, 如果你的结果达到5%的统计显著性水平,
你的假设就得到支持。否则就往抽屉一塞, 再也不看这些数据[5]。确实如此, 5%似乎成了一个魔术指标, 尤其是论文想发表, 就必须有5%的显著性水平, 这似乎已经成了惯例, 很多学者, 如Cohen[11] 对之提出了置疑和批评, [u]学术界也展开了心理学专业期刊是否应该封杀显著性检验的讨论, 美国心理学会的回应是针对统计推论成立了一个专门的调查委员会, 并发表了《心理学期刊中的统计方法———指导方针与解释》[12] 文, 该报告实际上是如何执行优质的统计工作的大纲。[/u]实际上, 在“显著”和“不显著”之间并没有清楚的界限, 事实上即使有也无法准确找到这一界限, 因为0.049 和0.051 这两个p 值,并没有多少实质的差别。只是在p 值愈来愈小时, 就有越强的证据否定原假设。那么, 该如何妥切的做出统计推论? 以下建议可以参考: ( 1)了解统计显著性意义。( 2) 把p值和样本大小一起报告。( 3) 报告推论的置信区间。只有统计显著性不能得出让人信服的统计推论,[u][b]因此有必要呈现置信区间, [/b][/u]因为置信区间提供的信息较检验多, 置信区间的宽度可以帮助我们把统计显著性的值定位的更准确, 而且置信区间比较容易解释。此外, 适当增加样本数目对置信区间也有很直接的影响, 在同样的置信水平之下区间会更短。
2.3.2 事后解释的谬误
事后解释是典型的方法论谬误, 是指在进行统计分析之前研究者并没有理论假设, 而是根据统计结果生成“理论假设”, 将它作为要检验的假设。事后解释混淆了建立假设与假设检验的区别, 抹煞了数据的探索分析与正式的统计推论的界限。[u][b]在假设检验中刻意寻找显著性是一种典型的事后解释谬误。[/b][/u]举例来讲, 参加干部选拔考试, 有些人最后成功应聘、身居要职, 有些人却无功而返,是什么决定了这两类人不同的命运? 可以找到这些应试者的资料,如他们的个性、目标、大学的表现、家庭背景、嗜好、习惯等。利用统计软件, 可以轻而易举的对这些变量执行多个显著性检验,看哪些变量能够预测未来的成功。结果会发现, 与被淘汰的人比起来, 成功应聘者具有某些良好的背景或心理特征。在这个例子里, 先把“好的”挑出来,然后又去对它做检验, 好像并没有事先把他们挑出来一样, 这样做混淆了数据的探索分析与正式的统计推论二者的区别。
在利用因子分析做研究时亦会犯同样的错误。[u][b]利用同一样本先做探索性因子分析, 根据其结果再做验证性因子分析验证之, 就是一种典型的事后解释。[/b][/u]因为利用同一数据进行假设检验根本不存在可证伪性, 也就是说这种检验永远不会拒绝该假设。当研究者有意识的加以掩饰后这个问题很难从论文中发现。事后解释的谬误不利于真理的发现。要解决这一问题, 不仅要提高研究者的方法论素质, 更需要提高研究者的科研道德水平。
页:
[1]