当前国内期刊上SEM应用中的常见问题（三）

我第一次在国内期刊上看到有关SEM方面的文章好象是1999年前后，十年间，SEM方法早已经充斥各级各类期刊，
仿佛做实证研究不用SEM就算不得上档次，甚至有人将SEM等同于实证研究，呵呵。

SEM在国内的应用，最早应当是从教育心理学起步的，香港中文大学的候杰泰老师每年都象布道一样在国内各大学
讲授SEM的应用，最早听讲的人主要还是教育学或者是心理学领域的研究者，2004年暑假在北师大讲授的时候，好象
80%的听课者都是来自于大学里的教育学院，如果没有记错的话，以管理学院的名义来参加的，可能也就是三四所大学。
在2002-2004年前后，北师大的一些老师甚至是博士生，也逐步开始被国内各大学请去讲授，我记得北师大有一个漂亮的
骆老师，当时她还是博士在读，我就在两个不同的场合听过她的讲解，当然刚开始还是云里雾里，后来熟悉了再回头看当时
的录音和录相，感觉当时的理解力真的有问题，或者说应了那句话“纸上得来终觉浅，绝知此事要躬行”

抛开教育心理学领域的研究者不谈，管理领域中较早开始应用SEM方法的，清华、西交大、人大等高校算是比较靠前
的一批，连续几期暑假学校无疑极大地推动了SEM方法在国内管理学界的应用。记得2002年的时候，一个博士论文用
一个普通的SEM模型，就感觉很震撼，哪里会想到现在就连硕士论文里，也开始讨论中介效应、调节变量、数据分层了。

  然而，随着越来越多的人的应用，SEM方法也开始由生到熟，并由熟到烂。尽管从整体来看，应用SEM的文章的质量在
不断提高，但是可能是由于总量太多的原因，也越来越多地发现数据造假、数据错误甚至是自相矛盾的情况，其中不乏
一流的期刊。

考虑到国内学术生态的现状，以及从推动规范的实证研究范式在国内应用的角度，我们对关于SEM应用中的
种种问题需要予以谅解，当然有意的学术造假除外，抛弃学术道德的伪造数据甚至篡改结果，不但是对科学研究
的不尊重，也是对调查问卷的受访者不尊重。前两天，韩国的某著名科学家被判入狱，这应当是一个很好的警示。
以下，结合我的一点经验，大致讲讲国内期刊在SEM应用上的一些问题或者是不足。这其中不涉及具体的文章，
也不涉及具体的杂志，当然更不可能涉及到具体的作者，大家也不要对号入座。我也尽量把自己知道的都写上，
但是不保证会写完，呵呵，我不是一个有耐心的人。
需要指出的是，考虑到人大经济论坛在国内学术圈的地位，这其中牛人很多，统计学的泰山北斗可能也随时会
寄情于此，所以我的一点浅见，难免会让大家耻笑。因此特意注册了一个新ID，牛人们如果认为我错了，也可以
随时指正，共同提高才是我发本贴的终极目标。
以下可能涉及的方面包括：
(1)关于问卷调查的样本量，潜变量题项的数量
(2)大与小的模型与合适与否的模型
(3)统计显著的含义
(4)论文中应当给出的统计结果
(5)模型如何解释，什么算是过度解释
(6)数据的正态性是否是必要的
(7)为什么SEM有助于将问卷调查研究变成伪科学
(8)怎样判断一篇文章是否伪造了数据
(9)关于提高学术文章质量的一点想法
本文来自: 人大经济论坛详细出处参考：http://bbs.pinggu.org/viewthread.php?tid=595308&page=1&from^^uid=413659

btw:
(1) 由于有些资料在家里，如果引用的地方有错，我会在确认后修改
(2) 刚才有朋友在QQ上给我说：不能带坏年轻人。呵呵，所以尽管我看到了许多不好的做法，但是我想还是不要在这里把这些不好的方法公开吧。但是如果不公开呢，又确实对国内期刊上某些人的做法表示气愤，纠结中
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
（1）关于问卷调查的样本量
教育科学出版社出了候杰泰的一本书，上面关于样本量有较为详细的说法，但是至于究竟多大的样本才是合适的并没有给出定论，只是列举了许多学者的观点，有说>150，有说200起步的，也有说500以上，甚至是1000也不算多的。其实，侯老师没有给出定论是对的，模型不同，所需要的样本容量肯定是不同的。由于SEM脱胎于线性回归，是路径分析和因子分析的联合体，因此我们可以从上面这些方法中寻找理论依据。

共所周知，线性回归要求：基本要求的样本容量，一般经验认为：n ≥ 3(k+1)才能满足模型估计的基本要求。 n ≥ 3(k+1)时，t分布才稳定，检验才较为有效.  其中K是检验变量的个数。由于SEM模型中，需要估计的变量的个数与潜变量（观测变量）的个数以及路径系数的多少有关，对于一个内生潜变量一个外生潜变量的全模型来说，如果每个潜变量包括三个观测变量，那么需要估计的变量个数大约是13个（6个载荷系数，6个残差，1个路径系数），这样就需要至少40个样本量。对于一个最简单的模型都是这样，就更不用说再复杂的全模型了。
因此我的观点：
（1）样本容量是根据模型的复杂程度来定的，原则上不能低于待估计变量的2倍，或者是观测变量的8到10倍；否则模型要么不收敛（协方差矩阵不正定），要么得出的参数不稳定（由于我们在论文中仅呈现一个模型输出结果，因此很多人对于“参数不稳定”没有概念）。我曾经见到过只用42个企业样本做SEM模型的文章，发表在2004年的某学报上，我很奇怪他的模型居然能收敛。
（2）在人力物力可能的情况下，收集尽可能多的样本是值得的。样本容量越大，在做数据清洗和模型修正时将会有更大的余地。如果你够狠，可以收集到的样本量够多，你甚至还可以数据分组，从而发现更多的创新点。
（3）很多人样本容量不够，就用当前的样本容量计算出一个协方差矩阵，然后在程序中修改样本容量，原来是100的，改成300。这种事情我听过好几次，应当还有人在继续做。其中有什么坏处，呵呵，在这里我就不讲了，反正是某个参数下降，然后在论文中没有胆量报告，或者干脆修改输出结果。
本文来自: 人大经济论坛详细出处参考：http://bbs.pinggu.org/viewthread.php?tid=595361&page=1&from^^uid=413659

（2）观测变量的个数问题
通常认为，观测变量不宜太多，当然也不宜太少，推荐是3-5个。但是具体的原因是什么，许多书籍对此都语焉不详。
事实上，与样本容量相同，观测变量当然是越多越好，潜变量对应的观测变量越多，说明对潜变量的描述越全面，
然而，观测变量越多，模型就越复杂，通过检验的可能性就变差，同时对样本容量的要求也越高，在客观上增加了
调研的难度。
   由于SEM要求变量服从多元正态分布，所谓多元正态分布，并不是每个变量都服从正态分布就可以了。每个变量都服从
正态分布，并不保证整体服从多元正态分布。但是在单个变量都服从正态分布的情况下，变量越多，整体服从多元正态分布的
可能性就越高，因此从这个意义上来讲，当然是观测变量越多越好。
在实践操作中，观测变量多，模型操作的余地就比较大。通常一个潜变量对应的若干观测变量在经历了信度、效度（汇聚、区分）
正态性等等前测后，总会有一些观测变量会被删除，如果自己的观测变量少于3个，这种删除变量提高模型质量的做法就很难进行。
我个人认为，问卷调查时，观测变量不得少于5个，以6-8个为佳，在完成数据前测之后，至少要有5个变量。事实上，观测变量
多了总比少了强，多了可以删，少了可就难办了。
当然，对于以量表形式测量的潜变量来说，即使很简单的量表，通常也有5个以上的题项。但是对于一些没有成熟量表的概念来说，
创造出6-8个题来测量还真不是一件容易的事情。这时候，就要用到心理测量的知识和方法了，此处不予赘述。
需要指出的是，在保证题项多于3个的基础上，还要保证题项的平衡，即模型中，不同潜变量对应的观测变量的个数最好比较接近，
如果相关太多，会影响模型的质量和稳定性。
有不少文章中，一个潜变量只有两个变量，甚至只有一个观测变量，这是肯定不可以的。侯杰泰的书上详细说明了对于单变量的潜变量
在处理时，要注意的一些问题。不难看出，由于需要指定部分载荷系数，因此模型的可信度将受到影响。
题项太多了怎么办，这又是另外一个问题：题项合并，这个我在后面会予以说明
我的QQ：99847730，欢迎交流，批评指正
本文来自: 人大经济论坛详细出处参考：http://bbs.pinggu.org/viewthread.php?tid=597048&page=1&from^^uid=413659

按：原来以为这个系列贴会有比较多的人关注，现在看来看的人不多，回复的就更少了，呵呵，有点失望
如果有人愿意做更深次的讨论的话，可以联系我
QQ：99847730
Email: tozhouyy@126.com
（３）模型的大小与合适的模型
　　尽管已经有越来越多的人认识到，ＳＥＭ只是一个工具，应用时相关实证模型的理论基础才是最重要的。但是在国内期刊的
论文中，还是明显能够看到为应用而应用的情况。就好象前面有一个帖子问“SEM能够用于面板数据”，先不说能用不能用，单
就是这种思路就有问题，如果论文中应用的是面板数据，当然应当是问“面板数据用什么方法来求解比较科学”。为数据找科学
的方法，而不是因为熟悉了一个方法，就想尽办法来应用它。
      实证研究中，永远都是理论是第一位的，逻辑推理是第二位的，模型构建是第三位的，统计方法是最末位的。
      用过线性回归的朋友都有过这样的印象，同样的数据，如果一次列入比较多的自变量，模型通过的可能性就会比较低，如果
列入的变量比较少，甚至只有单自变量，则能够通过检验的可能性大大增加。对于SEM来说，同样存在这样的问题。
   经常有人问我：我的模型（假设）通不过检验怎么办？我答：把模型做简单点。也许这是唯一简捷的方法。不可否认，一个复杂
的模型确实很有震撼力，但是面对一堆较低的指标，通常也是很尴尬的事情。
   然而，我的意思并不是让大家都做简单的模型。相反，在大的模型能够通过检验的情况下，尽量还是用大的模型。大的模型包含了
多的潜变量，它相当于把所有的研究变量纳入一个系统中研究，而如果拆分成一个个小的模型，只能研究在不考虑其他变量的情况下，
小的模型中所涉及到的变量之间的关系。
   一个不得不面对的问题是：一个假设，如果放在大模型中检验，结果显示通不过，但是放到小模型中检验，却通过了。我们该相信谁？
   我的观点：如果理论支持复杂的模型，我们就应当以大模型的结果为准。而如果你想创新理论，则不妨先从小一点的模型做起，再逐步
放大模型的规模。
   那么，什么是“合适的模型”。一个合适的模型，至少应当满足以下条件：
（1）模型的建立有明确的理论支持；
（2）模型中的变量应当包括该研究中大多数变量；
（3）模型所涉及到的“边界”是清晰的（什么是模型的边界，这是个很抽象的概念，大家意会吧）
（4）模型中的假设应当有超过一半是显著的（否则你的理论肯定是有问题，或者模型的边界不够清晰，比如你把一些关系不大的变量也纳入模型中了）
（5）模型的输出结果是可解释的，即使是未通过检验的假设，也有尽可能合理的解释。
   颇为遗憾的是，在许多论文中，我们只能看到作者呈现的最终结果，至于模型被检验、甚至是被修正的过程，限于篇幅或者其它众所周知的原因，都
没有报告，我们无法判断模型是否是合适的，有时甚至难以判断模型是否是“边界清晰”的。有的作者甚至只呈现出一个输出结果，连这个输出结果是
用“大”模型还是“小”模型输出的，都没有办法判断。
   还有一些作者，在学位论文中，用了一个大的模型，然后把这个大模型分拆成若干个小的模型，分别发表出来，有时路径系数甚至都是相同的，呵呵
还有一些更夸张的做法：比如假设是一条一条验证的，然后自己手绘一个SEM模型图，把一条一条验证的结果同时绘在这张图上。
   对于大模型与小模型的检验结果相矛盾这个问题上，我想值得统计学家来研究一下。以上我的想法仅供大家参考，谢谢
本文来自: 人大经济论坛详细出处参考：http://bbs.pinggu.org/viewthread.php?tid=598023&page=1&from^^uid=413659

（4）统计显著的意义
   统计显著，实证研究不得不面对的一个问题，也是许多研究者一直努力想得到的东西。由理论分析提出了一个好的假设，通过辛苦努力得到了足够数量的样本，然而最后检验的结果却是“不显著”，望着SEM图上的红色，我相信许多人都有被人“当头一棒”的感觉，说“日月无光、天地变色”有点儿严重，但是心情低落那是肯定的。
   实证研究中的显著性水平一般有三个（0.05、0.01、0.005），当然也有到0.1或者0.001的，但是最常见的也就是前两个，其中尤其以0.05的显著性水平是用得最多的。在SEM的模型检验中，用得最多的是T检验，众所周知，由于T检验对于自由度来说并不太敏感，当自由度在30以上时，t的临界值（双侧）在2左右，当自由度趋向无穷时，t的临界值（双侧）在1.96，也差不多是2。因此实际上我们辛辛苦苦做调研，做统计分析，都是为的这个“2“。所以我的一个爱开玩笑的朋友笑称：“确实我们的努力目标都是2“，呵呵
   不开玩笑，我们来看看统计显著的意义。由于T检验是SEM当中最重要的检验，因此我们这里只分析T值，学过统计学的同学都知道，T值是拟合参数与标准差的比值，举个例子：  某载荷系数是1.033    标准差是0.068，T值是15.307。---------我曾经看过不止一篇论文，其中标记的载荷系数、标准差与T值居然没有任何关系，呵呵---------再次提醒，我不是教大家造假，关于如何辨别伪造的数据，我后面会多少讲一些辨别的方法。
   那么，如果某条路径没有通过检验，那么是不是就一无是处呢？或者反过来，如果一条路径通过了检验，那么是不是就值得欢呼雀跃呢？
   首先，我们来看一看统计显著的定义是什么，讲到统计显著，就不得不提到假设检验，正是有了假设检验，才有了显著性。在假设检验时，我们总会设定一个零假设H0对照，在T检验中，我们通常设计的H0是：两个变量没有关系（类似的表达），然后由此进行计算，结果发现如果按照两个变量没有关系去推，会产生矛盾，由此来否定H0，于是就说明两个变量之间有关系。这实际上是一种反证法的思路。
   如果我不是在偷换概念的话，上面的表述是不是可以简化成为：所谓显著性，是跟“完全没有关系”在比较，是显著的。就好象我有1000，钱虽然不多，但是如果跟路边的乞丐去比的话，我还是算一个“显著的”富人。
   我想我是讲清楚了。统计意义上的显著，从实证的角度来看，只是一个较低的要求，因为这里的显著，是跟“完全没有关系”的标准在比较。而真正意义上的显著，是要追求“可解释”。这才是我的观点。
   举例来说，如果你的路径系数为0.10，如果标准差足够小（例如为0.05），这样你的T值是2,是显著的，但是，这0.1的路径系数，是不是值得你去大书特书？是不是值得你去欢呼雀跃？你有没有能力去解释两个变量之间0.1的路径背后隐藏的理论和实践依据？
   一个在相关分析中经常听到的标准可以作为辅助材料来理解我的观点。通常认为0.7以上的相关系数为强相关，0.3-0.7为中等相关，0.3以下为弱相关。事实上，对于0.3以下的相关系数，通常也能够通过检验，但是我们实在难以解释0.3以下的相关系数能有什么意义。（A与B相关系数为0.7，只代表彼此能够解释对方49%的信息，如果为0.3的相关系数，由只能解释对方9%的信息，这样的相关系数要它何用？）
   现在再来回答上面问题的另一半：如果路径系数通不过检验，该怎么办？如果你的路径系数足够大，但是t值太低以至于通不过检验，那么显然，路径系数对应的标准差太大了，这时降低标准差通常可以提高t值。如何提高t值？
   呵呵，标准差太大，意味着什么？显然是涉及到的潜变量对应的观测变量离散性大，它等价于，不同受访者对同一问题的看法差异明显，它又等价于，受访者身份有可能是一个调节变量，它又等价于，你或许可以做模型分组（当然样本容量要足够大），它又造价于，你可能要有一个全新的发现。好了，一个新的创新点出台了，论文的亮点又多了一个。
   以上分析，我来总结一个我的观点：
（1）统计显著只是一个较低的要求，通过了应当考虑如何解释，通不过可能说明其中包含创新点；
（2）无论何时，不要数据造假，因为你可能失去了一个很重要的发现，也许这个发现将会以你的名字命名；
（3）数据是死的，理论和逻辑推理才是鲜活的。
（4）最后一点，我不是学统计的，上面的观点请统计大牛来进行更严密的解释。
谢谢！
本文来自: 人大经济论坛详细出处参考：http://bbs.pinggu.org/viewthread.php?tid=600663&page=1&from^^uid=413659