如何处理SEM模型中的“坏”因子?
转自竹家庄:[url]http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!1383.entry[/url]我是X大学心理系的学生,目前在美国Y校访问。最近在处理数据时遇到问题不知该如何解决,之前在您的网页上冒昧向您请教过,非常感谢您当时的回复。我后来找了一些相关的文献看,知道了多组比较的大概步骤,但在统计中又遇到了新的问题,所以再次向您请教。谢谢您关注我的邮件!
我探讨的是暴力游戏对青少年攻击性影响的性别与年龄差异。研究变量包括: [list][*]自变量:玩暴力游戏的程度(VVG -- 庄主注,下同)[*]因变量:身体攻击(Physical Aggression)[*]中介变量:信念(Belief about Aggression)、期望(Hostile Expectation)、移情(Empathy)[*]调节变量:性别、年龄[/list]
因此我把全部被试(795人)按年级和性别分成六个组,每组100多人,想比较不同性别、不同年龄孩子模型的路径差异(庄主注:这应该是一个moderated mediation模型,对此有兴趣的读者请仔细理解本案例的模型设置及有关讨论)。
比较结构模型前,为了确定测量等同(measurement invariance -- 庄主注),我分别对信念、移情和身体攻击这三个潜变量进行了单组和多组的CFA。以因素负荷相等(factor loadings invariant -- 庄主注)为标准,最后确定了5项目的信念、5项目的身体攻击及12项目的移情测量,能够满足跨组测量等同。信念和身体攻击是完全等同,两个移情项目虽不等同,但考虑到12题中只有两题不等同,所以认为部分等同也能允许进入结构模型的比较。
上面我所提及的CFA是分别针对每一个变量(庄主注:应该是factor吧?)进行的。但当我把所有变量(庄主注:也是factors吧?)都整合到一个模型后发现,六组都不能很好地拟合总模型。我看了修正指数(modification index或MI -- 庄主注),发现问题主要出在移情这个变量上。在前面的测量等同阶段,我删掉了16个移情项目,保留了12个项目,这12个项目分属5个因子。在结构模型中,我把这个5个因子作为移情的指标(庄主注:Empathy成了一个second-order factor?),但发现指标间及指标与其他变量还存在复杂的关系,这导致了模型不能较好拟合。
我又尝试了很多次,尝试找到一个移情的测量模型(measurement model -- 庄主注),无论是单个变量的单组及多组CFA,还是放到总模型中时,都能拟合六组数据,但徒劳无功。
如果把所有变量都当成显变量,那模型都能拟合得很好。但我能这样做吗?如果把所有变量当成显变量来处理的话,那前面的测量等同检验是否还有必要?
我实在不知道该如何考虑和继续,所以冒昧请教,请您给予我指导,非常感谢!
附件的图是我在确定了各组的测量等同后,用总数据做的模型。我担心我说得不清楚,可能看看模型会有帮助。再次感谢!
[url=https://ccf7pg.bay.livefilestore.com/y1mM6qWzU5QtNJgiJo7Fc99JaCbOwa1FD6NTOdFalgpPqV97KHyQ40jT_vtvCsyz0N1QabYCuhaF3m-ewtlI0_lfXe3hqMUBWnyvP7zZlmywCiH_E_bwUwECwd7EAooDn6YUarAOvHquSFVCMbTEQmj-Q/clip_image0026%2011E43B47.jpg?download&psid=1][img=0,264]https://ccf7pg.bay.livefilestore.com/y1myXvOLryyYciDjwct7xjAZ_Z7IxHBDYtEjPsfG4GEVRvvm-rMuj0reQa_N6b2KTdIBo2Af-BKhCYgw62cToSBli0AXahzuhJu4G6p-GPEYV5uSn1BOYhaSIc60-8dztl18qnTTv9H3_6W9WUyfnCLIg/clip_image002_thumb3%2078986FA7.jpg?download&psid=1[/img][/url] [p=30, 2, center][i]X2[/i](114) = 411.1, [i]p [/i]< .001, [i]RMSEA [/i]= .06, [i]NNFI [/i]= .90, [i]CFI [/i]= .91[/p] [p=30, 2, center][i]Note:[/i] Unstandardized coefficients are provided first, with standardized coefficients in parentheses. All paths are significant.[/p] [p=30, 2, left]SJ @ 2010-05-21:[/p] [p=30, 2, left]在等待您的回复之余,我这几天仍然在尝试寻找拟合潜变量的总模型,但可恨NNFI仍徘徊在0.8几(如果拟合很差我也就放弃了)。我发现问题在于移情量表。因为当我把三个潜变量当中的移情视为显变量,保留攻击与信念作为潜变量时,模型的拟合是可以的。移情的四个子量表之间有复杂的关系,而这不是我这个研究想关注的问题。我该如何处理呢?[/p] [p=30, 2, left]庄主 @ 2010-06-13:[/p] [p=30, 2, left]正如我在你上面叙述中加注所说,你想研究的是一个moderated mediation (“被调节的中介效应”?) 模型。虽然这种模型有点复杂,但是你遇到的三个问题(见下),却是在其它各种模型中也经常会出现。[/p] [p=30, 2, left]一、为何你对三个中介变量分别做CFA时各自都拟合得很好,但当将三个因子合在一起做CFA时却拟合不好?这很常见。一般而言,单个因子CFA(即只有一个因子的模型)非但没有意义、而且富有误导性。实际研究中,最简单的模型至少也有两个因子。而拟合任何一个多因子模型,则不但需要每个因子内部的测量指标之间高度相关,而且需要各因子之间的测量指标基本独立(见下图a)。而如果数据是下图b那样,则会出现单因子模型拟合很好而多因子模型拟合不好的现象。在本例中,如果分别拟合X1-X3和Y1-Y3,会得到两个很完美的模型,但那是假象,X1-X3和Y1-Y3实际上应该同时属于一个因子。[/p] [p=30, 2, left][url=https://ccf7pg.bay.livefilestore.com/y1m0GxuHf7t9bCWpMOI1iUnySKQ3s1anQuU-g5b0_XA10go5uF2TtCWQNU8r3wDfsfuuGUIQvdIoIsbj9NzwhKcYNJFLTlTQlq-yNfHyXmXCVI0ab_I9xRkAcbcAN8y6xrWJdWeVdFgthvC8sulenFU0w/image%5B9%5D.png?download&psid=1][img=0,480]https://ccf7pg.bay.livefilestore.com/y1mKDWrfgbWGl36GKZho9adeba7ASL4nsB4xy_Q17qR112CQSYR6qm1yZNg8sf6sEtFgGqjfKQC6RCbBFkblYXTNmnWy_NWsxgQ5vdA2v9aV_NzaQ5oGCrv_VS6MoxtGK6h481zfvhGnCtUWTM0J-rUvg/image_thumb%5B5%5D.png?download&psid=1[/img][/url] 二、为何总样本的拟合度要比六个分样本的拟合度好?你没有这么说,而是我从你提供的总样本模型拟合度(应该是勉强可以接受)和对分样本结果的叙述(如“六组都不能很好地拟合总模型”和“NNFI仍徘徊在0.8”等)中推出。这应该与你的分组样本过小有关。如你所说,每个分样本100余人,而每个模型含30来个测量指标((= 22个中介变量指标 + ?个自变量指标 + ?个因变量指标)。计算样本量是否足够的一种快捷方法(不一定精确但大体上可靠)是样本量除以测量指标数。文献中最宽松的说法是应该大于10(我倾向于更大一些)。而你这里只有4-5之间。样本小的一个直接结果是指标之间的相关程度不稳定(可以更高或更低)。回到上图,总样本容易接近a,而分样本则难。这里不怕因子内部相关程度变低,而是拍因子之间相关程度变高。[/p] [p=30, 2, left]改进的方法包括:增加样本(你大概做不到);减少分组(如两个年龄组 X 两个性别组 = 4);减小测量指标数(尤其是“移情”用了12个指标,有必要那么多吗?)等。[/p] [p=30, 2, left]三、“移情”是个“坏”因子,是否可以将其12个测量指标直接进入模型(即你说的“显变量”)?如果为了提高拟合度,当然可以这么做。但是,这在理论和统计上都是下策。首先,显变量都是含测量误差的;其次,一个含12个显变量作为中介变量的模型是无比复杂;再次,部分(或很多)显变量之间会有共线性问题;等等。所以,你得到了模型拟合度的改进,但失去了更多。[/p] [p=30, 2, left]我并不了解你的“移情”量表之来历,估计是个已被前人验证的成熟(?)工具。如此,为何在本案中成为“搞坏了一锅汤的老鼠屎”呢?也许是问卷翻译的问题?或是被测对象的不同(文献中的移情是用于儿童的吗)?还是加在其它问题之后(?)产生的副作用?等等。可能有很多种原因。你说移情不是你本研究想关注的问题。但是,如果该因子的测量模型太有问题,那么,你只能在整体删去这个因子和显变量处理之间做出痛苦的选择。如果是我,会选择前者。[/p]
页:
[1]