SEM的概念
結構方程模型(Structural Equation Modeling,簡稱SEM)是基于多元統計分析技術的研究方法,用以處理復雜的多變量數據的探究與分析研究。
在社會科學以及經濟、管理、市場等研究領域,有時需要處理多個原因、多個結果的關系,或者會碰到不可直接觀測的變量(即潛變量),這些都是傳統的統計方法不易解決的問題。20世紀80年代以來,結構方程分析迅速發展,彌補了傳統統計方法的不足,成為多元統計分析的重要工具。
SEM的來源
從發展歷史來看,結構方程模式的起源甚早,但其核心概念在1970年代初期才被相關學者專家提出,到了1980年代末期即有快速的發展;旧,結構方程模式的概念與70年代主要高等統計技術的發展(如因素分析)有著相當密切的關系,隨著計算機的普及與功能的不斷提升,一些學者(如 Keesing, 1972; Wiley,1973)將因子分析、路徑分析等統計概念整合,結合計算機的分析技術,提出了結構方程模型的初步概念,可以說是結構方程模型的先驅者。而后J?reskog與其同事S?rbom進一步發展矩陣模式的分析技術來處理共變結構的分析問題,提出測量模型與結構模型的概念,并納入其LISREL之中,積極促成了結構方程模式的發展。
從統計學與方法學的發展脈絡來看,結構方程模式并不是一個嶄新的技術,而是因子分析(factor analysis)與路徑分析(path analysis)兩種在社會與行為科學非常重要的統計技術的結合體。相對于這兩大分析技術的發展軌跡,Kaplan(2000)指出SEM的歷史根源系來自兩個重要的計量學科:心理計量學與經濟計量學,這兩個學術領域對于SEM的發展有著重要的影響。
心理計量學:
Spearman認為,人類心智能力測驗得分之間的相互關系,可以被視為是由這些分數背后所具有的一個潛的共同因素(common factor)的影響結果。
Thurston認為,在復雜的智力測量背后,應該存在著不同且獨立的一組共同因素,他稱之為核心心智能力(primary mental abilities),由于這一組共同因素的存在,構成了智力測驗得分的復雜關系。研究者必須找出這些因素,才能利用此一因素結構來對智力測驗得分之間的共變(協方差)關系,得到最理想的解釋,得出最大的解釋力。
經濟計量學:
Haavelmo在1943年利用一系列的聯立方程式(simultaneous equation)來探討經濟學變量的相互關系 ,是為經濟計量學中的聯立方程模型。聯立方程模型分析雖然可以用來探討復雜變量的關系,對于總體經濟現象的解釋有其效力,但是它所遭到的最大批評在于無法針對特定的經濟現象進行精確有效的時間序列性預測。
SEM應用軟件包: LISREL、AMOS、EQS、MPLUS、CALIS、RAMONA等。
SEM的特點:
理論先驗性;
同時處理測量與分析問題;
以協方差的應用為核心;
適用大樣本分析。
SEM基本模型
簡單來說,SEM可分測量方程(measurement equation)和結構方程(structural equation)兩部分。測量方程描述潛變量與指標之間的關系,如家庭收入指標等社會經濟地位的關系、三科成績與學業成就的關系。而結構方程則描述潛變量之間的關系,如社會經濟地位與學業成就的關系。
測量模型:對于指標與潛變量(例如六個社會經濟指標與社會經濟地位)間的關系,通常寫成如下測量方程:
x=Λxξ+δ
y=Λyη+ε
x,y是外源(如六項社經指標)及內生(如中、英、數成績)指標。δ,ε是X,Y測量上的誤差。
Λx是x指標與ξ潛變量的關系(如六項社會經濟地位指標與潛社會經濟地位的關系)。Λy是y指標與η潛變量的關系(如中、英、數成績與學業成就間關系)。
Measurement Model測量模型
SEM路徑圖常用圖標的含義:
圓或橢圓表示潛變量或因子;
正方形或長方形表示觀測變量或指標;
單向肩頭表示單向影響或效應;
雙向弧形箭頭表示相關;
單向箭頭指向因子表示內生潛變量未被解釋的部分(即殘差項);
單向箭頭指向指標表示測量誤差。
Path Model 結構模型
結構模型:指標(外顯變量)含有隨機(或系統)性的測量誤差,但潛變量則不含這些部份。SEM可用以下結構方程表示潛變量之間的關系(例如社會經濟地位與學業成就的關系):
η=Bη+Γξ+ζ
潛變量之間的關系,即結構模型,通常是研究的重點。
η——內生(依變)潛變量(如學業成就)
ξ——外源(自變)潛變量(如社會經濟地位)
B——內生潛變量間的關系(如學業成績與其他內生潛變量的關系)
г——外源潛變量對內生潛變量的影響(如社會經濟地位對學業成就的影響)
ζ——結構方程的殘差項,反映了η在方程中未能被解釋的部分。
SEM分析的基本步驟
SEM分析的基本步驟可以分為(概念)模型發展與模型估計修正兩個階段。前者在發展SEM分析的原理基礎上并使SEM模型符合特定的技術要求,此時研究者的主要工作在概念推導與SEM分析的技術原理的考慮;后者則是產生SEM的計量數據來評估SEM模型的優劣好壞,并進行適當或必要的修正,此時所著重的是分析工具與統計軟件(例如LISREL、EQS、AMOS、MPLUS等)的操作與應用。
概念模型發展:
理論性發展:以理論為基礎,經過觀念的厘清、文獻整理與推導、或是研究假設的發展等理論性的辯證與演繹過程,最終提出一套有待檢證的假設模型。
模型設定:發展可供SEM進行檢驗與估計的變量關系與假設模型。模型設定的具體產品,是建立一個SEM路徑圖。
模型識別:只有在模型符合統計分析與軟件執行的要求,也就是在能夠被有效識別的情況下,SEM分析才能順利進行。
模型估計修正:
抽樣與測量;參數估計;擬合檢查;模型修正;討論與結論。
A review of Steps in SEM
Step 1: Developing a theoretically based model (基于理論提出一個或多個基本模型)
Step 2: Constructing a path diagram of causal relationships
Step 3: Converting the path diagram into a set of structural equations and specifying the measurement model.
Step 4: Estimating the proposed model
Step 5: Evaluating goodness-of-fit (擬合程度) criteria
Step 6: Interpreting and modifying the model
SEM與回歸分析的區別
1、與傳統的回歸分析不同,結構方程分析能同時處理多個因變量。
2、同時,回歸分析假設自變量為確定、非隨機的,即自變量是沒有測量誤差的,而SEM卻沒有這樣的嚴格假設。
3、若各因子可以直接測量(因子本身就是指標),則結構方程模型就是回歸分析。
SEM與傳統因子分析的不同
1、若不考慮因子間的因果關系,即沒有結構模型這部分,則結構方程模型就是傳統的探索性因子分析。
2、與傳統的探索性因子分析不同,在結構方程模型中,我們可提出一個特定的因子結構,并檢驗它是否吻合數據(即驗證性因子分析)。
探索性因子分析 VS. 驗證性因子分析
相同點:
相同點:兩種因子分析都是以普通因子模型為基礎的。因子分析的基本思想是通過變量的相關系數矩陣內部結構的研究,找出能控制所有變量的少數幾個隨機變量去描述多個變量之間的相關關系,但在這里,這少數幾個隨機變量是不可觀測的,通常稱為因子。然后根據相關性的大小把變量分組,使得同組內的變量之間相關性較高,但不同組的變量相關性較低。
不同點:
基本思想的差異:探索性因子分析是在一張白紙上作圖,而驗證性因子分析是在一張有框架的圖上完善和修改。是否利用了先驗信息?探索性因子分析主要是為了找出影響觀測變量的因子個數,以及各個因子和各個觀測變量之間的相關程度;而驗證性因子分析的主要目的是決定事前定義因子的模型擬合實際數據的能力。驗證性因子分析要求事先假設因子結構,我們要做的是檢驗它是否與觀測數據一致。
分析方法的差異:驗證性因子分析是結構方程模型中的一項基本而重要的內容。探索性因子分析——傳統因子分析(管理統計中已講)。主要步驟包括:收集觀測變量、獲得協方差矩陣(或相關系數矩陣) 、提取因子 、因子旋轉 、解釋因子結構 、計算因子得分 ;驗證性因子分析。主要步驟包括:定義因子模型(選擇因子個數和定義因子載荷 ) 、收集觀測值 、獲得相關系數矩陣、根據數據擬合模型、評價模型是否恰當、與其他模型比較 。
SEM優點
同時處理多個因變量
容許自變量與因變量含測量誤差
同時估計因子結構和因子關系
容許更大彈性的測量模型
SEM應用的主要類型
Joreskog & Sorbom(1996)指出SEM的模塊化應用策略有三個層次,第一是單純的驗證(confirmatory),也就是針對單一的先驗假設模型,評估其適切性,稱為驗證型研究;第二是模型的產生(model generation),其程序是先設定一個起始模型,在與實際觀察數據進行比較之后,進行必要的修正,反復進行估計的程序以得到最佳契合的模型,稱為產生型研究;第三是替代模型的競爭比較,以決定何者最能反應真實資料,稱為競爭型研究。
Maccallum & Austin(2000)從文獻整理中發現,以單純的驗證與模型產生為目的SEM研究約占20%與25%,涉及競爭比較的SEM研究則有55%。
擬合的概念
當我們測試某一模型時,其實我們在研究自己所提的模型(即哪些變量之間有關,哪些則沒有),是否與數據擬合。
SEM所輸入的是指標變量的樣本協方差矩陣(S, sample covariance matrix),而依我們指定先驗(a priori)模式(或稱概念模型),計算出一個最佳的衍生矩陣(∑, reproduced/fitted covariance matrix); S與∑接近,則表示我們建議的模型成立,若S與∑差異大,則表示模型與數據不符。
擬合優度
擬合優度統計量(goodness of fit statistics)反映S與∑間的差異。
擬合優度指數(CFI)是用于反映E與S差異的一個總指標。當該指數愈接近1,吻合愈好;指數愈小,則表示吻合愈差。
另外,常用的擬合優度指數還有χ2(越小越好)、NNFI(越接近于1越好)。
簡單即最好:一個好的模型是既簡單又吻合數據的
我們追求的是既簡單又擬合得好的模型。
“簡單”體現在自由度,模型越簡單,要估計的參數越少,自由度越多。
“擬合得好”體現在前面所講的擬和優度指數。