統計社会学における構造方程式モデリングの応用:測定、構造、および成長プロセスの分析
はじめに
統計社会学において、観測されたデータから直接観測できない潜在的な構成概念を捉え、それらの間の複雑な関係性を分析することは極めて重要です。個人の態度や価値観、社会集団の規範、地域社会の連帯感など、多くの社会学的関心対象は潜在的な性質を持つため、これらを適切にモデリングし、その構造や時間的変化を分析するための統計的手法が求められます。構造方程式モデリング(Structural Equation Modeling: SEM)は、このような要求に応える強力かつ柔軟な枠組みを提供します。SEMは、確認的因子分析(Confirmatory Factor Analysis: CFA)とパス解析(Path Analysis)を統合した、あるいはそれらを拡張したより一般的な手法と位置づけることができます。単回帰や重回帰分析、ANOVAといった一般的な線形モデルでは捉えきれない、測定誤差を考慮した潜在変数間の関係性や、複雑な因果連鎖、複数の変数の同時決定などをモデリングすることを可能にします。
本稿では、統計社会学研究においてSEMがどのように活用されているのか、特に測定モデル、構造モデル、そして縦断データ分析における成長曲線モデルへの応用を中心に解説します。また、経験豊富な研究者がSEMをより深く活用するための、応用上の課題や高度な解析手法についても触れます。
構造方程式モデリングの基本的枠組み
SEMは、観測変数と潜在変数、そしてそれらの間の関係性をパス図(path diagram)として視覚的に表現し、統計的に分析する手法です。モデルは通常、以下の2つのサブモデルから構成されます。
- 測定モデル(Measurement Model): 観測変数(または指標変数)がどのように潜在変数に対応しているかを記述するモデルです。具体的には、確認的因子分析(CFA)の形式をとることが多く、個々の観測変数がどの潜在変数(因子)によって説明されるか、その負荷(因子負荷量)はどの程度か、そして測定誤差はどの程度かなどを分析します。社会学における構成概念(例: 社会階層、政治的態度、教育達成度など)が、複数の調査項目や既存のデータによって適切に測定されているかを確認する際に不可欠です。
- 構造モデル(Structural Model): 潜在変数間、あるいは潜在変数と観測変数間、観測変数間における回帰的(予測的)または非回帰的(相関的)な関係性を記述するモデルです。社会学的な理論に基づいた因果関係や相関関係の仮説を検証する中心部分となります。例えば、「教育達成が職業威信に影響を与え、それが所得に影響する」といった多段階的な関係性を潜在変数レベルでモデリングすることが可能です。
SEMの分析は、通常、想定するモデルから導かれる共分散行列と、観測データから計算される共分散行列との間の乖離を最小化するようなモデルパラメータ(パス係数、因子負荷量、誤差分散など)を推定し、モデル全体のデータへの適合度を評価するという手順で行われます。
測定モデルと確認的因子分析(CFA)
社会学研究において、潜在的な構成概念の測定は常に重要な課題です。複数の指標を用いて一つの潜在概念を捉えようとする際、これらの指標が本当に同じ概念を測定しているのか、また測定は異なる集団や時点間で不変であるのかを検証する必要があります。確認的因子分析(CFA)は、この目的に特化したSEMのサブモデルです。
CFAでは、研究者が事前に理論に基づいて、どの観測変数がどの潜在変数を反映しているかを指定します。そして、データを用いてその指定された因子構造がデータにどの程度適合しているか、個々の観測変数が潜在変数にどの程度貢献しているか(因子負荷量)、そして測定誤差はどの程度かを推定します。
測定不変性(Measurement Invariance)の検証
異なる集団(例: 男女、異なる世代、異なる文化圏)や異なる時点(例: パネルデータにおける時点1と時点2)で構成概念間の関係性を比較する際、その前提として構成概念の測定がこれらの集団や時点間で「不変」である必要があります。測定が不変でない場合、観察された群間差や時間的変化は、構成概念そのものの違いではなく、測定方法の違いに起因する可能性があります。
測定不変性の検証は、段階的なモデル比較を通じて行われます。一般的な検証の階層は以下のようになります。
- 設定不変性(Configural Invariance): 各集団/時点で同じ観測変数が同じ潜在変数を反映している(因子構造が同じである)ことを仮定します。最も基本的なレベルの不変性です。
- 計量不変性(Metric Invariance / Weak Invariance): 設定不変性に加え、各観測変数の潜在変数に対する負荷量(因子負荷)がすべての集団/時点で等しいことを仮定します。これにより、異なる集団/時点で潜在変数の単位が共通であるとみなせるようになります。潜在変数間のパス係数を集団間で比較する際の最低限の要件とされることが多いです。
- 構造不変性(Scalar Invariance / Strong Invariance): 計量不変性に加え、各観測変数の切片(潜在変数が0のときの観測変数の期待値)がすべての集団/時点で等しいことを仮定します。これにより、異なる集団/時点で潜在変数の平均を比較することが可能になります。
- 厳密不変性(Strict Invariance): 構造不変性に加え、各観測変数の測定誤差分散がすべての集団/時点で等しいことを仮定します。
これらの不変性の検証は、制約を加えてモデルをフィットさせ、解放されたモデルとの適合度指標(特にカイ二乗差検定、ΔCFI, ΔRMSEAなどの増分適合度指標の変化量)を比較することで行われます。すべてのレベルの不変性が満たされることは稀であり、どのレベルの不変性が研究目的に対して許容されるか、部分的不変性(一部の指標のみが不変である場合)をどのように扱うかなどが議論の対象となります。
構造モデルと潜在変数間の関係分析
CFAによって測定モデルの妥当性が確認された後、あるいは測定モデルと構造モデルを同時に推定する形で、潜在変数間のパス解析を行います。これにより、社会学的な理論に基づいた仮説、例えば潜在変数Xが潜在変数Yを介して潜在変数Zに影響を与えるといった複雑な関係性を分析できます。
間接効果・媒介効果の分析
SEMは、変数間の直接的な影響だけでなく、媒介変数(mediator)を介した間接的な影響(mediation effect)を分析するのに適しています。例えば、社会経済的地位(SES、潜在変数)が教育達成(潜在変数)を介して所得(潜在変数)に影響するというモデルを考えることができます。このとき、SESから教育達成へのパス、教育達成から所得へのパスの積としてSESから所得への間接効果が定義されます。
間接効果の統計的有意性の検定にはいくつかの方法がありますが、パラメトリックなSobel検定は仮定が厳しく(積の分布の正規性を仮定)、推奨されない場合が多いです。より頑健な方法として、非パラメトリックなブートストラップ法を用いた信頼区間の推定が広く用いられています。これは、元のデータから多数のサンプルをリサンプリングし、各サンプルで間接効果を推定することで、その経験的な分布に基づいた信頼区間を構築する手法です。信頼区間がゼロを含まない場合に、間接効果は統計的に有意であると判断されます。
成長曲線モデル(LGCM)
統計社会学では、個人や集団が時間とともにどのように変化していくのか、その成長や変化のパターンを分析することが頻繁に行われます。縦断データ(パネルデータなど)の分析手法として、反復測定ANOVAや階層線形モデル(HLM)などが用いられますが、SEMの枠組みで扱われる成長曲線モデル(Latent Growth Curve Models: LGCM)は、個々の対象者の変化軌道を潜在変数として捉えることで、より柔軟かつ強力な分析を可能にします。
LGCMでは、各対象者の観測変数の経時的な値(例: 時点1, 2, 3,...の態度尺度得点)が、潜在的な「切片」(時点0における期待値)と「傾き」(単位時間あたりの変化率)といった成長因子によって説明されると仮定します。これらの成長因子は個人ごとに異なる値を持ち、その個人間のばらつき(分散)を分析したり、他の共変量(例: 性別、初期SES)がこれらの成長因子(例: 態度の初期値や変化率)にどのように影響するかをモデリングしたりできます。
LGCMの応用
- 線形成長モデル: 時間経過に対して変数が線形に変化すると仮定する場合に適用します。潜在切片と潜在傾き(線形トレンド)の2つの成長因子を設定します。
- 非線形成長モデル: 時間に対して変化が非線形である場合(例: 最初は早く変化し、後に鈍化する)には、二次項(潜在曲線因子)やより複雑な関数形(例: 潜在漸近線モデル)を導入します。
- 時変共変量の導入: 時間によって変化する共変量(例: 年ごとの所得、ライフイベント)が、観測変数や成長因子に影響するモデルを構築することも可能です。
LGCMは、個人の異質な変化パターンを捉え、その変化が何によって予測されるのかを分析する上で非常に有用です。
SEMの実践的課題と高度な解析
SEMは強力な手法ですが、その適用にはいくつかの実践的な課題が伴い、またそれを克服するための高度な解析手法が存在します。
- モデル特定(Model Identification): 想定したモデルのパラメータを一意に推定可能であるかという問題です。特定されていないモデルは分析できません。モデルの自由度を確認する(パラメータ数 <= 観測共分散行列の要素数)ことが基本的な確認方法ですが、複雑なモデルではより注意深い検討が必要です。
- 適合度指標の解釈: モデルがデータにどの程度適合しているかを評価するために、カイ二乗検定に加え、RMSEA, CFI, TLI, SRMRなどの適合度指標が用いられます。これらの指標には一般的に受け入れられているカットオフ値がありますが、これらはガイドラインに過ぎず、サンプルサイズ、モデルの複雑さ、データの性質などを考慮した総合的な判断が必要です。モデル修正はデータ駆動になりがちであり、理論に基づいた修正や、異なるモデル間の比較(例: AIC, BICなどの情報量規準)が重要になります。
- 非正規性: 社会学データは正規分布を仮定できない場合が多くあります。多変量正規性の仮定が満たされない場合、標準的な最尤法(Maximum Likelihood: ML)による推定やカイ二乗検定の信頼性が低下する可能性があります。これに対処するために、頑健な推定法(例: Satorra-Bentler修正カイ二乗統計量を用いるMLR推定、Huber-White標準誤差推定)や、カテゴリカル・順序データに特化した推定法(例: 閾値モデルを用いたWLSMV推定法など)が開発されています。
- 欠損データ: 欠損データはSEM分析において深刻な問題となり得ます。リストワイズ削除は標本サイズを減少させ、推定に偏りをもたらす可能性があります。現代的なSEMソフトウェアでは、最尤法を用いた欠損データ処理(Full Information Maximum Likelihood: FIML)が一般的に利用されており、これは欠損パターンがMAR (Missing At Random) の仮定を満たす場合に、リストワイズ削除よりも効率的でバイアスが少ない推定を提供します。多重代入法も有効な手法です。
- より複雑なモデル:
- 潜在変数相互作用: 潜在変数間の交互作用効果をモデルに含めることができます。これは、特定の潜在変数の値によって、他の潜在変数間の関係性の強さが異なる場合などに有用です。
- マルチレベルSEM: 個人がクラスター(学校、地域など)に属している階層構造データに対して、個人レベルとクラスターレベルの両方で測定モデルや構造モデルを同時に推定する手法です。
- ベイジアンSEM: ベイズ統計学の枠組みでSEMを推定する手法です。事前情報をモデルに組み込むことが可能であり、複雑なモデルや小標本の場合に有効な場合があります。また、パス係数などのパラメータの事後分布を直接得られるため、信頼区間ではなく信用区間を計算したり、モデルの不確実性をより直接的に評価したりできます。
結論
構造方程式モデリングは、統計社会学研究において、観測変数と潜在変数を統合的に扱い、複雑な理論モデルを検証するための強力なツールです。構成概念の妥当性を確認するための確認的因子分析、潜在変数間のパス関係の推定、そして特に縦断データにおける個人の変化軌道を分析する成長曲線モデルは、社会学的現象の理解を深める上で中心的な役割を果たします。
しかし、SEMの適切な適用には、理論に基づいたモデル構築能力、モデル特定の確認、適切な適合度指標の解釈、そして非正規性や欠損データといった実践的な課題への対処に関する深い理解が不可欠です。ブートストラップを用いた間接効果の検定、頑健な推定法の選択、FIMLによる欠損データ処理、測定不変性の検証などは、信頼性の高い研究成果を得るために習得すべき重要な技術です。
SEMの発展は続いており、ベイジアンSEM、潜在変数相互作用のモデリング、マルチレベルSEMなど、より複雑な社会現象を捉えるための高度な手法が利用可能になっています。統計社会学の研究者は、これらの手法を適切に選択し、理論的考察と統計的解析を組み合わせることで、社会現象に関するより洗練された知見を抽出できるでしょう。最新の統計ソフトウェア(Rのlavaanパッケージ、Mplus, Stata, EQS, AMOSなど)の機能を理解し、目的に応じて使い分けることも、効果的なSEM分析を行う上で重要となります。