統計社会学におけるネットワークデータの確率的モデリング:ERGMとSAOMを中心として
はじめに
社会現象の多くは、個人の属性だけでなく、個人間の関係性や相互作用によって形成されるネットワーク構造に深く根ざしています。友人関係、組織内のコミュニケーション、社会階層間の移動、国際関係といった多様なトピックがネットワークの視点から分析されています。ネットワークデータは、従来の個人単位のデータとは異なり、観測単位(ノード)間の依存関係が本質的な特性であるため、その統計分析には特有の手法が求められます。
ネットワークデータの統計的モデリングは、観測されたネットワーク構造が、特定の統計的メカニズムによって生成された確率分布からサンプリングされたものであると仮定し、そのメカニズムを推定することを目的とします。これにより、ネットワークの特定の構造的特性(例: 互恵性、推移性、同類性)が偶然によるものか、あるいはシステム的な要因によるものかを統計的に評価することが可能となります。
本稿では、統計社会学の研究で広く用いられているネットワークデータの主要な確率的モデリング手法である、指数ランダムグラフモデル(Exponential Random Graph Models, ERGM)と確率的アクター指向モデル(Stochastic Actor-Oriented Models, SAOM、Sienaとも呼ばれる)を中心に、その理論的基礎、応用、および実践的な側面について概観します。
ネットワークデータの特性と確率モデリングの必要性
ネットワークデータは通常、ノード(アクターや主体)と、ノード間の関係性(エッジやリンク)によって表現されます。このデータ構造の根本的な特徴は、独立性の仮定が成り立たない点にあります。あるエッジの存在や特性は、他のエッジの存在や、そのエッジが関わるノードの属性、さらにはネットワーク全体の構造に依存する可能性があります。例えば、「友人の友人」は友人になりやすい(推移性)といった構造的な依存性は、個々の関係性が独立に発生するモデルでは捉えられません。
ネットワークの記述統計量(平均次数、密度、クラスター係数など)はネットワーク構造を要約するのに役立ちますが、観測された構造がどの程度「特別」であるか、あるいは特定の要因がその構造形成にどれほど寄与しているかを評価するには、確率的な枠組みが必要です。確率モデルは、特定の仮定の下でネットワークがランダムに生成されるプロセスを定義し、観測されたネットワークがそのプロセスからどの程度の確率で生じうるかを評価することを可能にします。
指数ランダムグラフモデル(ERGM)
ERGMは、静的なネットワーク構造をモデル化するための強力なフレームワークです。観測されたネットワークが、特定のネットワーク統計量(例: エッジ数、2パス、トライアングル、スター、同類性効果など)の線形結合を指数関数で変換した確率に比例する形で生成されると仮定します。
モデルの一般的な形式は以下のようになります(概念的な表現)。 $P(Y=y | \theta) = \frac{\exp(\theta^T s(y))}{c(\theta)}$
ここで、$Y$はランダムネットワーク、$y$は観測された特定のネットワーク、$s(y)$はネットワーク$y$上で計算されるネットワーク統計量のベクトル、$\theta$はその統計量に対応するパラメータのベクトル、$c(\theta)$は正規化定数です。
ERGMの基本的な考え方は、ネットワークの構造的な特性($s(y)$で捉えられる)がネットワークが発生する確率にどのように影響するかを$\theta$を通じて推定することです。例えば、「エッジ数」に対応するパラメータはネットワーク全体の密度傾向を、「2パス」(A→B→Cのようなパス)や「トライアングル」(A-B-C-Aのような閉じた構造)に対応するパラメータは、推移性やクラスター形成の傾向を示唆します。また、ノードの属性(例: 性別、所属)に基づいて定義される統計量(例: 同類性、属性の交互作用)をモデルに含めることで、属性が関係形成に与える影響を評価できます。
ERGMの推定は、正規化定数$c(\theta)$が解析的に求められないため、通常はMCMC (Markov Chain Monte Carlo) アルゴリズムを用いて行われます。推定されたパラメータは、他の条件が一定のとき、対応するネットワーク統計量が1単位増加する確率の対数オッズとして解釈できます。
ERGMは静的なネットワークのスナップショットを説明するのに適していますが、モデルの指定(どの統計量を含めるか)が困難であることや、モデルによっては推定が収束しにくいといった課題も存在します。
確率的アクター指向モデル(SAOM, Siena)
SAOMは、ネットワーク構造やノード属性が時間とともにどのように変化するかをモデル化するための手法です。ERGMが静的なネットワークを扱うのに対し、SAOMはネットワークの動態(dynamics)に焦点を当てます。SAOMは、ネットワークの変化が個々のアクター(ノード)による意思決定の確率過程として生じると仮定します。
SAOMでは、ある短い時間間隔において、任意のアクターがネットワークのエッジを1つ変更する(追加または削除する)機会を持つと考えます。各アクターは、自分のネットワーク構造(自分が持つエッジ)やノード属性、さらには他のアクターの属性やネットワーク構造に基づいて、どのような変更を行うかを確率的に決定します。この決定確率は、アクターの「目的関数」によってモデル化されます。目的関数は、アクターが実現したい(あるいは避けたい)ネットワーク状態や属性構成に対する選好を表現するものであり、ERGMと同様に様々なネットワーク統計量や属性に基づく効果の線形結合として定義されます。
例えば、あるアクターが新しい友人を作るかどうかを決定する際に、既にその友人候補と共通の友人がいるか(推移性)、候補と自分自身が類似した属性を持っているか(同類性)、候補が人気があるか(人気効果)といった要因が、そのアクターの目的関数に含まれ、意思決定の確率に影響を与えるとモデル化します。
SAOMの推定は、観測された複数時点のネットワークデータを用いて行われます。推定はMCMCシミュレーションに基づき、モデルによって生成されるネットワーク動態が観測された動態をどれだけ再現できるかを通じてパラメータが推定されます。推定されたパラメータは、対応する効果がアクターのエッジ変更の意思決定に与える影響(対数オッズ)として解釈されます。
SAOMはネットワークの形成と解消のプロセス、そしてそれがノード属性の変化とどのように相互作用するかを同時にモデル化できる強力なツールです。特に、エッジの方向性を持つネットワーク(例: 影響関係、情報伝達)の動態分析に適しています。ただし、モデルの複雑性や計算負荷が高いという側面もあります。
ERGMとSAOMの比較および適用場面
| 特徴 | ERGM (Exponential Random Graph Models) | SAOM (Stochastic Actor-Oriented Models) |
| :---------- | :---------------------------------------------------------- | :---------------------------------------------------------- |
| 対象 | 静的なネットワークのスナップショット | 複数時点のネットワークおよびノード属性の動態 |
| モデルの考え方 | ネットワーク全体の構造が特定の確率分布から生成される | 個々のアクターによるエッジ変更の確率過程としてネットワークが変化 |
| 主要な効果 | 全体的な構造パターン(エッジ数、トライアングル、スターなど) | アクターの選好に基づく効果(互恵性、推移性、同類性、人気など) |
| 推定 | MCMCを用いたパラメータ推定 | MCMCシミュレーションを用いたパラメータ推定 |
| ソフトウェア | Rパッケージ statnet
など | Rパッケージ RSiena
など |
| 適用例 | ある時点の友人関係ネットワークの構造分析 | 時間経過に伴う友人関係の変化と属性の相互作用分析 |
ERGMは単一時点のネットワーク構造がなぜそのようになっているのか、特定の構造的パターンや属性がその形成にどのように寄与しているのかを説明するのに適しています。一方、SAOMはネットワークや属性が時間とともにどのように変化し、その変化がどのようなアクターレベルの選択プロセスによって生じるのか、という動的な問いに答えるのに強力なツールとなります。どちらの手法を選択するかは、研究課題がネットワークの「構造」に関心があるのか、それとも「動態」に関心があるのかに依存します。
実践的な考慮事項
これらのモデルを実際に社会学研究に適用する際には、いくつかの重要な考慮事項があります。
- データの準備: ネットワークデータを適切な形式(隣接行列、エッジリストなど)で準備する必要があります。SAOMの場合は、複数時点でのネットワークデータが必要です。
- モデルの指定: どのネットワーク統計量や属性に基づく効果をモデルに含めるかは、理論的な仮説に基づいて慎重に決定する必要があります。過度に多くの効果を含めると、モデルの推定が不安定になったり、解釈が困難になったりする可能性があります。
- 推定と診断: 推定アルゴリズム(特にMCMC)の収束を確認することは不可欠です。また、推定されたモデルが観測されたネットワーク(またはネットワーク動態)をどの程度適切に再現しているかを示すモデル診断を行う必要があります。ERGMでは、推定されたモデルから多数のネットワークをシミュレーション生成し、その構造特性が観測ネットワークの特性と一致するかを確認する手法が一般的です。SAOMでも同様に、シミュレーションによる動態再現性の検証が行われます。
- 解釈: 推定されたパラメータは、モデルに含まれる他の効果を固定した上での条件付き効果として解釈されます。ネットワークの依存構造のため、単純な独立変数モデルのパラメータ解釈よりも注意が必要です。
- ソフトウェア: ERGMとSAOMを実装した統計ソフトウェアパッケージが利用可能です。特にR言語の
statnet
パッケージはERGMとその関連手法(例えばERGMA, STERGMなど)を、RSiena
パッケージはSAOMを強力にサポートしており、多くの研究者に利用されています。
結論
ネットワークデータの確率的モデリング、特にERGMとSAOMは、社会学におけるネットワーク研究に統計的な厳密さと洞察を提供するための重要なツールです。ERGMは静的なネットワーク構造の形成メカニズムを、SAOMはネットワークおよび属性の動態プロセスをモデル化することを可能にします。これらの手法を適切に適用することで、観測されたネットワークパターンが偶然によるものか、あるいは特定の社会的なメカニズムやアクターの選好によって生じているのかを統計的に評価することができます。
これらのモデルは複雑であり、その適用にはネットワーク理論、確率モデル、計算統計学に関する理解が必要です。しかし、社会現象の基盤にある関係性を統計的に解明する上で、これらの手法が提供する可能性は非常に大きいと言えます。今後の研究では、より大規模で複雑なネットワークデータ、異なるタイプのネットワーク(例: 二部ネットワーク、マルチプレックスネットワーク)、そしてネットワークと他の社会現象との相互作用をモデル化するためのさらなる発展が期待されます。