因果推論

Causal Mediation Analysis ①(因果媒介分析):概要と前提条件について

疫学手法をコテコテにやっている方は別として、因果媒介分析(以下:Causal Mediation Analysis)についてご存知ない方が多いと思います。

今回はCausal Mediation Analysisの一般的な概念、記載方法と定義、必要な前提について記載していきます。

created by Rinker
¥10,222
(2019/11/12 15:38:08時点 Amazon調べ-詳細)

MediationとInteraction

Causal Mediation Analysisはmediation (媒介)とinteraction (相互作用) を同時に見ることができます。

まず、mediation (媒介)・interaction (相互作用)と言われてもピンとこないかもしれないので、DAGを使用しながら解説していきます。DAGはベクトルに近い考え方と思ってください。
また、通常のDAGではなく、augmented DAGを使用すれば、Causal Mediation Analysisの理解がより深まると思います

このようにMediationとInteractionは明確に区別ができます。
Causal Mediation AnalysisはXがYに与える影響(XからYへの矢印)を、2〜4つの経路に分けることで、それぞれの経路の効果を推定します。

異なる経路の効果を推定することで、メカニズムを理解したり証明する補助になったり、介入できる因子を探ることもできます。

例えばBerker Hypothesisを考えてみても、X(出生時の体重:Exposure)は様々な因子で介入できないことが多いですが、その後のM(運動・食事など:Mediator)を介入することで、Y(心疾患:Outcome)をある程度予防できるかもしれません。

このように、それぞれの経路を推測できるメリットがあります。

記載方法と定義:Notation & Definition

まずはCausal Mediation Analysesで用いる定義と記載方法を説明しましょう。

疫学における因果推論(Causal Inference)やPotential Outcome(潜在的アウトカム)をご存知の方であれば、理解可能な内容と思います。

X

Treatment
x is index
x* is reference

M

Mediator
m is index mediator
m* is reference

C

Confounder

Y

Outcome

Xは治療で、X = xは治療あり、X = x*は治療なしです。
Mは媒介因子(Mediator)で、M = m はMediatorあり、M = m*はMediatorなしです。

Cは交絡因子(Confounder)の略語になります。通常のDAGで記載すると、以下を想定しています。

次に、Potential Outcomeのフレームワークを取り入れてみましょう。

Mx

Potential mediator value when X is set x

Mx*

Potential mediator value when X is set x*

Yx

Potential outcome if X had been x: X is set to x

Yx*

Potential outcome if X had been x*

Ym

Potential outcome if M had been m

Ym*

Potential outcome if M had been m*

MxはX = x の時のMediator(M)の値です。
Mx*はX = x*の時のMediator(M)の値です。

例えば、治療(X)をコレステロール(M)を下げる薬とすると、Mxはある人が治療を受けた場合のコレステロール値になります。Mx*は同じ人が治療を受けなかった場合のコレステロール値になります。
もちろん現実世界ではMxかMx*のいずれかしか知ることができませんが、同じ人でも理論上は2通りのMがあるのです。
(この問題を、Fundamental Problems of Causal Inferenceと言います)

Yxも一緒で、とある人が治療を受けた場合のアウトカム(Y)です。

例えば、心疾患をアウトカムとすれば、治療を受けた場合のアウトカムがYxです。
Yx*は、同じ人が治療を受けなかった場合のアウトカムです。

Ymはある人のコレステロール値(M)がmだった場合のアウトカムで、Ym*は同じ人のMがm*だった場合のアウトカムです。

これらをDAGで記載すると以下のようになります。

*Do formula (do(x)など)は、ランダム化をして治療にX = xが割り当てられたと考えると分かりやすいと思います。少し意味が異なりますが、E(Yx) = E(Y|do(x))と考えると、potential outcomeのフレームワークに慣れている人は理解しやすいでしょう。
このdo(x)のことを、業界人は「X is set to x」と言ったりしています(主にJ Pearlなどが使用している言語です)。

Nested Counterfactualについて

Causal Mediation Analysisを理解するには、Nested Counterfactual(YxMx)を理解する必要もあります。

Yxm

Potential outcome
 if X had been set to x & M had been set to m

Yxm*

Potential outcome
 if X had been set to x & M had been set to m *

Nested counterfactualの前にこちらのPotential outcomeを理解してみましょう。
Yxmは、ランダム化で治療Xをすると割り当てられ、さらにランダム化で治療Mが割り当てられた場合のアウトカムになります。

Yxm*も同様に考え、最初にX = xが割り当てられ、その後にM = m*がランダムに割り当てられた場合のアウトカムです。

DAGにすると以下のいずれかのようになります。

最終的に、このNested Counterfactualやdo-formulaは数式に落とし込みますが、右側のAugmented DAGを理解した方が分かり易いかもしれません。

Nested Counterfactualは4パターンありますが、

  1. YxMx
  2. YxMx*
  3. Yx*Mx
  4. Yx*Mx*

の4つになります。例えば、YxMxはYxとなります(YxMx= Yx)。
同じように、Yx*Mx*= Yx*になります。

YxMx*はなかなか理解が難しいと思います。Mを介さない経路では治療X = xがランダムに割り当てられ、Mを介する経路ではX = x*がランダムに割り当てられた状態を言います。

Augmented DAGにしてしまえば、多少は理解しやすくなるでしょう。

Causal Mediation Analysisに必要な前提条件

たとえRCTであったも、解析を行う場合には前提条件が必要となります。もちろんCausal Mediation Analysisでも前提条件は必要です。
基本的な因果推論の前提(Causal Assumption)は以下の通りとなります:

  • Exchangeability (a.k.a. No uncontrolled confounders)
  • Consistency
  • Positivity
  • Well-defined intervention
  • No selection bias
  • No information bias (measurement error/ misclassification)

これはCausal Mediation Analysisに限った前提条件ではなく、他の解析でも必要となる一般的なCausal Assumptionです。

Exchangeabilityについて

Causal Mediation Analysisはここにさらに前提条件が上乗せされます。以下のDAGを見てみましょう

XとYだけの関係をみる場合「C1とC2のような交絡因子で対処できなかったものがない」と前提をおけば良いですが、Causal Mediation Analysisの場合は少し前提が増えます。

  • XとYで対処できていない交絡因子はない(C1)
  • XとMで対処できていない交絡因子はない(C2)
  • MとYで対処できていない交絡因子はない(C3)

となります。

また、以下のように、Xからは影響され、さらにMとYの交絡となる因子がないという前提も必要になります。

このDAG上のようなLの因子がないという前提条件になります。

*後述する予定ですが、Controlled Direct Effect(CDE)を推定したい場合は、C1とC3がないという前提のみでも大丈夫です。

Consistencyについて

ConsistencyはPotential Outcomeのフレームワークから考えると分かり易いです。
ある人が治療を受けるとして、理論上はこの人のアウトカムは2つあります。この2つのアウトカムのことをPotential Outcome(潜在的アウトカム)をいい、

  • Yx
  • Yx*

この人が治療を受けたのなら、Potential Outcomeは実際に計測されたアウトカムになります。これがConsistencyです。つまり、X = xであれば、

  • Yx= Y
  • Yx* = ?

となります。このYx= Yをconsistencyと呼んでいます。
2つあるうちのPotential outcome(YxとYx*)のうち、X = xであればYxはわかりますが、Yx*はわからないままです。
なぜなら、私たちはこの人が治療を受けなかった場合(X = x*)のアウトカムを知る由もないからです。

同じくようにconsistencyを考えると、

  • X = x*なら、Yx*= Y

YとMで考えると、

  • M = mなら、Ym= Y
  • M = m*なら、Ym*= Y

YをMとXのJoint effectで考えると、

  • X = xかつM = mなら、Yxm= Y
  • X = x*かつM = mなら、Yx*m= Y
  • X = xかつM = m*なら、Yxm*= Y
  • X = x*かつM = m*なら、Yx*m*=Y

MとXで考えると

  • X = xなら、Mx= M
  • X = x*なら、Mx*= M

Nested counterfactualで考えると

  • X = xなら、YxMx= Yx= Y
  • X = x*なら、Yx*Mx*= Yx*= Y

となります。
特に最後のnested counterfactualの場所(YxMx= Yx = Y)が重要です。

まとめ

今回はCausal Mediation Analysisの背景や表記方法の定義、必要な前提について解説してきました。

次回は、実際にどのように効果を分け(decomposition)、Causal Mediation Analysisを数式を使って扱っていくかを解説していこうと思います。

Causal Mediationをきちんと勉強したい方は、以下の書籍を読んでください。

created by Rinker
¥10,222
(2019/11/12 15:38:08時点 Amazon調べ-詳細)

 

ABOUT ME
Dr-KID
Dr-KID
このブログ(https://www.dr-kid.net )を書いてる小児科専門医・疫学者。 小児医療の研究で、英語論文を年5〜10本執筆、査読は年30-50本。 趣味は中長期投資、旅・散策、サッカー観戦。note (https://note.mu/drkid)もやってます。