平均処置効果

平均処置効果(へいきんしょちこうか、: average treatment effect, ATE)とはランダム化実験、介入政策の評価、医療治験における処置(もしくは介入)を比較するために用いられる尺度である。平均処置効果は処置群と対照群の間の結果の平均の差を測る。ランダム化実験(つまり実験研究)において、平均処置効果は処置されたグループと処置されていないグループの結果の平均の差の比較を用いることでサンプルから推定される。しかしながら平均処置効果は、研究計画もしくは推定手続きを参照せずに定義される、研究者が知りたい因果性パラメーター(つまり統計的母集団の推定量もしくは性質)として一般的に理解されている。実証的な研究デザインと実験的な研究デザインの両方において、様々な方法で平均処置効果を推定することは可能である。

一般的な定義

農業や医学の領域での統計的解析に端を発している、処置という言葉だが、今はより一般的に、自然科学と社会科学、特に心理学政治学経済学などにおいて、例えば公共政策の成果を評価するために用いられている。処置や成果の特徴は平均処置効果の推定においては相対的に重要ではない、すなわち、平均処置効果の計算には処置がある集団には適用されて、他の集団には適用されていないことが必要で、処置がどのようなものであるか(薬学的なもの、インセンティブ支払い、政治広告など)は平均処置効果の定義と推定からは無関係である。

"処置効果"という表現は、興味のある結果変数(例えば、患者の健康状態)と与えられた処置または介入(例えば、薬の投与)との因果関係を指している。ルービンの因果モデル(英語版)においては、処置効果は個々の集団の二つの潜在的成果によって定義されている。それぞれの集団は処置がなされた場合に明らかになる成果と処置がなされなかった場合(統制された場合)に明らかになる成果をそれぞれ持っている。"処置効果"はこの二つの潜在的な成果の差である。しかしながら、個々人は処置を受けるか(処置群に入るか)統制を受けるか(対照群に入るか)のどちらかしか、もしくは両方とも割り当てられないので、個人レベルの処置効果は観測できない。処置のランダム割り当ては、処置群と対照群の双方が(実験の多数回の繰り返しにおいて)同一であることを満たす。実際、双方のグループは共変数と潜在的成果の確率分布が同一である。ゆえに、処置群の平均的な成果は、対照群の平均的な成果にとっての処置を受けられなかった場合の成果(: counterfactual)として役に立つ。その二つの平均の差が平均処置効果であり、観測できない個人レベルの処置効果の分布の代表値の推定量である[1]。もしサンプルが母集団からランダムに構成されたものであるならば、サンプルからの平均処置効果(SATE)はまた母集団からの平均処置効果(PATE)の推定量である[2]

実験においては、潜在的成果(とあらゆる共変数)は処置群と対照群で同様に分布することが確かめられている、あるいは見越されているが、実証研究においてはそうではない。実証研究において処置群と対照群をランダムに割り当てることは出来ず、よって処置群の割り当ては観測されない、もしくはできない因子に依存する。観測される因子ならば統計的にコントロール可能である(例えば回帰マッチング)が、処置群に入るか対照群に入るかに影響を与える観測できない因子の交絡はあらゆる平均処置効果の推定量に存在する。

正式な定義

平均処置効果を正式に定義する為に、二つの潜在的成果を定義する。 y 0 i {\displaystyle y_{0i}} は個人 i {\displaystyle i} が処置を受けなかった場合の結果変数の値であり、 y 1 i {\displaystyle y_{1i}} は個人 i {\displaystyle i} が処置を受けた場合の結果変数の値である。例えば、 y 0 i {\displaystyle y_{0i}} は個人 i {\displaystyle i} が薬の投与を受けなかった場合の健康状態であり、 y 1 i {\displaystyle y_{1i}} は個人 i {\displaystyle i} が薬の投与を受けた場合の健康状態である。

個人 i {\displaystyle i} の処置効果は y 1 i y 0 i = β i {\displaystyle y_{1i}-y_{0i}=\beta _{i}} により与えられる。一般的にはこの効果が個人間で同一だと予想する理由はない。

E [ . ] {\displaystyle E[.]} を任意の変数に対する期待値オペレーターとする(つまり、興味のある母集団全体の変数の平均値である)。平均処置効果は E [ y 1 i y 0 i ] {\displaystyle E[y_{1i}-y_{0i}]} で与えられる。

母集団の大きな代表的サンプルにおける個々人の y 1 i {\displaystyle y_{1i}} y 0 i {\displaystyle y_{0i}} が観測可能ならば、標本について y 1 i y 0 i {\displaystyle y_{1i}-y_{0i}} の単純な平均値を取ることで平均処置効果を推定できる。つまり 1 N i = 1 N ( y 1 i y 0 i ) {\displaystyle {\frac {1}{N}}\cdot \sum _{i=1}^{N}(y_{1i}-y_{0i})} である(ここで N {\displaystyle N} はサンプルのサイズである)。

問題なのは個々人について y 1 i {\displaystyle y_{1i}} y 0 i {\displaystyle y_{0i}} の双方が観測できない場合である。例えば、薬の例では、薬の投与を受けた個人についての y 1 i {\displaystyle y_{1i}} と薬の投与を受けなかった個人についての y 0 i {\displaystyle y_{0i}} しか観測できない。処置を受けた個人の y 0 i {\displaystyle y_{0i}} と処置を受けなかった個人の y 1 i {\displaystyle y_{1i}} は観測できないのである。この事実は、処置効果の評価において科学者が直面する重要な問題であり、推定技術の発展の大部分のきっかけとなった。

推定

データやその背後の状況にもよるが、多くの方法が平均処置効果を推定する為に使うことができる。最も一般的な方法は以下のようなものである。

  • 自然実験擬似実験(英語版)
  • 差分の差分法: difference in differences, diff-in-diffs
  • 回帰不連続デザイン: regression discontinuity design
  • マッチング法(英語版)
  • 局所操作変数の理論に基づいた方法(厳密な意味での回帰不連続デザインも含まれる)

母集団において政策変更が一度行われれば、回帰により処置をコントロールできる。結果の方程式は以下のようになる。

y = B 0 + δ 0 d 2 + B 1 d T + δ 1 d 2 d T , {\displaystyle y=\mathrm {B} _{0}+\delta _{0}d2+\mathrm {B} _{1}dT+\delta _{1}d2\cdot dT,}

ここで y {\displaystyle y} は被説明変数で、 δ 1 {\displaystyle \delta _{1}} は母集団における政策変更の効果を測定している。

差分の差分法による方程式は以下のようになる。

δ ^ 1 = ( y ¯ 2 , T y ¯ 1 , T ) ( y ¯ 2 , C y ¯ 1 , C ) , {\displaystyle {\hat {\delta }}_{1}=({\bar {y}}_{2,T}-{\bar {y}}_{1,T})-({\bar {y}}_{2,C}-{\bar {y}}_{1,C}),}

ここで T {\displaystyle T} は処置群、 C {\displaystyle C} は対照群である。この場合、 δ ^ 1 {\displaystyle {\hat {\delta }}_{1}} は平均的な成果における処置の効果を測定しているので、まさに平均処置効果である。

差分の差分法の例より処置効果の推定についての主要な問題が分かる。同じ個人の処置された場合と処置されなかった場合を同時には観測できないので、平均処置効果を推定する為に、仮想的な場合の尺度を見つける必要がある。

失業者についての例を考えよう。いくつかの個人は政策介入を経験している(処置群)一方で、その他は政策介入を受けていない(対照群)。興味のある因果効果は、職探しのモニタリング政策(処置)が失業期間の長さに与える影響である。平均して、失業者が政策介入を受けた時、失業期間はどれほど短くなるのであろうか。平均処置効果は、この場合、処置群と対照群の失業期間の期待値(平均)の差となる。

この例において、正の平均処置効果は失業対策が失業期間を長くするということを示唆するだろう。負の平均処置効果は失業対策が失業期間を短くするということを示唆するだろう。もし平均処置効果の推定量がゼロであるならば、失業期間の長さという点において、この処置はなんの利点も欠点も無いということになる。平均処置効果の推定量が(正にしろ負にしろ)ゼロから区別できるかどうかを決めるには統計的推論が必要になる。

平均処置効果は処置の平均的効果の推定量であるので、正また負の平均処置効果がどんな個人にとっても処置が良いまたは悪いということを示唆するものではない。

脚注

  1. ^ Holland, Paul W. (1986), “Statistics and Causal Inference”, Journal of the American Statistical Association 81 (396): 945–960, doi:10.1080/01621459.1986.10478354, JSTOR 2289064, https://jstor.org/stable/2289064 
  2. ^ Imai, Kosuke; King, Gary; Stuart, Elizabeth A. (2008), “Misunderstandings Between Experimentalists and Observationalists About Causal Inference”, Journal of the Royal Statistical Society, Series A 171 (2): 481–502, doi:10.1111/j.1467-985X.2007.00527.x 

参考文献

  • Wooldridge, Jeffrey M. (2013). “Policy Analysis with Pooled Cross Sections”. Introductory Econometrics: A Modern Approach. Mason, OH: Thomson South-Western. pp. 438–443. ISBN 978-1-111-53104-1