인과추론의 2번째 단계: intervention

- 아직 도입하지 않은 acton 또는 정책의 효과를 예상하기 위한 시도들

Confounding이 seeing과 doing을 혼동시키는 주된 장애물이고, 이 장애물을 제거하는 도구로 "path blocking과 back-door criterion이 필요하다. 이를 통해 시스템으로 인과추론의 엄밀함을 확보할 수 있다.

다음과 같은 방법들이 있다.

1. back-door adjustment

2. front-door adjustment

3. instrumental variables

4. do-calculus ("universal mapping tool"

    - 위 1, 2, 3이 항상 유효하지는 않다.

The Simplest Route: The Back-Door Adjustemnt Formula

만약 변수들에 대한 데이터가 충분히 확보되어 있다면 이를 "통제"하는 것이 가장 적절한 선택지일 것이다.

1. deconfounder의 각 stratum들의 별로 평균적인 효과를 구하고

2. 각 stratum들의 비중을 가중치로 계산한다

 

이렇게 규명된 effect를 causal effect라고 단언할 수는 없다.

다음 두 조건을 만족해야 한다.

- path diagram이 규명되어야 한다.

- 통제된 변수 Z가 back-door criterion을 만족해야 한다.

 

<요약>

back-door criterion은 어떤 변수들을 deconfound해야 할지 알려준다,

adjustment formula가 실제로 deconfounding을 한다.

- (implicit ver.) linear regression, partial regression

- (explicit ver.) nonparametric case, back-door adjustment formula

 

<한계>

- 발견 못한 back-door path가 있는 경우 인과 효과를 적절하게 검증할 수 없다.

 

The Front-Door Criterion

5장에서의 담배-폐암 관계 예시 (Figure 7.1)

back-door adjustment를 적용할 수 없다: Confounder인 Smoking Gene을 관찰할 수 없다.

=> 이런 경우 Front-Door Adjustment를 적용한다.

1. Smoking -> Tar의 Average Causal Effect를 측정한다.

    - 계산식: P(tar | smoking) - P(tar | no smoking)

2. Tar -> Cancer의 Average Causal Effect를 측정한다.

    - 계산식: P(cancer | do(tar)) - P(cancer | do(no tar))

3. Smoking -> Cancer의 Causal Effect를 계산한다.

    - 계산식:

        P(cancer | do(smoking)) = P(tar | smoking) * P(cancer | do(tar)) + P(no tar | smoking) * P(cancer | do(no tar))

        P(cancer | do(no smoking)) = P(tar | no smoking) * P(cancer | do(tar)) + P(no tar | no smoking) * P(cancer | do(no tar))

    - 여기서 P(cancer | do(tar))는 data를 통해 계산할 수 있다 (do를 벗겨낼 수 있다)

 

<요약> 

- front-door adjustment는 두 종류의 변수 (X, Z)를 통제한다는 점에서 back-door adjustment와 다르다.

- 여기서 X, Z는 Y까지 front-door path에 있다. (back-door path에 있지 않다.) 

- 식 7.1 참고

- back-door adjustment와 달리 Confounder 를 통제할 필요가 없다.

- do operator가 아닌 seeing으로만 연산이 가능하다.

 

<한계>

- M이 shielded mediator인 경우(Figure 7.2)만 적용 가능하다.

    - C -> M으로 arrow가 있으면 적용 불가능하다.

    - 다시말해, shielded mediator가 있는 경우는 적용 가능할 수 있다. 만약, 처치 불가능한 confounder가 있다면 shielded mediator를 찾아서 front-door adjustemnt를 적용하자.

 

<연구 적용 예시>

- Glynn and Kashin은 그들의 연구에서 RCT, back-door adjustment, front-door adjustment를 모두 적용했다.

- 작가가 그들의 논문을 토대로 causal diagram을 그려보니 (Figure 7.3) C -> M이 영향이 거의 적은 shielded mediator를 가진 형태였다. 따라서 front-door adjustment를 적용해도 괜찮은 반면, C는 측정할 수 없어서 back-door adjustment는 적용불가능했다.

- 연구 결과: back-door adjustment는 RCT와 차이가 컸던 반면, front-door adjustment는 거의 같은 결론이 나왔다.

 

The Do-Calculus, Or Mind Over Matter

Adjustment의 목적: Intervation 없이 Observation만으로 Causal Effect 계산하기

P(Y | do(X)) 를 P(Y | X, A, B, Z, ...)로 치환하는 것: do-operator를 제거한는 것!

*do-operator: erases all the arrows that come into X, and in this way it prevents any information about X from flowing in the noncausal direction (p. 157)

아래 공리들을 사용하면, 모든 causal graph에서 do-operator를 제거하고 causal effect를 seeing만으로 계산할 수 있다.

 

DO-CALCULUS

1. W -> Z -> Y: W는 Z를  통해서만 Y에 영향을 주고, 이외 경로는 없는 경우

    - P(Y | do(X), Z, W) = P(Y | do(X), Z)

    - Z를 통제했기 때문에, W에서 Y로 가는 모든 경로가 차단되었다. (독립이다.)

    - 식에서 addition or deletion of observation을 가능하게 해줌

 

2. Z -> X, Z -> Y, X -> Y (Z가 confounder)

    - P(Y | do(X), Z) = P(Y | X, Z)

    - Z가 X에서 Y로 가는 모든 back-door path를 막고 있기 때문에, Z를 통제하면 do(X)는 see(X)와 동일하다.

    - 식에서 do()를 벗겨내거나 씌워줌

 

3. X /-> Y (X에서 Y로 가는 causal path가 없는 경우)

    - P(Y | do(X)) = P(Y)

    - 만약 Y에 영향 없는 do를 한다면, Y의 확률 분포는 변하지 않는다.

    - 식에서 addition or deletion of intervention을 가능하게 해줌

 

1, 2, 3을 적용해서 front-door adjustment를 도출하는 예시: Figure 7.4

 

 

The Tapestry of Science, Or The Hidden Players in the Do-Orhcestra

do-calculus를 확립하는데까지 여러 학자들이 공을 세웠다.

- Thomas Verma: d-separation property를 증명

- Dan Geiger: path blocking된 경로가 아니면 causal digram에서는 독립이 아님을 증명

- Jin Tian: front door, back door 를 그래프로 단순화 함

- Ilya Shpister: do-calculus를 위한 알고리즘 완성: do-calculus의 completeness 증명

- Peter Spirtes: 인과 관계를 network로 접근하는 방법 제안: intervention = causal diagram에서 화살표를 지우는 것

    -> 수많은 연구에 영감을 줌: back-door criterion, do-calculus, counterfactuals, generalizability, missing data and machine learning

The Curious Case(s) of Dr. Snow

도구 변수에 대한 설명

1853년 John Snow 박사가 식수의 청결도와 콜레라 사이의 인과관계를 밝혀낸 연구(Figure 7.8)에서,

Water Purity와 Cholera 사이의 인과관계를 직접 밝히기가 어려워(아직 현미경이 없었다), Water Company(식수 추출하는 곳이 서로 다른 두 곳)를 도구변수로 활용했다. 

 

<요약>

- 도구 변수(Z)를 활용하면 Confounder인 U를 통제할 필요도 없고, 심지어 존재 여부를 확인할 필요도 없다.

- Z -> X의 효과가 a, Z -> Y의 효과가 ab라면 X -> Y의 효과는 ab ÷ a로 계산할 수 있다.

 

<한계>

- Z와 Y 사이에 direct path가 있거나 back door path가 있으면, Z는 도구 변수로 사용 불가능하다.

- Z->X라는 causal direct path가 있어야만 도구 변수로 사용할 수 있다.

 

Good and Bad Cholesterol

RCT에서 선택편향이 발생한 경우의 해결 방법: 도구 변수 활용

linear model이 아니여도 monotonicity를 만족하면 도구 변수를 활용해 X의 causal effect를 계산할 수 있다.

도구 변수로 사용하려면 아래 세 조건을 만족해야 한다.

1. Z가 confounder와 독립인가? - Z를 랜덤 변수로 사용하는 것을 권장한다.

2. Z -> Y 경로가있는가?: 있으면 안된다.

3. Z와 X 사이에 강한 상관관계가 있는가?

이 경우 1, 2, 3을 규명하는 데에는 causal diagram을 그리는 데에 규명된 common sense를 사용하는 것이 좋다.

 

선택편향이 발생한 경우(Figure 7.11) Treatment의 effect를 측정하는 방법

monotonicity: Z=0, X=1인 경우는 없다는 가정

1. worst-case scenario: non complier(Z=1, X=0)가 아무도 효과를 안 봤다고 가정

2. best-case scenario: non complier가 모두 효과를 봤다고 가정

3. placebo effect (Z=0, Y=1)는 빼준다.

1번 값과 2번 값 사이에서 효과를 추정 (range of estimates)

 

만약 range estimates가 아닌 point estimates를 구하고 싶다면?

=> LATE (Local Average Treatment Effect)를 계산

 

<요약>

- do-calculus와의 비교

- 장점: Confounder의 존재 여부를 파악하기 어렵거나, do-calculus를 적용하기 어려운 경우에 사용할 수 있다.

- 단점: do-calculus보다 유연성이 떨어진다. (만족해야 하는 가정이 더 많다.)

    - causal diagram의 규명이 필수적이다.

+ Recent posts