성경의 다니엘 예시.

바빌론의 왕이 뽑은 총명한 소년들(?) 중 하나였던 다니엘은, 성경의 교리에 따르지 않는 육식은 할 수 없었다.

이는 당시 감독관을 매우 곤란하게 했는데, 왕이 소년들을 위해 마련해놓은 귀한 음식들을 먹지않는다면 최대 사형까지 시킬 수 있기 때문이다.

다니엘은 자신의 주장으로 감독관, 나아가 왕에게까지 설득시키기 위해, 다음 실험을 제안한다.

한 그룹은 채식만 시키고(실험군), 다른 그룹은 왕이 준 음식들을 먹인다(대조군).

이는 최초의 RCT(Randomized Controlled Trial)이다.

하지만, 한 가지 조건을 반드시 챙겨야 한다.

바로 Confounding bias가 없는지이다. 이는 두 집단이 비슷한 사람들로 구성되어 있는지 여부를 통해 확인할 수 있다. - 다시말해, 채식만 했던 그룹보다 왕이 준 음식들을 먹은 그룹이 원래부터 더 건강했다면, 실험 후 왕이 준 음식들을 먹은 그룹이 더 건강하다고 해서 이게 음식 때문인지, 원래의 상태 때문인지 파악할 수 없다.

오랫동안 통계학에서 인과추론이 비주류였기 때문에, Confounding을 해소하려는 시도가 최근에서야 활발하게 진행되었다. 그리고 다음 두 가지가 학계에서 공통으로 인정하는 내용이다.

1. Confounding은 인과추론적인 접근 방법으로 해결해야 한다.

2. Causal Diagram은 완전하고 구조적인 해결방법을 제공한다.

본 챕터에서는 Confounding 연구의 역사와 Causal Diagram으로 어떻게 해결이 가능한지를 소개한다.

The Chilling Fear of Confounding

Confounder는 항상 존재하지만, 매 분석마다 이를 심각하게 고려해서, 모든 결과를 의심할 필요까지는 없다.

Confounder를 적절히 통제한 후(여러 가정들을 통해) 내린 결론은 해당 가정들을 피하기 위해 실행한 RCT만큼이나 값어치가 있다.

 

The Skillful Interrogation of Nature: Why RCTs Work

RCT를 통해 내린 결과 만큼은 (전통적인 통계학을 포함한) 모든 학문 분야에서 인과관계라고 해석한다. 

Randomization은 다음 두 가지 장점이 있다. 

1. Confounder bias를 제거한다.

2. 불확실성의 정량화가 가능하다.

Fisher를 중심으로 한 전통적인 통계학은 Randomization의 장점 중 후자에 집중했었다. Fisher는 soil과 식물 성장을 통한 실험에서 산출물의 불확실성에 주목했다. (불확실성 자체는 문제가 아니다. 이를 통제할 수 없는 것이 문제이다.) Fisher는 Randomization process를 통제함으로써, 불확실성 자체도 통제할 수 있었다. 

반면에 그는 1번 장점을 수학적으로 표현할 수 있는 인과추론 개념이 부족했다. 

하지만 이제는 do-operator 개념을 통해 Randomization이 Confounder bias를 제거하는지 설명할 수 있다.

<Figure 4-4> Model 1: 현실 (Confounder를 통제하기 어려움)

Fertilizer -> Yield

Soil Fertility -> Fertilizer, Yield

Texture -> Fertilizer, Yield

Drainage -> Fertilizer, Yield

Microflora -> Fertilizer, Yield

Other -> Fertilizer, Yield

 

<Figure 4-5> Model 2: 우리가 궁금한 것 (Confounder가 Fertilizer에 주는 영향 제거)

Fertilzer = 1-> Yield

Soil Fertility -> Fertilizer, Yield

Texture -> Fertilizer, Yield

Drainage -> Fertilizer, Yield

Microflora -> Fertilizer, Yield

Other -> Fertilizer, Yield

 

<Figure 4-6> Model 3: RCT 적용 

Random Card -> Fertilzer = 1

Soil Fertility -> Fertilizer, Yield

Texture -> Fertilizer, Yield

Drainage -> Fertilizer, Yield

Microflora -> Fertilizer, Yield

Other -> Fertilizer, Yield

The New Paradigm of Confounding

Confounding의 정의:

- P(Y | X) != P(Y | do(X))를 만드는 (둘 사이를 다르게 만드는) 모든 것

이후 Confounding을 정의하려는 시도의 역사 설명 

The Do-Operator and the Back-Door Criterion

do-operator의 기능: Causal Diagram에서 X로 향하는 화살표들을 모두 제거 => X에 대한 information이 noncausal direction으로 흘러가는 것을 방지

이후 causal diagram 예시에서 do-operator를 적절히 적용하는 예제

+ Recent posts