성경의 다니엘 예시.
바빌론의 왕이 뽑은 총명한 소년들(?) 중 하나였던 다니엘은, 성경의 교리에 따르지 않는 육식은 할 수 없었다.
이는 당시 감독관을 매우 곤란하게 했는데, 왕이 소년들을 위해 마련해놓은 귀한 음식들을 먹지않는다면 최대 사형까지 시킬 수 있기 때문이다.
다니엘은 자신의 주장으로 감독관, 나아가 왕에게까지 설득시키기 위해, 다음 실험을 제안한다.
한 그룹은 채식만 시키고(실험군), 다른 그룹은 왕이 준 음식들을 먹인다(대조군).
이는 최초의 RCT(Randomized Controlled Trial)이다.
하지만, 한 가지 조건을 반드시 챙겨야 한다.
바로 Confounding bias가 없는지이다. 이는 두 집단이 비슷한 사람들로 구성되어 있는지 여부를 통해 확인할 수 있다. - 다시말해, 채식만 했던 그룹보다 왕이 준 음식들을 먹은 그룹이 원래부터 더 건강했다면, 실험 후 왕이 준 음식들을 먹은 그룹이 더 건강하다고 해서 이게 음식 때문인지, 원래의 상태 때문인지 파악할 수 없다.
오랫동안 통계학에서 인과추론이 비주류였기 때문에, Confounding을 해소하려는 시도가 최근에서야 활발하게 진행되었다. 그리고 다음 두 가지가 학계에서 공통으로 인정하는 내용이다.
1. Confounding은 인과추론적인 접근 방법으로 해결해야 한다.
2. Causal Diagram은 완전하고 구조적인 해결방법을 제공한다.
본 챕터에서는 Confounding 연구의 역사와 Causal Diagram으로 어떻게 해결이 가능한지를 소개한다.
The Chilling Fear of Confounding
Confounder는 항상 존재하지만, 매 분석마다 이를 심각하게 고려해서, 모든 결과를 의심할 필요까지는 없다.
Confounder를 적절히 통제한 후(여러 가정들을 통해) 내린 결론은 해당 가정들을 피하기 위해 실행한 RCT만큼이나 값어치가 있다.
The Skillful Interrogation of Nature: Why RCTs Work
RCT를 통해 내린 결과 만큼은 (전통적인 통계학을 포함한) 모든 학문 분야에서 인과관계라고 해석한다.
Randomization은 다음 두 가지 장점이 있다.
1. Confounder bias를 제거한다.
2. 불확실성의 정량화가 가능하다.
Fisher를 중심으로 한 전통적인 통계학은 Randomization의 장점 중 후자에 집중했었다. Fisher는 soil과 식물 성장을 통한 실험에서 산출물의 불확실성에 주목했다. (불확실성 자체는 문제가 아니다. 이를 통제할 수 없는 것이 문제이다.) Fisher는 Randomization process를 통제함으로써, 불확실성 자체도 통제할 수 있었다.
반면에 그는 1번 장점을 수학적으로 표현할 수 있는 인과추론 개념이 부족했다.
하지만 이제는 do-operator 개념을 통해 Randomization이 Confounder bias를 제거하는지 설명할 수 있다.
<Figure 4-4> Model 1: 현실 (Confounder를 통제하기 어려움)
Fertilizer -> Yield
Soil Fertility -> Fertilizer, Yield
Texture -> Fertilizer, Yield
Drainage -> Fertilizer, Yield
Microflora -> Fertilizer, Yield
Other -> Fertilizer, Yield
<Figure 4-5> Model 2: 우리가 궁금한 것 (Confounder가 Fertilizer에 주는 영향 제거)
Fertilzer = 1-> Yield
Soil Fertility -> Fertilizer, Yield
Texture -> Fertilizer, Yield
Drainage -> Fertilizer, Yield
Microflora -> Fertilizer, Yield
Other -> Fertilizer, Yield
<Figure 4-6> Model 3: RCT 적용
Random Card -> Fertilzer = 1
Soil Fertility -> Fertilizer, Yield
Texture -> Fertilizer, Yield
Drainage -> Fertilizer, Yield
Microflora -> Fertilizer, Yield
Other -> Fertilizer, Yield
The New Paradigm of Confounding
Confounding의 정의:
- P(Y | X) != P(Y | do(X))를 만드는 (둘 사이를 다르게 만드는) 모든 것
이후 Confounding을 정의하려는 시도의 역사 설명
The Do-Operator and the Back-Door Criterion
do-operator의 기능: Causal Diagram에서 X로 향하는 화살표들을 모두 제거 => X에 대한 information이 noncausal direction으로 흘러가는 것을 방지
이후 causal diagram 예시에서 do-operator를 적절히 적용하는 예제
'Statistics > Causal Inference' 카테고리의 다른 글
[The Book of Why] 6. Paradoxes Galore! (0) | 2023.10.28 |
---|---|
[The Book of Why] 5. The Smoke-Filled Debate: Clearing the Air (2) | 2023.10.10 |
[The Book of Why] 3. From Evidence to Causes: Reverend Bayes Meets Mr. Homles (0) | 2023.06.18 |
[The Book of Why] 2. From Buccaneers to Guinea Pigs: The Genesis of Causal Inference (1) | 2023.05.14 |
[The Book of Why] 1. The Ladder of Causation (0) | 2023.05.07 |