Korea Summer Session on Causal Inference 2021을 듣고, 강의 내내 소개된 주다 펄 교수님의 The Book of Why를 구매했다.

한국 번역본이 없어서, 원서로 쿠팡에서 구매했다.

원서이기도 하고, 애초에 인과추론을 공부하기 위해 산 책인 만큼 챕터별 요약 및 독후감을 블로그에 남기고자 한다.

 

Intro. Mind over Data

서론

"causal inference"는 new science다.

- 인류는 "왜"라는 질문을 할 수 있었기에 진보했다. -> 이 질문을 학문적으로 접근하는게 "causal inference"

- 그동안은 "왜"를 표현할 수 있는 적절한 언어가 부재했다. -> "causal inference"가 시도한 것이 이를 수학적 언어로 표현한 것 -> 원인, 결과를 설명할 수 있는 과학족 도구가 된다.

- 데이터만으로는 의사결정을 할 수가 없다. -> 데이터를 해석할 수 있는 framework이 필요하고 "causal inference"가 이를 제공해준다.

 

"causal inference"의 두 가지 표현 방법 (언어)

1. causal diagram

- 점(변수)과 화살표(관계)로 이루어짐 -> 그리기 쉬움

 

2. mathematica equations

- 통계학에 기초

 

do-operator

: 특정 변수를 관찰에 그치는 것이 아닌 개입을 하는 (상상 or 실제의) 행위

- 전통 통계학에서는 표현하지 못한, 인과 추론에서의 핵심적인 개념

- 약물이 수명에 인과적인 영향이 있는지를 파악하기 위해서는 P(L|D)가 아니라, P(L|do(D))를 계산해야 한다.

    - P(L|D): 약물을 먹거나 먹지 않았을 때의 수명 (환자의 의지가 교란변수 (confounder)로 있을 수 있다)

    - P(L|do(D)): 약물을 강제로 먹이거나 먹이지 않았을 때의 수명 (환자의 의지를 제거한다)

 

A Blueprint of Reality

추론 엔진 (Inference Engine)은 3가지 input을 받는다.

: Assumptions, Queries, Data

3가지 output을 출력한다.

1. Whether given Query can be answered?

2. Estimand = mathematica formula (데이터로 Query의 정답을 도출하는 기작)

    - ex) 약물 X를 N 만큼 복용하면, 기대수명 E(L)을 f(X, N, L)만큼 높인다. => 여기서 f(X, N, L)이 Estimand

3. Estimate = f(X_real, N_real, L) (실제 Data로 구한 추정값)

    - uncertainty도 함께 출력

 

더 세부적으로는 아래 9개 과정을 거친다.

1. Knowldege

2. Assumptions

3. Causal Model

4. Testable Implications

5. Query

6. Can the query be answered? -> No: 2, 3으로 복귀

     -> Yes: find Estimand

     모든 Query가 answerable하지는 않다! 만약 외부 변수 Z가 D와 L에 모두 영향을 주는데도, Z를 계산에 포함 못한다면 Causal Model을 개선해야 한다.

7. Data

8. Statistical Estimation (<= Estimand w. Data) 

9. Estimate (Answer to Query)

 

이 구조도 없이 Data만 잔뜩 모으는 것은 "왜?"라는 질문을 절대 대답할 수 없다.

+ 이 구조도를 갖추고 있으면, 새로운 Data가 들어와도 예측이 가능하다. (일반적인 ML, DL은 그렇지 못한다. - 새로운 Data가 오면 함수를 새로 fitting해야 한다.)

 

 

추후 목차 소개

Chatper 1.

- 인과추론의 사다리: 관찰 -> 개입 -> Counterfactual

- Causal diagrams를 활용한 추론의 기초

 

Chapter 2. 

- Data에만 의존했던 지난 통계학의 맹점

- Sewall Wright: 최초로 Causal Diagram을 그렸던 유전학자

 

Chapter 3.

- Bayesian Networks 개념

- 왜 AI 분야에 Bayesian Networks가 중요한가

- 실생활을 Bayesian Networks로 표현한 예시

 

Chapter 4.

- RCT: Randomized Controlled Trial

= P(L|do(D))를 구하는 인류가 발명한 도구

 

Chapter 5.

- 실제 예시: Smoking -> Lung cancer

- Causal Question을 답하는데의 적절한 언어와 방법론의 중요성

 

Chapter 6

- Paradox 예시들: Monty Hall, Simpson, Berkson 등

- 인간의 직관은 인과적 추론에 기초하지, 통계적 추론에 기초하지 않는다.

 

Chapter 7

- 개입 (intervention)

- "causal inference engine"의 내부 기관들 설명

- back-door adjustment

- front-door adjustment

- instrumental variables

 

Chapter 8

- Counterfactuals

- "원인"은 "결과"에 "차이"를 만들어내는 것 + 그리고 그 "차이"는, "원인"이 없었다면 일어나지 않았을 차이여야 한다.

 

Chapter 9

- Mediation

- 원인이 결과에 주는 영향이 "직접적"인가, "간접적"인가

- 수학적 표현 방법과, 위 질문을 해결하는 인과추론 방법론들

 

Chapter 10

- AI와 인과추론

 

+ Recent posts