Korea Summer Session on Causal Inference 2021을 듣고, 강의 내내 소개된 주다 펄 교수님의 The Book of Why를 구매했다.
한국 번역본이 없어서, 원서로 쿠팡에서 구매했다.
원서이기도 하고, 애초에 인과추론을 공부하기 위해 산 책인 만큼 챕터별 요약 및 독후감을 블로그에 남기고자 한다.
Intro. Mind over Data
서론
"causal inference"는 new science다.
- 인류는 "왜"라는 질문을 할 수 있었기에 진보했다. -> 이 질문을 학문적으로 접근하는게 "causal inference"
- 그동안은 "왜"를 표현할 수 있는 적절한 언어가 부재했다. -> "causal inference"가 시도한 것이 이를 수학적 언어로 표현한 것 -> 원인, 결과를 설명할 수 있는 과학족 도구가 된다.
- 데이터만으로는 의사결정을 할 수가 없다. -> 데이터를 해석할 수 있는 framework이 필요하고 "causal inference"가 이를 제공해준다.
"causal inference"의 두 가지 표현 방법 (언어)
1. causal diagram
- 점(변수)과 화살표(관계)로 이루어짐 -> 그리기 쉬움
2. mathematica equations
- 통계학에 기초
do-operator
: 특정 변수를 관찰에 그치는 것이 아닌 개입을 하는 (상상 or 실제의) 행위
- 전통 통계학에서는 표현하지 못한, 인과 추론에서의 핵심적인 개념
- 약물이 수명에 인과적인 영향이 있는지를 파악하기 위해서는 P(L|D)가 아니라, P(L|do(D))를 계산해야 한다.
- P(L|D): 약물을 먹거나 먹지 않았을 때의 수명 (환자의 의지가 교란변수 (confounder)로 있을 수 있다)
- P(L|do(D)): 약물을 강제로 먹이거나 먹이지 않았을 때의 수명 (환자의 의지를 제거한다)
A Blueprint of Reality
추론 엔진 (Inference Engine)은 3가지 input을 받는다.
: Assumptions, Queries, Data
3가지 output을 출력한다.
1. Whether given Query can be answered?
2. Estimand = mathematica formula (데이터로 Query의 정답을 도출하는 기작)
- ex) 약물 X를 N 만큼 복용하면, 기대수명 E(L)을 f(X, N, L)만큼 높인다. => 여기서 f(X, N, L)이 Estimand
3. Estimate = f(X_real, N_real, L) (실제 Data로 구한 추정값)
- uncertainty도 함께 출력
더 세부적으로는 아래 9개 과정을 거친다.
1. Knowldege
2. Assumptions
3. Causal Model
4. Testable Implications
5. Query
6. Can the query be answered? -> No: 2, 3으로 복귀
-> Yes: find Estimand
모든 Query가 answerable하지는 않다! 만약 외부 변수 Z가 D와 L에 모두 영향을 주는데도, Z를 계산에 포함 못한다면 Causal Model을 개선해야 한다.
7. Data
8. Statistical Estimation (<= Estimand w. Data)
9. Estimate (Answer to Query)
이 구조도 없이 Data만 잔뜩 모으는 것은 "왜?"라는 질문을 절대 대답할 수 없다.
+ 이 구조도를 갖추고 있으면, 새로운 Data가 들어와도 예측이 가능하다. (일반적인 ML, DL은 그렇지 못한다. - 새로운 Data가 오면 함수를 새로 fitting해야 한다.)
추후 목차 소개
Chatper 1.
- 인과추론의 사다리: 관찰 -> 개입 -> Counterfactual
- Causal diagrams를 활용한 추론의 기초
Chapter 2.
- Data에만 의존했던 지난 통계학의 맹점
- Sewall Wright: 최초로 Causal Diagram을 그렸던 유전학자
Chapter 3.
- Bayesian Networks 개념
- 왜 AI 분야에 Bayesian Networks가 중요한가
- 실생활을 Bayesian Networks로 표현한 예시
Chapter 4.
- RCT: Randomized Controlled Trial
= P(L|do(D))를 구하는 인류가 발명한 도구
Chapter 5.
- 실제 예시: Smoking -> Lung cancer
- Causal Question을 답하는데의 적절한 언어와 방법론의 중요성
Chapter 6
- Paradox 예시들: Monty Hall, Simpson, Berkson 등
- 인간의 직관은 인과적 추론에 기초하지, 통계적 추론에 기초하지 않는다.
Chapter 7
- 개입 (intervention)
- "causal inference engine"의 내부 기관들 설명
- back-door adjustment
- front-door adjustment
- instrumental variables
Chapter 8
- Counterfactuals
- "원인"은 "결과"에 "차이"를 만들어내는 것 + 그리고 그 "차이"는, "원인"이 없었다면 일어나지 않았을 차이여야 한다.
Chapter 9
- Mediation
- 원인이 결과에 주는 영향이 "직접적"인가, "간접적"인가
- 수학적 표현 방법과, 위 질문을 해결하는 인과추론 방법론들
Chapter 10
- AI와 인과추론