앞의 내용들 복습

Chapter 4. RCT

Chpater 7. treatment가 random이 아닐 경우의 인과관계 분석 방법 (do-calculus or its algorithmic versions)

- back-door adjustment

- front-door adjustment

- instrumental variable

지금까지는 집달의 평균 차원에서만 인과관계를 분석했다.

하지만, 개별 단위에서의 인과관계 분석은 불가능했다. (ex. "평생 담배를 펴온 내 삼촌이, 담배를 안 폈다면 폐암에 안 걸렸을까?")

이번 챕터에서 다루는 내용: 관찰 데이터와 실험 데이터를 통해 counterfactual scenario (평행우주에서의 다른 시나리오)를 어떻게 도출할 수 있는지를 배운다.

 

개요

1. counterfactual이 발전되어 온 역사 소개

2. Structural Causal Model 을 통한 counterfactual 설명 (Neyman-Rubin paradigm과 비교) - causal diagram을 활용

3. counterfactual의 두 가지 적용 예시

    - 법조계: but-for causation ("...이 없었다면")

    - 지구 온난화: necessary causation, sufficient causation, necessary-and-sufficient causation

From Thucydides and Abraham to Hume and Lewis

counterfactual의 역사

<고대>

고대 그리스 역사가 Thucydides: 426 BC에 발생한 쓰나미를 설명하면서, "바다에서 지진이 없었다면 쓰나미도 없었을 것이다"라는 과학적 기술

성경에서 아브라함의 일화: 소돔과 고모라를 파괴하기 전, 하나님이 50명의 착한 사람이 있다면 파괴하지 않겠다는 약속을 하심

- 45명은? -> 49명은? -> ...

=> causation의 강도(sufficient한가?)를 묘사하는 중요한 예시

 

<근대>

철학자 David Hume의 대담한 주장: "인과관계는 사물(또는 현상)과 관련된 우리 자신의 기억과 경험일 뿐이다."

=> A -> B(A가 B의 원인이라는 진술)은 A가 B를 발생시키는 것이 아닌, A가 일어난 후 B가 일어나는 현상을 자주 목격한 우리의 정신적인 묘사일 뿐이다.

이후 다음 주장을 더함

A -> B은 "A가 없다면 B도 없다"는 조건도 추가로 필요 => counterfactual에 대한 힌트!

결론 적으로 A -> B는 다음 두 가지 조건을 충족해야 한다.

1. A 발생 후 B가 발생해야 한다. (correlation)

2. A가 발생 안했다면 B도 발생 안해야 한다. (counterfactual적 조건)

 

<현대>

철학자 David Lewis의 counterfactual 정의: 실제 발생한 사건에 대한 대체 기술(statement) (발생할 것 같은 사건에 대한 기술)

우리의 수많은 (일상적인) 의사결정은 counterfactual에 기반한다.

ex. "당신의 두통은 아스피린을 먹는다 사라질 것이다." = 아스피린을 먹은 상황과 안 먹은 상황을 비교했을 때, 먹은 상황이 더 나을 것이다.

이 때, 아스피린을 먹은 상황과 안 먹은 상황은 아스피린이라는 변수를 제외하고는 거의 비슷한 상황(세계)이다. 

결국, 실제 발생한 사건을 그것이 발생하지 않은 사건들 중 가장 비슷한 세계가 바로 counterfactual

 

이를 구조화, 체계화할 수 있게 된 것은 Causal Diagram 덕분

 

 

Potential Outcomes, Structural Equations, And the Algorithmization of Counterfactuals

Donald Rubin이라는 통계학자에 의해 Counterfactual을 구하는(Treatment의 효과를 계산하는) framework이 발전했다: Potential Outcome Framework

Potential outcome of Y: X->Y일 때, 개별 인원 u가 X=x이면 갖는 값 - 표현 식 Y_{X=x}(u) (더 줄여서 Y_x(u)로 표현)

- 주목할 점은 집단이 아닌 개별값을 계산한다는 것!

 

Table 8.1을 통해 Potential Outcome Framework의 한계를 설명

답하고자 하는 질문: 교육의 정도가 급여에 얼마나 영향을 줄까? 

- ED: 교육의 정도 (0, 1, 2)

- EX: 업무 연차

- S: 급여

 

1. Potential Outcome Framework는 인과추론의 본질적인 문제가 missing data에 있다고 본다.

ex) Alice는 ED=0이기 때문에 S_0(u)만 값을 갖고, S_1(u), S_2(u)는 알 수 없다.

2. 그리고 이 missing data를 채우는 것(imputing)이 문제 해결(인과관계 분석)이라는 것이 Potential Outcome Framework의 정수 <- 작가는 이것이 잘못되었다고 주장한다.

imputing method 1: Matching

- 작가는 Matching은 conditioning(or stratifying)과 다를게 없다고 주장

    - 어떤 individual A와는 matching할 데이터가 없는 경우도 있고

    - model-free conditioning의 위험이 그대로 존재한다. (unobserved confounders, conditioning colliders)

imputing method 2: Linear Regression

- Eq. 8.1과 같은 수식으로 표현 (S = C + a * EX + b * ED)

- Regression은 상관관계만 표현할 뿐 인과관계를 해석할 수 없다. 

- 예를 들어, ED와 EX가 서로 관계가 있다면(교육을 오래 받을 수록 업무 연차는 줄어들 수 밖에 없다.), 이 관계도 함께 표현해줘야 한다. => 결국 causal story (=model)이 필요하다.

 

따라서 SCM (Structural Causal Model)이 필요하다.

- 모델이 가장 중요하다.

    - EX -> ED, ED -> S, EX -> S (EX가 confounder)냐 vs ED -> EX, ED -> S, EX -> S (EX가 mediator)냐에 따라 적용되는 계산 방식이 완전히 달라진다.

- 위의 예시처럼 후자(Figure 8.3)의 모델이라고 가정하자. (U는 unobserved variable (잔차))

    - Eq. 8.2: S = C + a * EX + b * ED + U_S

    - Eq. 8.3: EX = K - k * ED + U_EX

- S_1(Alice)를 계산하는 방법

    1. Abuction: U_S(Alice)와 U_EX(Alice) 계산(data와 모델 사용)

    2. Action: ED = 1 (do-operator)

    3. Prediction: S_1(Alice) 계산

 

No free lunch: 모델을 미리 산정해놓는 아주 강한 가정이 필요하다.

- 이런 모델을 functional form으로 산정해놓는 것이 현실에서 항상 가능한 것은 아니다. (결국 domain 지식이 중요)

 

The Virtue of Seeing Your Assumptions

Potential Outcome Framework에 필요한 가정들

Causal Graph의 용이함을 활용할 수 없기 때문에 Potential Outcome Framework는 몇 가지 가정이 필요하다.

(이런 가정들이 충족되어야 하기 때문에, Potential Outcome Framework도 모델 기반의 분석)

 

1. SUTVA: stable unit treatment value assumption

특정 개인이 받는 treatment의 효과는 다른 개인이 받는 treatment의 효과와 무관하다.

ex. 내가 아스피린을 먹어서 받는 효과는, 옆에 친구가 아스피린을 먹었는지와 무관하다.

 

2. Consistency

특정 개인이 받는 treatment의 효과는 항상 일정하다.

ex. (아스피린이 효과가 있다면) 아스피린을 먹으면 효과가 있을 것이고, 플라시보를 먹으면 효과가 없을 것이다.

 

3. Ignorability (=Exchangeability)

(가장 중요)

모든 개인은 각자가 control 그룹인지 treatment 그룹인지가 실험 결과와 무관해야 한다.

만약 Ignorability가 안 지켜진다면?

: 아스피린의 효과 실험을 할 때 어떤 개인 u_1가 control일 때는 한 겨울에도 반팔만 입고 생활하다가, treatment 그룹일 때는 잘 따뜻하게 입고 지낸다면, 아스피린의 효과를 검증하기 어려울 것이다.

 

Causal Diagram을 통한 Ignorability 확인

Z를 통제했을 때, X가 Y에 대해 ignorable한지 확인하려면 두 가지 조건을 확인하면 된다.

1. Z가 X -> Y의 모든 backdoor path를 차단해야 한다

2. Z가 X의 descendant면 안된다

 

Counterfacutal을 표현하는 데에 Causal Diagram이 답이라는 것을 찾아온 과정

SCM은 그 자체로 몇 가지 주요 가정들이 내포되어 있다.

아래 순서로 가정들이 추가된다.

1. Probabilistic Bayesian Network에서의 "-> Y" 의미: Y의 부모 인자들의 관찰 데이터가 주어졌을 때, Y의 확률분포표에 의해 Y=y의 확률이 결정됨

2. Causal Bayesian Network에서의 "-> Y"의 의미: 1번과 동일하지만, 확률분포표가 관찰 데이터에 의해 주어진 것이 아닌 부모 인자들에 대한 intervention에 의해 구해짐

3. SCM에서의 "-> Y"의 의미: Y는 부모인자들에 의한 함수 (Y = f_Y(X, A, B, .... U)

    => The response function

 

따라서 counterfactual 질문에 답하기 위해서는 각 노드 사이의 정량적인 관계가 규명되어야 한다.

 

작가가 SCM이 답이라는 것을 찾기 전, SEM (Structural Equation Models)에 의탁했었음.

: SEM을 활용하면 모든 변수에 대해 counterfactual을 계산할 수 있음!

SCM은 SEM보다 더 좋은데, SEM과 달리 linearity를 가정할 필요가 없음

 

결론적으로 Causal Diagram과 response function을 알면 모든 counterfactual query들에 대응 가능하다.

다음 내용들은 그 적용 예시들

Counterfactuals and the Law

법조계에는 but-for causation을 통해 인과간계를 규명하는 framework이 자리잡혀 있다. 

피고인의 행위가 "직접적인 원인"일 때 유죄로 판단

여기서, 직접적인 원인을 설명하는 데에는 PN (Probability of Necessity)과 PS (Probability of Sufficiency) 개념이 필요하다.

 

Probability of Necessity vs Probability of Sufficiency

PN = P(Y_{X=0}=0 | X = 1, Y = 1)

- X=1은 Y=1이기 위한 필요조건 (집에 불이났을 때, 방화행위와 산소 모두 필요 조건)

- 이 때, X=0일 때 Y=0일 확률을 Probabilty of Necessity로 정의한다. (산소가 없다면 불이 안 날 확률, 방화행위를 안한다면 불이 안 날 확률)

- 참고로, do-operator로는 counterfactual을 파악할 수 없다.

 

PS = P(Y_{X=1}=1 | X = 0, Y = 0)

- Probability of Sufficiency는 X=1은 Y=1이기 위한 필요조건을 나타낸다.

- 법원에서는 PS가 너무 낮다면 피고의 행위를 유죄로 판단하지 않는다. (직접적인 원인이 아니라고 판단)

- 우리는 직관적으로 더 직접적일 것 같은 원인들을 파악할 수 있다.

- 예시

    1. 방화행위를 하지 않았다면, 집은 불타지 않았을 것이다.

    2. 산소가 없었다면, 집은 불타지 않았을 것이다.

    - 1번 2번 둘 다 참 (두 명제 모두 PN=1)

    - 하지만 2번 진술에서, 산소는 일반적으로 항상 존재한다. => 따라서 X=1이라고 Y=1일 확률은 매우 낮다. (PS가 매우 낮다.)

    - 1번, 2번 모두 PN=1이지만, 1번은 PS가 높은데 반해, 2번은 PS가 낮으므로 방화행위가 더 "직접적인 원인"이라고 판단한다.

 

인공지능에게 인과관계를 가르쳐준다면, PN뿐만 아니라 PS도 계산할 수 있게 해야한다.

(렇지 않다면 "산소 때문에 집에 불이 났다"라는 쓸 데 없는 진술만 하게 될 것)

 

Necessary Causes, Sufficient Causes, and Climate Change

지구 온난화에 대한 연구에서 PN, PS를 적용한 예시를 알아보자.

2003년 8월 프랑스에서 갑작스러운 초고온현상으로 많은 사상자 발생

-> 해당 초고온현상을 지구 온난화 때문이라고 판단할 수 있을까?

옥스포드의 기상 물리학자 Myles Allen이 정의한 지표 FAR (fraction of attributable risk): 기후 변화의 영향을 측정

- 두 가지 확률을 계산해야 함

- p_0: 기후 변화(1800년대 산업혁명 이전) 이전 이상현상이 발생할 확률

- p_1: 기후 변화 이후 이상현상이 발생할 확률

FAR: p_0에서 p_1로 변한 만큼이 기후변화의 영향이라고 설명할 수 있다. 

아래 두 조건이 충족되면 FAR은 PN과 동일한 의미

1. 기후 변화(온실 가스 배출)와 이상 현상 사이의 confounder가 없어야 함

2. monotonicity 가정: 기후 변화가 이상 현상을 방지하는 효과가 있으면 안된다.

 

영국 기상 서비스 회사인 Met Office의 Allen 과 Peter Scott의 연구: 유럽 여름에서의 이상 현상(평균 기온보다 1.6도 이상 높아지는 현상)의 절반의 원인은 인간 때문이다.

- 인과추론을 적용할 수 없기 때문에 매우 난해하게 기술됨

-> 작가의 재기술: 이산화탄소 배출은 2003년 이상 고온 현상의 necessary cause이다.

 

기상학자 Alexis Hannart는 기후 변화 연구에 causal model을 적극 차용

- 기후 변화의 Causal Diagram을 그림: Greenhouse Gases와 Climate Response 사이에 confounder가 없다고 판단 

- 2003년 이상 고온현상과 기후 변화 사이의 PN, PS 계산

    - 기후 변화의 PS는 매우 작다: 단기간의 개별 사건의 PS를 계산하면 작을 수 밖에 없다.

    - 하지만 PN은 매우 컸다. 

- PS를 계산하는 기간을 길게 잡을수록 커진다: 기후 변화가 장기적으로 이상 고온현상이 일어날 확률을 높일 것

- (반면 PN은 감소한다: 기후 변화 외의 다른 원인들이 주는 영향이 causal model에 추가되면서 전체 원인에서 차지하는 볼륨이 줄어든다.)

 

PN, PS 개념이 학자들 사이에서도 일반적이지 않기 때문에 연구마다 다른 주장을 하는 경우가 지금도 많이 있다.

어떤 연구는 PN으로 계산해서 기후 변화가 기상 이변의 원인이라고 주장하는 반면,

다른 연구는 PS로 계산해서 기후 변화의 영향이 매우 작다고 해석한다.

결론적으로 기상 이변과 같은 short-term analysis를 하는 데에 PS를 도입할 때는 기준치를 잘 설정해야 한다. (기준치를 너무 harsh하게 설정하면 원인의 영향을 과소해석하는 것)

 

오늘날 기상 예측 시스템은 단기간 기상 예측은 가능하지만, 장기간의 기후 변화를 예측하지는 못하고 있다.

Causal Modeling을 통해 기후 변화의 장기간 예측에 대한 연구도 활발해져야 한다.

 

A World of Counterfactuals

Counterfactual은 인류가 세상을 이해하는 데에 필수적인 분석 방법론이었다.

이번 챕터에서 소개하지 않은 Counterfactual의 주요 내용들

 

1. ETT (Effect of Treatment on the Treated)

- 약물의 효과를 검증할 때 쓰는 기법

- RCT를 할 수 없을 때, Treatment를 받은 사람들이 Treatment를 안 받았을 때의 상황을 구해서 Treatment의 effect를 계산

 

2. Mediation Analysis

- Chapter 9에서 본격 적으로 다룬다.

- Direct Effect와 Indirect Effect를 구분해낼 수 있음

- 놀랍게도, 이 분석에 Counterfactual 개념이 필요함!

+ Recent posts