두 가지 종류의 "왜?"라는 질문이 있다.

1번: 결과에 대한 원인에 대한 질문 (왜 그 환자는 심장마비가 왔는가? = 무엇 때문에 심장마비가 왔는가?)

2번: 원인이 어떤 기작(Mechanism)으로 결과를 발생시켰는지에 대한 질문 (신 음식은 어떤 원리로 괴혈병을 예방하는가?)

 

이번 챕터에서는 2번 질문에 관한 이야기다.

 

과학에서 기작을 알아내는 것은 매우 중요한데, 다른 상황에 따라 다른 action을 할 수 있기 때문이다.

만약 오렌지가 없어도, 괴혈병의 기작을 안다면 - 오렌지의 대체품으로 괴혈병을 예방할 수 있다.

 

이 2번 질문을 표현하는 용어는 "mediation"이다.

("오렌지 -> 비타민 C -> 괴혈병" 처럼 어떤 기작, 즉 오렌지가 어떤 영향(비타민 C)을 통해서 괴혈병에 효과가 있는지를 밝혀내는 것이 목표다.)

이 질문을 답하려면 total effect를 direct effect와 indirect effect로 구분지어야 한다.

 

direct effect와 indirect effect를 정의하는 것도 인과추론 역사에서 매우 어려운 일이었는데, 필자 또한 여러 시행착오 끝에 counterfactual을 통해 정의할 수 있고 그들 또한 (식별을 위한) policy implication을 적용할 수 있음을 밝혀냈다.

 

Scurvy: The Wrong Mediator

신 음식이 괴혈병을 예방한다는 사실은 밝혀냈지만 그 기작에 대한 무지로 인해, 완전한 예방책을 만드는 데에는 상당히 오래 걸렸다.

처음 생각한 기작은 다음과 같았다.

신 과일 -> 산성 (Acidity) -> 괴혈병 예방

이 무지로 인해 신 과일을 "끓이는" 오류를 범했고, 괴혈병을 예방하지 못했다.

실제 기작은 다음과 같았다. (끓이는 바람에 비타민 C를 파괴했고, 결과적으로 괴혈병을 예방하지 못했다.)

신 과일 -> 비타민 C -> 괴혈병 예방

Nature VS Nurture: Tragedy of Barbara Burks

mediator를 diagram으로 최초로 표현한 사람은 1926년 스탠포드 대학원생 Barbar Burks 였다. (Sewall Wright의 연구와는 별개였고, 심지어 시기도 더 빨랐다.)

그녀의 연구 주제는 "지능이 타고나는 것인지 육아에 의해 길러지는 것인지"였다.

(이미 여러 기간 동안 연구되었던 주제지만) 그녀의 시도가 참신했던 것은 다음 질문을 그래프로 표현했다는 것이다.

- 부모의 지능이 아이의 지능에 끼치는 직접적인 영향(Parental Intelligence -> Child's Intelligence)과 간접적인 영향 (Parental Intelligence -> Social Status -> Child's Intelligence)이 각각 얼마나 될까?

 

(그녀는 양방향 그래프를 사용했지만) 단순화를 위해 단방향 그래프를 가정 하자

Parental Intelligence -> Child's Intelligence

Parental Intelligence -> Social Status -> Child's Intelligence

 

Burks는 가정 방문을 통해 데이터를 습득했고 육아의 영향은 받았지만 유전의 영향은 받지 않은 입양아들의 데이터를 모았다.

이 데이터를 통해 부모의 지능이 아이의 지능에 끼치는 직접적인 기여는 35% 정도밖에 안됨을 밝혀냈다. (다시 말해 부모가 사회 평균보다 15% 정도 IQ가 높다면, 그들의 아이들은 평균보다 5% 정도 높다는 것이다.)

 

이 연구에서 그녀는 Collider에 해당하는 변수들을 통제하면 안된다는 사실을 알아냈는데, 이는 당시 통계학계 통념에 반하는(상관관계에서 변수를 통제하면 인과관계를 이야기할 수 있다는 통념을 반박하는) 것이었다.

예를 들어, Social Status와 Child's Intelligence에 동시에 영향을 주는 교란 변수 X가 있을 때, Social Status를 통제하면 Parental Intelligence와 X에 의한 Collider Bias가 생긴다. (Parental Intelligence -> Social Status <- X -> Child's Intelligence)

이는 Chapter 4에서 다룬 M-bias의 전형적인 예시인데, 당시에는 잘 받아들여지지 못했다.

 

In Search of a Language (The Berkeley Admissions Paradox)

Burks의 연구에도 불구하고, direct 와 indirect effect에 대한 개념이 통계학에 적용되지 못하고 있었다. 

1973년 심슨의 역설을 보여주는 사례로 California University의 입학률이 있었다.

당시 Berkeley 대학원의 합격률을 보면, 남성들은 44%인데 반해 여성들은 35%였다. 남녀차별이 있는 것인지에 대한 조사가 필요했다.

조사를 하다 발견한 놀라운 사실이, 부서별 합격률을 봤을 때는 모두 여성들이 남성보다 높았다는 것이었다. 어떻게 이럴 수 있을까?

Chapter 6에서 심슨의 역설을 다룰 때 언급했듯이, 역설을 해결하는 정확한 방법은 당신이 답하고 싶은 질문이 무엇인지에 달려있다.

- 여기서는 "Berkeley 대학원이 여성을 차별하는가?"이다.

답은 절대 두 가지가 될 수 없다. 부서별로 남녀 차별이 없다면, 대학원 전체도 남녀 차별이 없다. (=부서별로 남녀차별이 있다면, 대학원 전체도 남녀 차별이 있다.)

결론은 다음과 같았다.

- 남녀 차별은 없었다.

- 대학원 전체에서 여성들의 합격률이 더 낮았던 것은, 그들이 합격이 어려운 부서에 더 많이 지원했기 때문이다.

전체 평균은 각 부서별 평균을 가중 평균으로 계산한 것이다.

어려운 부서의 합격률 (r_a):

    - 여성: a_f / A_f = r_af

    - 남성: a_m / A_m = r_am

쉬운 부서의 합격률 (r_b): 

    - 여성: b_f / B_f = r_bf

    - 남성: b_m / B_m = r_bm

 

r_a < r_b이고 A_f > B_f, A_m < B_m이다.

따라서 여성들 전체의 평균은 A쪽에 쏠리게 되어 있고 (r_a에 가깝다.)

남성들 전체의 평균은 B쪽에 쏠리게 되어 있다. (r_b에 가깝다.)

이로 인해 전체 평균이 남성들이 더 높게 나오는 것이다.

 

이 Berkeley 심슨의 역설을 분석한 통계학자 Peter Bickel은 bias와 discrimination을 구분짓는 중요한 정의를 했다.

- bias: 성별과 합격률이 보이는 상관관계 (인과추론에서의 1단계)

- discrimination: 성별이 관계 없음에도 합격 여부를 결정하는 데에 주요 변수로 활용하는 것 (인과추론에서 2, 3 단계: 개입)

 

Bickel은 부서(Department)별로 나눠서 평균을 계산하는 것이 남녀 차별이 존재하는지 파악하는 데에 적절한 분석이라고 주장했다.

Bickel의 분석이 맞는지 파악하기 위해 Causal Diagram을 그려보자.

Gender -> Department -> Outcome

Gender -> Outcome

 

여기서 남녀차별이 존재한다는 것은, Gender -> Outcome인 direct effect가 유의하게 존재한다는 뜻이다.

Bickel의 분석 방법은 타당하다. 부서별로 나눠서 평균을 계산한 것은 indirect path를 통제하고 direct path의 효과만 본 것이었기 때문이다.

 

하지만 이후 Kruskal이 이를 반박하는 주장을 하면서 더 흥미로워진다.

만약 "지역(Region)"이라는 변수에서 차별이 발생한다면 Bickel의 방법 (Department만 통제)으로는 차별 여부를 파악할 수 없다. (Kruskal은 Region에서 차별이 발생한다는 가정으로 원본과 똑같은 예시 데이터를 만들어냈다.)

이는 분명 Bickel의 방법론의 아픈 곳을 찌른 것이었다. 

(Kruskal은 해결방법까지는 제안하지 못했다. 심지어 이런 변수들이 잠재적으로 매우 많기 때문에 Bickel의 방법론은 무용하다고까지 주장했다.) 이를 Causal Diagram으로 표현해보자.

Gender -> Department -> Outcome

Gender -> Outcome

State of Residence -> Department -> Outcome

이는 위 Burks의 연구 사례와 동일한 그래프다!

Kruskal의 주장대로 State of Residence와 Department를 모두 통제해야 한다.

왜냐하면 위 Burks 연구 사례와 동일하게 Department만 통제할 경우 State of Residence로 인한 backdoor path가 열리는 Collider Bias가 발생한다. 

=> 이렇게 두 변수를 통제함으로써 Kruskal이 만든 예시 데이터에서 Region에 따른 차별까지 포착할 수 있었다.

 

당시는 Causal Diagram 개념이 없었기 때문에 Bickel은 Kruskal의 반박에 명쾌한 답변을 내리지 못했다. 하지만 그는 bias와 discrimination에 대해서는 올바른 정의를 내렸다.

bias는 수학적인 개념으로, 데이터를 어떻게 잘라보는지에 따라 달라진다. (지금까지의 예시처럼 정반대의 값을 도출하기도 한다.)

discrimnation은 인과적인 개념으로, 현실을 반영하고 데이터를 어떻게 잘라보는지와 상관없이 일정하다.

(결국 discrimination에 해당하는 bias를 찾아내는게 인과추론 아닐까?)

 

당시 통계학에 없던 개념이 "hold constant"이다.

Gender -> Outcome의 direct effect를 계산하려면 Department를 hold constant해야 한다.

다시 말해, 성별에 상관없이 부서(Department) 지원율을 일치시켜야 한다. (do())

이 개념이 없었기 때문에 당시 통계학자들은 피상적으로 비슷한 "부서별 통제(conditioning)"을 했다.

만약 Department와 Outcome 사이에 confounder가 없다면 Bickel의 분석(부서별 통제)은 옳았다. (seeing이 곧 doing이었다.)

하지만 Kruskal의 지적대로 State of Residence라는 confounder가 있다면, Bickel의 분석은 잘못된 방법이었다. (collider bias를 초래하므로)

 

필자는 이를 Mediation Fallacy라고 부른다. (mediator를 hold constant 해야 하는데, 통제(conditioning)하는 것)

confounder가 없다면 conditioning 도 옳은 방법이지만, 문제는 confounder의 존재여부를 파악하기가 어렵다는 것이다. 

이 Mediation Fallacy는 do-calculus로 극복 가능하다. (hold constant)

Daisy, The Kittens and Indirect Effects

direct effect, indirect effect에 대한 수학적 표현을 해보자.

X -> Y

X -> M -> Y

Direct Effect (X -> Y)

Y에 대한 X의 direct effect는 X를 wiggle하면서 M은 고정하는 것으로 구한다.

Berkeley 예시에서, 모든 지원자로 하여금 역사 부서에 지원하게 하는 것이다. (do(M=0))

그리고 지원자들이 그들의 성별을 (실제 성별과 상관 없이) 랜덤으로 제출하게끔 한다. (do(X=1), do(X=0))

이렇게 구한 합격률 차이를 controlled direct effect (CDE(0))라고 부른다.

CDE(0) = P(Y=1 | do(X=1), do(M=0)) - P(Y=0 | do(X=0), do(M=0))

CDE(0)에서 0의 의미는 M을 0로 고정했다는 뜻이다. CDE(1), CDE(2), ... 등으로 표현할 수 있다.

CDE의 문제는 이처럼 전체 효과를 얘기하지 못하고 국소적인 효과만 이야기할 수 있다는 것이다.

 

Natural Direct Effect (NDE): M을 고정하지 않고, X -> M에 맡긴다. 

NDE = P(Y_{M=M_0} = 1 | do(X=1)) - P(Y_{M=M_0} = 1 | do(X=0))

여기서 M(어떤 부서를 선택했는지는) 실제 성별에 의해 결정되고, Y는 fake 성별(do(X))에 의해 결정된다.

 

CDE 계산은 do-calculus를 통해 가능하다. 다시 말해, see expression으로 일컫는 관측된 데이터를 통해 do-expression (인과관계 표현)이 가능하다.

하지만 NDE는 더 어렵다. do-expression으로 표현이 불가능하기 때문이다. NDE는 counterfacutal 개념을 필요로 한다.

필자는 시행착오 끝에 Mediation Formula를 고안해 NDE를 observational data에서 인과관계를 밝힐 수 있는 유용한 도구로 만들었다.

 

Indirect Effect (X -> M -> Y)

indirect effect 는 CDE가 없다 (M을 고정한다거나 하는 식의 구현이 불가능하다.)

Natural Indirect Effect (NIE): X는 자연스러운 상태로 두고 M을 wiggle한다.

Daisy라는 필자 동료 강아지 예시로 개념을 정의하자.

Daisy는 자꾸 집 안에서 소변을 봐서 문제였다. 하지만 고양이 무리를 잠깐 집에 들여놨을 때, Daisy가 집에 소변을 안 보더라. 고양이 무리들이 집 밖을 나가자 Daisy가 다시 집 안에서 소변을 두기 시작했다.

아내의 주장: 고양이 무리가 Daisy를 군중압박(?)해서 집 밖에서 소변을 보게 했다. (Other Pets -> House Training) (direct effect)

동료의 주장: 고양이 무리로 인해 동료와 아내가 Daisy를 더 훈육하게 되었고 이로 인해 집 밖에서 소변을 보게되었다. (Other Pets -> Crating/Supervision -> House Training) (indirect effect)

direct effect인지 indirect effect인지를 검증하기 위해 다음과 같은 실험을 고안했다.

 

"Daisy를 고양이 무리가 없지만, 고양이 무리가 있었을 때처럼 훈육해보자"

: Other Pets = 0, Crating/Supervision = 1 (Counterfactual)로 만들자

만약 Daisy가 여전히 집에서 소변을 본다면 direct effect가 맞고, 소변을 안 본다면 indirect effect가 맞다.

수학적 표현

NIE = P(Y_{M=M_1} = 1 | do(X=0)) - P(Y_{M=M_0} = 1 | do(X=0))

M_1: 고양이 무리가 있었을 때와 동일한 환경 (훈육 환경)

M_0: 고양이 무리가 없을 때 와 동일한 환경

첫번째 P항은 counterfactual 환경에서의 확률, 두번째 P항은 normal 환경에서의 확률이다.

NDE와 마찬가지로 Mediation Formula를 이용하면 NIE도 observational data로 계산할 수 있다. (counterfactual항들을 소거/치환할 수 있다.)

 

Mediation In Linear Wonderland

여기까지 읽으면 counterfactual 개념까지 적용해서 direct effect와 indirect effect를 구해야 한다는 것이 너무 복잡하게 느껴질 수도 있다.

그냥 단순하게 이렇게 생각하면 안될까?

Total Effect = Direct Effect + Indirect Effect

결론부터 이야기하면 이 식은 틀렸다.

실제로 많은 약물들이 Direct Effect와 Indirect Effect를 동시에 야기하지만, 각각의 효과만 측정하면 0인 경우가 있다. (1 = 0 + 0 ?)

하지만 이 식은 선형적 인과 모델 (linear causal model)에서는 counterfactual 없이도 설명 가능하다.

linear model을 활용하면 mediation을 매우 쉽게 설명할 수 있다. 하지만 이 설명은 큰 오류를 범하는데 그 점을 설명하겠다.

 

linear model의 설명은 Total Effect를 Direct Effect와 Indirect Effect의 Product Sum으로 표현한다. (매우 단순하다.)

Reuben Baron과 David Kenny는 이 아이디어에서 출발해서 mediator의 효과를 측정하는 방법을 고안했고 무수히 많은 논문에서 이 방법이 사용되었다.

(mediator가 있는 채로 regression을 하고 없는 채로 regression을 해서 계수를 비교하여 mediator의 영향도를 측정하는 방법)

 

하지만 이 방법은 non-linear system으로는 절대 일반화될 수 없다. (잘못된 정답을 도출한다.)

이런 Causal Diagram이 있다고 가정하자.

Education -> Skill (계수 2)

Skill -> Salary (계수 3)

Education -> Salaray (계수 7)

Salary -> Outcome (if > 10 then 1 else 0): non-linear

 

Education을 1로 두고 Skill을 0으로 둬서 구한  direct effect는 7이다. => 10 이하이므로 Outcome = 0이다.

Education을 1로 두고 Skill을 1로 둬서 구한 indirect effect는 2 * 3 = 6이다. => 10 이하이므로 Outcome = 0이다.

따라서 덧셈이 성립하지 않는다. (Total Effect = 1 이지만 direct effect + indirect effect = 0이다.)

 

하지만 이 수식을 약간 변형하면 덧셈이 일반적으로 성립하게 할 수 있다.

Total Effect: Education = 0 -> Education = 1 => Salary = 0 -> Salary = 13 => Outcome = 0 -> Outcome = 1

NDE: Education = 0 -> Education = 1 => Salary = 0 -> Salary = 7 => Outcome = 0 -> Outcome = 0

NIE: Education = 1 -> Education = 0 => Salary = 13 -> Salary = 7 => Outcome = 1 -> Outcome = 0

 

따라서 다음 식으로 Total Effect를 표현할 수 있다.

Total Effect (Education=0 -> Education=1) = NDE (Education=0 -> Education=1) - NIE (Education=1 -> Education=0)

 

이에 대한 오해로, 이번에는 Indirect Effect를 Total Effect - Direct Effect로 정의 (Difference in Coefficients)하려는 방법들이 고안되었었다.

하지만 둘 다 (Product Sum, Difference in Coefficients) 잘못되었다. 이는 방법정의를 혼동한 것이다.

이 둘은 Indirect Effect를 구하는 방법에 불과할 뿐 Indirect Effect의 정의가 아니다. 

 

필자가 이야기하는 Indirect Effect의 수학적 정의

X가 Y에 주는 Indirect Effect는 다음과 같다.

"X를 고정했을 때 M의 단위 증가량당, Y가 증가한 양"

 

Embrace the "Would-Haves"

Mediation Formula에 대한 소개

인과추론 분야에서 Mediation 에 대한 표현은 매우 어려운 문제였고 Counterfactual 개념이 학계에서 어느 정도 통용되면서 본격적으로 이를 정의할 수 있게 되었다.

1단계: NDE와, NIE에 대한 정의

NDE: X=0 일 때의 M 값을 고정 => "이 M 값에서, X=1 일 때의 Y (Counterfactual)"를 X=0일 때와 비교

NIE: X=0에서, "X=1일 때의 M 값(Counterfactual)"으로 Y 계산

 

2단계: 이 정의 (Counterfactual 개념을 활용한 정의)를 통해 observational data에서 인과 효과 추정

X, M, Y에 대한 어떤 functional form도 가정하지 않았기 때문에 non-linear한 model도 설명 가능

NIE의 수학적 표현

NIE = sum_m [P(M=m | X=1) - P(M=m | X=0)] * P(Y=1 | X=0, M=m)

 

X -> M 효과: [P(M=m | X=1) - P(M=m | X=0)]

M -> Y 효과: P(Y=1 | X=0, M=m)

위 식 (9.3)과 달리 do operator가 없기 때문에 rung one data (observational data)로 계산할 수 있다.

이 식을 통해 non linear mediator의 효과도 계산할 수 있게 되었고, 연구에서 적용이 활발해졌다.

Case Studies of Mediation

연구 사례들을 보자.

"Algebra for All": A Program and Its Side Effects

모든 학생들에게 Algebra를 가르쳤던 Chicago의 교육 정책이 학생들의 학습 능력 향상에 효과가 있었을까?

Direct Effect: Algebra for All -> Learning

Indirect Effect: Algebra for All -> Environment -> Learning

- 여러 부정적 요인들: Algebra가 너무 어려워서 오히려 다른 과목 학습 동기 저해 + 선생님들의 Algebra 교육 수준이 균일하지 않음

Direct Effect와 Indirect Effect의 방향이 반대인 Mediation 문제

연구자 Hong의 결론

Direct Effect와 Indirect Effect가 모두 존재: Indirect Effect가 더 커서 Total Effect는 minus

분석 결과에 기반한 action

"Double-Dose Algebra": Algebra를 못하는 학생들에게 추가 수업을 받게 함 => Algebra 실력 평균 수준으로 맞춤

결론적으로 Double-Dose Algebra 정책은 Algebra for All 정책의 문제점들을 많이 보완함

 

The Smoking Gene: Mediation and Interaction

Chapter 5에서의 Smoking 논쟁을 다시 가져오자. Fisher의 예상이 맞았다: Smoking Gene이라는게 있었다.

Smoking Gene -> Smoking

Smoking Gene -> Lung Cancer

Smoking -> Lung Cancer

 

Smoking Gene은 Smoking 과 Lung Cancer 사이 인과관계를 분석하는 데에 분명 Confounder이다. (Fig. 9.11)

하지만 framework을 전환해서 Smoking을 Smoking Gene과 Lung Cancer 사이에 Mediator로 보자. (Fig. 9.12)

전혀 다른 접근을 하게 된다.

전자: Confounder를 배제한 Smoking 이 Lung Cancer에 주는 영향 확인

후자: Smoking Gene이 어떤 방식으로 Lung Cancer에 영향을 주는지 확인 (Direct vs Indirect)

후자가 더 유용한 접근 방법이다.

만약 Direct Effect가 더 크다면: Smoking Gene이 있는 환자들은 폐 검사를 더 자주 받게 해야 한다.

만약 Indirect Effect가 더 크다면: Smoking 자체를 제한해야 한다.

 

Vander Weele의 연구

1. Smoking Gene의 존재가 담배 소비량을 늘리지는 않는다

2. Smoking Gene은 Lung Cancer에 smoking-independent 경로로 영향을 주지는 않는다 (Direct Effect = 0)

3. Smoking Gene은 그 유전자가 없는 사람들 대비 있는 사람들이 담배를 폈을 때 악영향의 효과를 증폭시킨다. (Indirect Effect 존재)

 

Tourniquets: A Hidden Fallacy

전쟁이라는 극한 상황 때문에 지혈대의 효과를 검증하는 것은 매우 어려웠다.

apple to apple 비교가 어렵다.

지혈대를 할 정도의 환자는 부상 정도가 심각하기 때문에 지혈대를 하지 않은 환자들보다 사망률이 높았다.

 

외과의사 Kragh는 이를 연구하기 위해 데이터를 모으고, 부상 정도에 따라 나눠서 통계를 구했을 때 지혈대가 오히려 사망률을 높인다는 결론이 나왔다. (Table 9.1)

하지만 이 분석에는 오류가 있었다.

Causal Diagram이 다음과 같다.

Injury Severity -> Tourniquet Use

Injury Severity -> Pre-Administration Survival

Injury Severity -> Post-Admission Survival

Tourniquet Use -> Pre-Administration Survival -> Post-Admission Survival (Indirect Effect)

Tourniquet Use -> Post-Admission Survival (Direct Effect)

 

Injury Severity가 Confounder이므로 통제해야 한다.

하지만 Kragh의 데이터는 병원에 도착할 때까지 생존해 있는 환자들의 데이터만 수집했으므로 Mediator인 Pre-Administration Survival가 통제되어 버렸다.

결과적으로 Kragh의 분석은 Direct Effect만 측정한 꼴이 되었는데 이는 0에 가까웠다. (상식적으로 지혈대를 한다고 부상 부위 봉합되는 등의 회복이 일어나지는 않을 것이다.)

Indirect Effect를 구하려면 병원에 도달하지 못한 부상자들의 지혈대 여부(Tourniquet Use)도 수집해야 하지만, 병원에서 이 데이터를 구하기는 어렵다.

 

+ Recent posts