AI (Artificial Intelligence)가 Why라는 질문에 답변할 수 있을지에 대한 작가의 의견

 

Causal Models and "Big Data"

최근 들어 데이터의 양이 어마어마하게 늘어났다.

2014년 Facebook은 300 PB 용량의 데이터를 저장하고 있다고 보고했다.

과학 분야에서도 데이터가 많이 늘어났다. - 모든 현상들을 일일히 조사해야했던 과거와 달리 오늘날에는 online을 통해 모든 데이터에 접근할 수 있다.

데이터가 매우 많아도, 우리의 질문은 단순하다.

- 폐암을 일으키는 유전자가 있는가?

- 어떤 종류의 태양계에 지구 같은 행성이 있을 수 있는가?

- 어떤 요인이 특정 어류의 개체수를 감소시키는가?

이 모든 인과관계에 관한 질문들은 data 자체만으로는 절대 답변할 수 없다.

인과관계 질문들은 다음을 요구한다.

- data를 생성한 model

- 혹은 적어도 그 생성에 작용하는 주요 요인들

 

결국 data를 해석하는 것은 실제 세계가 어떻게 동작하는지에 관한 가설을 세우는 것을 의미한다.

- 여기서 data mining을 통해 결과와 상관관계가 높은 항목들을 찾을 수 있고, 이 항목들이 원인을 규명하는 출발점이 될 수 있다.

 

Big Data의 다른 기능은, Inference Engine 역할을 한다는 것이다.

- 예를 들어, Machine Learning은 차원의 저주 문제도 해결할 수 있다.

 

마찬가지로, 개인화 영역에서도 Big Data와 Causal Inference가 함께 쓰일 수 있다.

- Big Data로 데이터를 모으고 Causal Inference를 통해 필요 없는 항목들을 제거할 수 있다.

 

Big Data와 Causal Inference의 조합이 가장 크게 기여할 수 있는 분야가 바로 운반성(Tranportability)이다.

운반성(Transportability)이란, 한 대상에 대한 연구를 다른 대상에게 적용할 수 있는지이다.

컴퓨터를 통해 연산량이 크고 복잡한 "data fusion" 문제를 다룰 수 있다. (이때 do-calculus 개념을 알고리즘화할 수 있다.)

Elias Bareinboim이라는 작가의 이전 제자가 다음 알고리즘을 개발했다.

- graphical criteria만을 가지고, 당신이 찾고자 하는 효과가 transportable한지 파악하는 알고리즘

 

이는 나아가, 오랫동안 통계학자들을 괴롭혀왔던 선택 편향(Selection Bias) 문제도 해결할 수 있게 한다.

선택 편향이 결과에 주는 영향(Causal Diagram에서는 화살표로 표현)을 도식화함으로써, 이 선택 편향의 효과를 발라낼 수 있고, 결과적으로 우리가 궁금한 원인 X의 영향도를 더 잘 측정할 수 있게 된다.

 

Strong AI and Free Will

AI에 대한 연구: neats(AI의 행동이 설명가능해야 한다)파와 scruffies(설명할 수 없더라도 동작하면 된다)파로 학계가 나뉘었었다. (작가는 언제나 neats파였다)

 

그러던 중 새로운 접근법이 대두되었다: Bayesian networks - 확률 기반의 접근으로 불확실하고 모순적인 데이터들도 다룰 수 있게되었다.

여러 장점이 있지만 Bayesian networks도 인과관계를 이해할 수는 없다.

 

최근 AI 분야에 괄목할 만한 발전을 가져온 것은 "deep learning"이다. CNN 같은 기술은 설명력을 더 떨어뜨렸으며, 이로인해 시스템이 실패하더라도 개발자들은 어떻게 고칠지 전혀 파악할 수 없게 되었다. 알파고를 비롯한 눈부신 기술력은 분명, 이전에 불가능 했던 일들(사람을 이기는 바둑 프로그램 만들기)을 가능하게했지만  여전히 (사람의 언어로) 설명 가능한 AI를 만드는 것과는 별개의 일이다.

혹자는 사람의 언어로 설명하는게 왜 필요하냐고 반문한다. 우리의 뇌 또한, 구동 방식을 완전히 설명할 수 없는 건 마찬가지 아닌가? 그 말도 분명 맞고 scruffies들이 학계를 선두하는 것도 사실이지만, 작가는 개인적으로 이해할 수 없는 시스템을 만드는 것을 선호하지 않기 때문에 이 분야로 연구를 이어가고싶지 않아한다.

 

우리가 뇌 작동방식을 모른다 하더라도, 우리는 사람과 어떻게 의사소통하고 어떻게 교육해야 하는지 알고 있다. - 인과관계의 언어로 이게 가능하다. 반면 AI에게는 아직 인과관계에 기반한 지도가 불가능하다.

예를 들어, 집 청소 로봇이 아침마다 청소를 하는 바람에 내 아침 잠을 깨운다면, 당신은 로봇에게 아침 잠을 깨우지 말라고 부탁할 것이다. 이때 로봇에게 원하는 것은 다시는 아침 청소를 하지 말라고 이해하는 것이 아니다. "청소는 소음을 만들고 -> 이 소음은 자는 사람을 깨우고 -> 누군가는 아침에 소음 때문에 깨는 걸 싫어한다"라는 "원인 -> 결과" 관계를 이해하기를 원한다.

Convolutional Network 기반의 딥러닝 프로그램이 모든 맥락을 이해할 수 있을까? 필자는 아니라고 생각한다. 지금 알파고같은 AI는 인과관계 사다리 1단계 즉, 모방에 기반한 예측 단계에 도달했을 뿐이다. Strong AI가 되려면 이를 넘어서 세계의 다양한 인과관계에 대한 이해도를 갖추어야만 한다.

오늘날 Machine Learning 방법론은 유한한 샘플로 학습한 모델에 기반해 의사결정을 내릴 수만 있다. 다시말해, 처음 시도하는 영역에 대한 의사결정 시에는 인과관계에 기반한 분석이 필요하다.

 

작가는 Strong AI가 되려면, counterfactual에 기반한 사고가 가능해야 한다고 말한다. "나는 X=x를 했고, 그 결과 Y=y였다. 만약 내가 X=x'를 했다면, Y=y' 였을 것이다." 수학적으로는 P(Y_{X=x'} = y' | X=x)를 계산할 수 있으면 된다. 

 

"의도"는 사람이 의사결 정하는데 중요한 부분을 차지한다. 어떤 사람이 담뱃불을 키고싶다는 느낌이 든다면, 반대 행동(키지 않는 행동)을 했을 때의 결과가 "더 좋을 것 같다"는 판단 아래에 키지 않을 수도 있다. 이런 "자각 행동"이 아직 AI에게는 불가능하다.

이 의도에 대한 토론은, Strong AI를 이야기할 때 주요하게 다뤄지는 "자유 의지"라는 영역으로 넘어간다. 만약 우리가 AI에게 "어떤 의도"로 X=x를 하라고 했을 때, AI가 의도를 파악하고 (의도에 더 부합하는 행동인) X=x'를 한다면, 이 AI는 자유 의지가 있다고 할 수 있다.

 

철학적으로 깊게 들어가면, 자유의지란 허상이라고 이야기할 수도 있다. 사실 한 개인이 내린 의사결정은 그의 유전자, 호르몬, 등 생리적인 요인들에 의해 이루어진 것이라고 주장할 수도 있다. 그리고 많은 의사결정은 논리적인 분석에 의해 내려지지 않고 본능적인 느낌에 의해 판단되는 경우가 많다. (축구 경기에서 선수들의 패스와 슛은 순간순간의 본능에 의해 이뤄진다고 보는 것에 가깝다.) 의사결정의 "이유"를 말하는 것은 이때 사후 설명 즉 복기에 가깝다. "인간에게 자유의지에 기반한 의사결정이 무엇인가"라는 철학적인 논의와 별개로 이 현상 자체를 AI에게 적용시킨다면, 의사결정을 일으키는 function과 그 이유를 복기하는 simulation 두 가지만 가능하게 한다면 그 AI는 자유의지를 가진 것처럼 행동한다 할 수 있다. 이 function을 교정하는 행위 ("(축구 경기에서) 너는 A가 아니라 B에게 패스했어야 했다")는 해당 agent가 "비슷한 다른 상황"이 왔을 때 다른 의사결정을 할 수 있게끔 하는 것을 말한다. 이 "비슷한 다른 상황"을 판단할 수 있는지가 counterfactual적 사고가 가능한지이고 이것만 풀 수 있다면, 복잡한 인과관계에 기반한 지도 문제를, 더 간단하게 바꿀 수 있다.

 

결국 작가는 counterfactual을 알고리즘화 (프로그램이 알아들을 수 있는 언어로)하는 것이 AI를 다음 단계로 도약하는 데의 핵심이라고 믿는다.

작가는 자유 의지로 생각하는 기계에 내재된 software는 3가지 구성으로 이루어진다고 주장한다. 

1. 세계가 돌아가는 방식에 대한 인과 모델

2. 자기 자신이 어떻게 돌아가는지에 대한 인과 모델

3. 바깥 세상에 본인이 어떻게 대응했는지에 대학 기억 저장소

 

 

AI 기술이 발달함에 따라 이에 대한 우려도 높아졌다. 대표적인 우려들을 5개 질문으로 추리고 이에 대한 작가의 답변을 보자.

1. 우리는 이미 생각하는 기계를 만들었는가?

-> 아니다. 지금의 AI는 특정 도메인에서 사람을 흉내낼 뿐 아직 스스로 생각하는 단계로 진입하지는 못했다.

 

2. 우리는 생각하는 기계를 만들 수 있을까?

-> 그렇다. 만약 생각을 튜링 테스트를 통과하는 것으로 정의한다면 분명 그렇다. 위에 언급했듯 이게 가능하려면 counterfactual을 알고리즘화해야 하는데, 이에 대한 많은 연구가 이미 존재하고 인공지능 분야에 적용되기만 하면 된다.

 

3. 우리는 생각하는 기계를 만들까?

-> 그렇다. 인류 역사상 기술적으로 가능한데 구현 안된 것은 없었다.

 

4. 우리는 생각하는 기계를 만들어야 할까?

5. 생각하는 기계는 선과 악을 구분할 수 있을까?

-> 5번에 대한 대답이 그렇다이기 때문에, 4번에 대한 답변도 그렇다이다. AI 기술에 대한 우려로 여러 가지 제안과 규제들이 만들어지고 있는데, 이 중 하나는 위에서 언급한 "설명력"이다. 우리가 생각하는 기계를 만든다면, 이는 분명 우리의 인지 능력이 탑재되어 공감, 장기적인 예측, 자기 통제, 실수 교정 등이 가능할 것이다. 다시 말해 인과 관계 기반한 사고가 가능할 것이고, 이를 통해 인류를 해하는 결정을 했다면 스스로 복기하고 교정해나갈 수 있을 것이다.

 

두 가지 종류의 "왜?"라는 질문이 있다.

1번: 결과에 대한 원인에 대한 질문 (왜 그 환자는 심장마비가 왔는가? = 무엇 때문에 심장마비가 왔는가?)

2번: 원인이 어떤 기작(Mechanism)으로 결과를 발생시켰는지에 대한 질문 (신 음식은 어떤 원리로 괴혈병을 예방하는가?)

 

이번 챕터에서는 2번 질문에 관한 이야기다.

 

과학에서 기작을 알아내는 것은 매우 중요한데, 다른 상황에 따라 다른 action을 할 수 있기 때문이다.

만약 오렌지가 없어도, 괴혈병의 기작을 안다면 - 오렌지의 대체품으로 괴혈병을 예방할 수 있다.

 

이 2번 질문을 표현하는 용어는 "mediation"이다.

("오렌지 -> 비타민 C -> 괴혈병" 처럼 어떤 기작, 즉 오렌지가 어떤 영향(비타민 C)을 통해서 괴혈병에 효과가 있는지를 밝혀내는 것이 목표다.)

이 질문을 답하려면 total effect를 direct effect와 indirect effect로 구분지어야 한다.

 

direct effect와 indirect effect를 정의하는 것도 인과추론 역사에서 매우 어려운 일이었는데, 필자 또한 여러 시행착오 끝에 counterfactual을 통해 정의할 수 있고 그들 또한 (식별을 위한) policy implication을 적용할 수 있음을 밝혀냈다.

 

Scurvy: The Wrong Mediator

신 음식이 괴혈병을 예방한다는 사실은 밝혀냈지만 그 기작에 대한 무지로 인해, 완전한 예방책을 만드는 데에는 상당히 오래 걸렸다.

처음 생각한 기작은 다음과 같았다.

신 과일 -> 산성 (Acidity) -> 괴혈병 예방

이 무지로 인해 신 과일을 "끓이는" 오류를 범했고, 괴혈병을 예방하지 못했다.

실제 기작은 다음과 같았다. (끓이는 바람에 비타민 C를 파괴했고, 결과적으로 괴혈병을 예방하지 못했다.)

신 과일 -> 비타민 C -> 괴혈병 예방

Nature VS Nurture: Tragedy of Barbara Burks

mediator를 diagram으로 최초로 표현한 사람은 1926년 스탠포드 대학원생 Barbar Burks 였다. (Sewall Wright의 연구와는 별개였고, 심지어 시기도 더 빨랐다.)

그녀의 연구 주제는 "지능이 타고나는 것인지 육아에 의해 길러지는 것인지"였다.

(이미 여러 기간 동안 연구되었던 주제지만) 그녀의 시도가 참신했던 것은 다음 질문을 그래프로 표현했다는 것이다.

- 부모의 지능이 아이의 지능에 끼치는 직접적인 영향(Parental Intelligence -> Child's Intelligence)과 간접적인 영향 (Parental Intelligence -> Social Status -> Child's Intelligence)이 각각 얼마나 될까?

 

(그녀는 양방향 그래프를 사용했지만) 단순화를 위해 단방향 그래프를 가정 하자

Parental Intelligence -> Child's Intelligence

Parental Intelligence -> Social Status -> Child's Intelligence

 

Burks는 가정 방문을 통해 데이터를 습득했고 육아의 영향은 받았지만 유전의 영향은 받지 않은 입양아들의 데이터를 모았다.

이 데이터를 통해 부모의 지능이 아이의 지능에 끼치는 직접적인 기여는 35% 정도밖에 안됨을 밝혀냈다. (다시 말해 부모가 사회 평균보다 15% 정도 IQ가 높다면, 그들의 아이들은 평균보다 5% 정도 높다는 것이다.)

 

이 연구에서 그녀는 Collider에 해당하는 변수들을 통제하면 안된다는 사실을 알아냈는데, 이는 당시 통계학계 통념에 반하는(상관관계에서 변수를 통제하면 인과관계를 이야기할 수 있다는 통념을 반박하는) 것이었다.

예를 들어, Social Status와 Child's Intelligence에 동시에 영향을 주는 교란 변수 X가 있을 때, Social Status를 통제하면 Parental Intelligence와 X에 의한 Collider Bias가 생긴다. (Parental Intelligence -> Social Status <- X -> Child's Intelligence)

이는 Chapter 4에서 다룬 M-bias의 전형적인 예시인데, 당시에는 잘 받아들여지지 못했다.

 

In Search of a Language (The Berkeley Admissions Paradox)

Burks의 연구에도 불구하고, direct 와 indirect effect에 대한 개념이 통계학에 적용되지 못하고 있었다. 

1973년 심슨의 역설을 보여주는 사례로 California University의 입학률이 있었다.

당시 Berkeley 대학원의 합격률을 보면, 남성들은 44%인데 반해 여성들은 35%였다. 남녀차별이 있는 것인지에 대한 조사가 필요했다.

조사를 하다 발견한 놀라운 사실이, 부서별 합격률을 봤을 때는 모두 여성들이 남성보다 높았다는 것이었다. 어떻게 이럴 수 있을까?

Chapter 6에서 심슨의 역설을 다룰 때 언급했듯이, 역설을 해결하는 정확한 방법은 당신이 답하고 싶은 질문이 무엇인지에 달려있다.

- 여기서는 "Berkeley 대학원이 여성을 차별하는가?"이다.

답은 절대 두 가지가 될 수 없다. 부서별로 남녀 차별이 없다면, 대학원 전체도 남녀 차별이 없다. (=부서별로 남녀차별이 있다면, 대학원 전체도 남녀 차별이 있다.)

결론은 다음과 같았다.

- 남녀 차별은 없었다.

- 대학원 전체에서 여성들의 합격률이 더 낮았던 것은, 그들이 합격이 어려운 부서에 더 많이 지원했기 때문이다.

전체 평균은 각 부서별 평균을 가중 평균으로 계산한 것이다.

어려운 부서의 합격률 (r_a):

    - 여성: a_f / A_f = r_af

    - 남성: a_m / A_m = r_am

쉬운 부서의 합격률 (r_b): 

    - 여성: b_f / B_f = r_bf

    - 남성: b_m / B_m = r_bm

 

r_a < r_b이고 A_f > B_f, A_m < B_m이다.

따라서 여성들 전체의 평균은 A쪽에 쏠리게 되어 있고 (r_a에 가깝다.)

남성들 전체의 평균은 B쪽에 쏠리게 되어 있다. (r_b에 가깝다.)

이로 인해 전체 평균이 남성들이 더 높게 나오는 것이다.

 

이 Berkeley 심슨의 역설을 분석한 통계학자 Peter Bickel은 bias와 discrimination을 구분짓는 중요한 정의를 했다.

- bias: 성별과 합격률이 보이는 상관관계 (인과추론에서의 1단계)

- discrimination: 성별이 관계 없음에도 합격 여부를 결정하는 데에 주요 변수로 활용하는 것 (인과추론에서 2, 3 단계: 개입)

 

Bickel은 부서(Department)별로 나눠서 평균을 계산하는 것이 남녀 차별이 존재하는지 파악하는 데에 적절한 분석이라고 주장했다.

Bickel의 분석이 맞는지 파악하기 위해 Causal Diagram을 그려보자.

Gender -> Department -> Outcome

Gender -> Outcome

 

여기서 남녀차별이 존재한다는 것은, Gender -> Outcome인 direct effect가 유의하게 존재한다는 뜻이다.

Bickel의 분석 방법은 타당하다. 부서별로 나눠서 평균을 계산한 것은 indirect path를 통제하고 direct path의 효과만 본 것이었기 때문이다.

 

하지만 이후 Kruskal이 이를 반박하는 주장을 하면서 더 흥미로워진다.

만약 "지역(Region)"이라는 변수에서 차별이 발생한다면 Bickel의 방법 (Department만 통제)으로는 차별 여부를 파악할 수 없다. (Kruskal은 Region에서 차별이 발생한다는 가정으로 원본과 똑같은 예시 데이터를 만들어냈다.)

이는 분명 Bickel의 방법론의 아픈 곳을 찌른 것이었다. 

(Kruskal은 해결방법까지는 제안하지 못했다. 심지어 이런 변수들이 잠재적으로 매우 많기 때문에 Bickel의 방법론은 무용하다고까지 주장했다.) 이를 Causal Diagram으로 표현해보자.

Gender -> Department -> Outcome

Gender -> Outcome

State of Residence -> Department -> Outcome

이는 위 Burks의 연구 사례와 동일한 그래프다!

Kruskal의 주장대로 State of Residence와 Department를 모두 통제해야 한다.

왜냐하면 위 Burks 연구 사례와 동일하게 Department만 통제할 경우 State of Residence로 인한 backdoor path가 열리는 Collider Bias가 발생한다. 

=> 이렇게 두 변수를 통제함으로써 Kruskal이 만든 예시 데이터에서 Region에 따른 차별까지 포착할 수 있었다.

 

당시는 Causal Diagram 개념이 없었기 때문에 Bickel은 Kruskal의 반박에 명쾌한 답변을 내리지 못했다. 하지만 그는 bias와 discrimination에 대해서는 올바른 정의를 내렸다.

bias는 수학적인 개념으로, 데이터를 어떻게 잘라보는지에 따라 달라진다. (지금까지의 예시처럼 정반대의 값을 도출하기도 한다.)

discrimnation은 인과적인 개념으로, 현실을 반영하고 데이터를 어떻게 잘라보는지와 상관없이 일정하다.

(결국 discrimination에 해당하는 bias를 찾아내는게 인과추론 아닐까?)

 

당시 통계학에 없던 개념이 "hold constant"이다.

Gender -> Outcome의 direct effect를 계산하려면 Department를 hold constant해야 한다.

다시 말해, 성별에 상관없이 부서(Department) 지원율을 일치시켜야 한다. (do())

이 개념이 없었기 때문에 당시 통계학자들은 피상적으로 비슷한 "부서별 통제(conditioning)"을 했다.

만약 Department와 Outcome 사이에 confounder가 없다면 Bickel의 분석(부서별 통제)은 옳았다. (seeing이 곧 doing이었다.)

하지만 Kruskal의 지적대로 State of Residence라는 confounder가 있다면, Bickel의 분석은 잘못된 방법이었다. (collider bias를 초래하므로)

 

필자는 이를 Mediation Fallacy라고 부른다. (mediator를 hold constant 해야 하는데, 통제(conditioning)하는 것)

confounder가 없다면 conditioning 도 옳은 방법이지만, 문제는 confounder의 존재여부를 파악하기가 어렵다는 것이다. 

이 Mediation Fallacy는 do-calculus로 극복 가능하다. (hold constant)

Daisy, The Kittens and Indirect Effects

direct effect, indirect effect에 대한 수학적 표현을 해보자.

X -> Y

X -> M -> Y

Direct Effect (X -> Y)

Y에 대한 X의 direct effect는 X를 wiggle하면서 M은 고정하는 것으로 구한다.

Berkeley 예시에서, 모든 지원자로 하여금 역사 부서에 지원하게 하는 것이다. (do(M=0))

그리고 지원자들이 그들의 성별을 (실제 성별과 상관 없이) 랜덤으로 제출하게끔 한다. (do(X=1), do(X=0))

이렇게 구한 합격률 차이를 controlled direct effect (CDE(0))라고 부른다.

CDE(0) = P(Y=1 | do(X=1), do(M=0)) - P(Y=0 | do(X=0), do(M=0))

CDE(0)에서 0의 의미는 M을 0로 고정했다는 뜻이다. CDE(1), CDE(2), ... 등으로 표현할 수 있다.

CDE의 문제는 이처럼 전체 효과를 얘기하지 못하고 국소적인 효과만 이야기할 수 있다는 것이다.

 

Natural Direct Effect (NDE): M을 고정하지 않고, X -> M에 맡긴다. 

NDE = P(Y_{M=M_0} = 1 | do(X=1)) - P(Y_{M=M_0} = 1 | do(X=0))

여기서 M(어떤 부서를 선택했는지는) 실제 성별에 의해 결정되고, Y는 fake 성별(do(X))에 의해 결정된다.

 

CDE 계산은 do-calculus를 통해 가능하다. 다시 말해, see expression으로 일컫는 관측된 데이터를 통해 do-expression (인과관계 표현)이 가능하다.

하지만 NDE는 더 어렵다. do-expression으로 표현이 불가능하기 때문이다. NDE는 counterfacutal 개념을 필요로 한다.

필자는 시행착오 끝에 Mediation Formula를 고안해 NDE를 observational data에서 인과관계를 밝힐 수 있는 유용한 도구로 만들었다.

 

Indirect Effect (X -> M -> Y)

indirect effect 는 CDE가 없다 (M을 고정한다거나 하는 식의 구현이 불가능하다.)

Natural Indirect Effect (NIE): X는 자연스러운 상태로 두고 M을 wiggle한다.

Daisy라는 필자 동료 강아지 예시로 개념을 정의하자.

Daisy는 자꾸 집 안에서 소변을 봐서 문제였다. 하지만 고양이 무리를 잠깐 집에 들여놨을 때, Daisy가 집에 소변을 안 보더라. 고양이 무리들이 집 밖을 나가자 Daisy가 다시 집 안에서 소변을 두기 시작했다.

아내의 주장: 고양이 무리가 Daisy를 군중압박(?)해서 집 밖에서 소변을 보게 했다. (Other Pets -> House Training) (direct effect)

동료의 주장: 고양이 무리로 인해 동료와 아내가 Daisy를 더 훈육하게 되었고 이로 인해 집 밖에서 소변을 보게되었다. (Other Pets -> Crating/Supervision -> House Training) (indirect effect)

direct effect인지 indirect effect인지를 검증하기 위해 다음과 같은 실험을 고안했다.

 

"Daisy를 고양이 무리가 없지만, 고양이 무리가 있었을 때처럼 훈육해보자"

: Other Pets = 0, Crating/Supervision = 1 (Counterfactual)로 만들자

만약 Daisy가 여전히 집에서 소변을 본다면 direct effect가 맞고, 소변을 안 본다면 indirect effect가 맞다.

수학적 표현

NIE = P(Y_{M=M_1} = 1 | do(X=0)) - P(Y_{M=M_0} = 1 | do(X=0))

M_1: 고양이 무리가 있었을 때와 동일한 환경 (훈육 환경)

M_0: 고양이 무리가 없을 때 와 동일한 환경

첫번째 P항은 counterfactual 환경에서의 확률, 두번째 P항은 normal 환경에서의 확률이다.

NDE와 마찬가지로 Mediation Formula를 이용하면 NIE도 observational data로 계산할 수 있다. (counterfactual항들을 소거/치환할 수 있다.)

 

Mediation In Linear Wonderland

여기까지 읽으면 counterfactual 개념까지 적용해서 direct effect와 indirect effect를 구해야 한다는 것이 너무 복잡하게 느껴질 수도 있다.

그냥 단순하게 이렇게 생각하면 안될까?

Total Effect = Direct Effect + Indirect Effect

결론부터 이야기하면 이 식은 틀렸다.

실제로 많은 약물들이 Direct Effect와 Indirect Effect를 동시에 야기하지만, 각각의 효과만 측정하면 0인 경우가 있다. (1 = 0 + 0 ?)

하지만 이 식은 선형적 인과 모델 (linear causal model)에서는 counterfactual 없이도 설명 가능하다.

linear model을 활용하면 mediation을 매우 쉽게 설명할 수 있다. 하지만 이 설명은 큰 오류를 범하는데 그 점을 설명하겠다.

 

linear model의 설명은 Total Effect를 Direct Effect와 Indirect Effect의 Product Sum으로 표현한다. (매우 단순하다.)

Reuben Baron과 David Kenny는 이 아이디어에서 출발해서 mediator의 효과를 측정하는 방법을 고안했고 무수히 많은 논문에서 이 방법이 사용되었다.

(mediator가 있는 채로 regression을 하고 없는 채로 regression을 해서 계수를 비교하여 mediator의 영향도를 측정하는 방법)

 

하지만 이 방법은 non-linear system으로는 절대 일반화될 수 없다. (잘못된 정답을 도출한다.)

이런 Causal Diagram이 있다고 가정하자.

Education -> Skill (계수 2)

Skill -> Salary (계수 3)

Education -> Salaray (계수 7)

Salary -> Outcome (if > 10 then 1 else 0): non-linear

 

Education을 1로 두고 Skill을 0으로 둬서 구한  direct effect는 7이다. => 10 이하이므로 Outcome = 0이다.

Education을 1로 두고 Skill을 1로 둬서 구한 indirect effect는 2 * 3 = 6이다. => 10 이하이므로 Outcome = 0이다.

따라서 덧셈이 성립하지 않는다. (Total Effect = 1 이지만 direct effect + indirect effect = 0이다.)

 

하지만 이 수식을 약간 변형하면 덧셈이 일반적으로 성립하게 할 수 있다.

Total Effect: Education = 0 -> Education = 1 => Salary = 0 -> Salary = 13 => Outcome = 0 -> Outcome = 1

NDE: Education = 0 -> Education = 1 => Salary = 0 -> Salary = 7 => Outcome = 0 -> Outcome = 0

NIE: Education = 1 -> Education = 0 => Salary = 13 -> Salary = 7 => Outcome = 1 -> Outcome = 0

 

따라서 다음 식으로 Total Effect를 표현할 수 있다.

Total Effect (Education=0 -> Education=1) = NDE (Education=0 -> Education=1) - NIE (Education=1 -> Education=0)

 

이에 대한 오해로, 이번에는 Indirect Effect를 Total Effect - Direct Effect로 정의 (Difference in Coefficients)하려는 방법들이 고안되었었다.

하지만 둘 다 (Product Sum, Difference in Coefficients) 잘못되었다. 이는 방법정의를 혼동한 것이다.

이 둘은 Indirect Effect를 구하는 방법에 불과할 뿐 Indirect Effect의 정의가 아니다. 

 

필자가 이야기하는 Indirect Effect의 수학적 정의

X가 Y에 주는 Indirect Effect는 다음과 같다.

"X를 고정했을 때 M의 단위 증가량당, Y가 증가한 양"

 

Embrace the "Would-Haves"

Mediation Formula에 대한 소개

인과추론 분야에서 Mediation 에 대한 표현은 매우 어려운 문제였고 Counterfactual 개념이 학계에서 어느 정도 통용되면서 본격적으로 이를 정의할 수 있게 되었다.

1단계: NDE와, NIE에 대한 정의

NDE: X=0 일 때의 M 값을 고정 => "이 M 값에서, X=1 일 때의 Y (Counterfactual)"를 X=0일 때와 비교

NIE: X=0에서, "X=1일 때의 M 값(Counterfactual)"으로 Y 계산

 

2단계: 이 정의 (Counterfactual 개념을 활용한 정의)를 통해 observational data에서 인과 효과 추정

X, M, Y에 대한 어떤 functional form도 가정하지 않았기 때문에 non-linear한 model도 설명 가능

NIE의 수학적 표현

NIE = sum_m [P(M=m | X=1) - P(M=m | X=0)] * P(Y=1 | X=0, M=m)

 

X -> M 효과: [P(M=m | X=1) - P(M=m | X=0)]

M -> Y 효과: P(Y=1 | X=0, M=m)

위 식 (9.3)과 달리 do operator가 없기 때문에 rung one data (observational data)로 계산할 수 있다.

이 식을 통해 non linear mediator의 효과도 계산할 수 있게 되었고, 연구에서 적용이 활발해졌다.

Case Studies of Mediation

연구 사례들을 보자.

"Algebra for All": A Program and Its Side Effects

모든 학생들에게 Algebra를 가르쳤던 Chicago의 교육 정책이 학생들의 학습 능력 향상에 효과가 있었을까?

Direct Effect: Algebra for All -> Learning

Indirect Effect: Algebra for All -> Environment -> Learning

- 여러 부정적 요인들: Algebra가 너무 어려워서 오히려 다른 과목 학습 동기 저해 + 선생님들의 Algebra 교육 수준이 균일하지 않음

Direct Effect와 Indirect Effect의 방향이 반대인 Mediation 문제

연구자 Hong의 결론

Direct Effect와 Indirect Effect가 모두 존재: Indirect Effect가 더 커서 Total Effect는 minus

분석 결과에 기반한 action

"Double-Dose Algebra": Algebra를 못하는 학생들에게 추가 수업을 받게 함 => Algebra 실력 평균 수준으로 맞춤

결론적으로 Double-Dose Algebra 정책은 Algebra for All 정책의 문제점들을 많이 보완함

 

The Smoking Gene: Mediation and Interaction

Chapter 5에서의 Smoking 논쟁을 다시 가져오자. Fisher의 예상이 맞았다: Smoking Gene이라는게 있었다.

Smoking Gene -> Smoking

Smoking Gene -> Lung Cancer

Smoking -> Lung Cancer

 

Smoking Gene은 Smoking 과 Lung Cancer 사이 인과관계를 분석하는 데에 분명 Confounder이다. (Fig. 9.11)

하지만 framework을 전환해서 Smoking을 Smoking Gene과 Lung Cancer 사이에 Mediator로 보자. (Fig. 9.12)

전혀 다른 접근을 하게 된다.

전자: Confounder를 배제한 Smoking 이 Lung Cancer에 주는 영향 확인

후자: Smoking Gene이 어떤 방식으로 Lung Cancer에 영향을 주는지 확인 (Direct vs Indirect)

후자가 더 유용한 접근 방법이다.

만약 Direct Effect가 더 크다면: Smoking Gene이 있는 환자들은 폐 검사를 더 자주 받게 해야 한다.

만약 Indirect Effect가 더 크다면: Smoking 자체를 제한해야 한다.

 

Vander Weele의 연구

1. Smoking Gene의 존재가 담배 소비량을 늘리지는 않는다

2. Smoking Gene은 Lung Cancer에 smoking-independent 경로로 영향을 주지는 않는다 (Direct Effect = 0)

3. Smoking Gene은 그 유전자가 없는 사람들 대비 있는 사람들이 담배를 폈을 때 악영향의 효과를 증폭시킨다. (Indirect Effect 존재)

 

Tourniquets: A Hidden Fallacy

전쟁이라는 극한 상황 때문에 지혈대의 효과를 검증하는 것은 매우 어려웠다.

apple to apple 비교가 어렵다.

지혈대를 할 정도의 환자는 부상 정도가 심각하기 때문에 지혈대를 하지 않은 환자들보다 사망률이 높았다.

 

외과의사 Kragh는 이를 연구하기 위해 데이터를 모으고, 부상 정도에 따라 나눠서 통계를 구했을 때 지혈대가 오히려 사망률을 높인다는 결론이 나왔다. (Table 9.1)

하지만 이 분석에는 오류가 있었다.

Causal Diagram이 다음과 같다.

Injury Severity -> Tourniquet Use

Injury Severity -> Pre-Administration Survival

Injury Severity -> Post-Admission Survival

Tourniquet Use -> Pre-Administration Survival -> Post-Admission Survival (Indirect Effect)

Tourniquet Use -> Post-Admission Survival (Direct Effect)

 

Injury Severity가 Confounder이므로 통제해야 한다.

하지만 Kragh의 데이터는 병원에 도착할 때까지 생존해 있는 환자들의 데이터만 수집했으므로 Mediator인 Pre-Administration Survival가 통제되어 버렸다.

결과적으로 Kragh의 분석은 Direct Effect만 측정한 꼴이 되었는데 이는 0에 가까웠다. (상식적으로 지혈대를 한다고 부상 부위 봉합되는 등의 회복이 일어나지는 않을 것이다.)

Indirect Effect를 구하려면 병원에 도달하지 못한 부상자들의 지혈대 여부(Tourniquet Use)도 수집해야 하지만, 병원에서 이 데이터를 구하기는 어렵다.

 

앞의 내용들 복습

Chapter 4. RCT

Chpater 7. treatment가 random이 아닐 경우의 인과관계 분석 방법 (do-calculus or its algorithmic versions)

- back-door adjustment

- front-door adjustment

- instrumental variable

지금까지는 집달의 평균 차원에서만 인과관계를 분석했다.

하지만, 개별 단위에서의 인과관계 분석은 불가능했다. (ex. "평생 담배를 펴온 내 삼촌이, 담배를 안 폈다면 폐암에 안 걸렸을까?")

이번 챕터에서 다루는 내용: 관찰 데이터와 실험 데이터를 통해 counterfactual scenario (평행우주에서의 다른 시나리오)를 어떻게 도출할 수 있는지를 배운다.

 

개요

1. counterfactual이 발전되어 온 역사 소개

2. Structural Causal Model 을 통한 counterfactual 설명 (Neyman-Rubin paradigm과 비교) - causal diagram을 활용

3. counterfactual의 두 가지 적용 예시

    - 법조계: but-for causation ("...이 없었다면")

    - 지구 온난화: necessary causation, sufficient causation, necessary-and-sufficient causation

From Thucydides and Abraham to Hume and Lewis

counterfactual의 역사

<고대>

고대 그리스 역사가 Thucydides: 426 BC에 발생한 쓰나미를 설명하면서, "바다에서 지진이 없었다면 쓰나미도 없었을 것이다"라는 과학적 기술

성경에서 아브라함의 일화: 소돔과 고모라를 파괴하기 전, 하나님이 50명의 착한 사람이 있다면 파괴하지 않겠다는 약속을 하심

- 45명은? -> 49명은? -> ...

=> causation의 강도(sufficient한가?)를 묘사하는 중요한 예시

 

<근대>

철학자 David Hume의 대담한 주장: "인과관계는 사물(또는 현상)과 관련된 우리 자신의 기억과 경험일 뿐이다."

=> A -> B(A가 B의 원인이라는 진술)은 A가 B를 발생시키는 것이 아닌, A가 일어난 후 B가 일어나는 현상을 자주 목격한 우리의 정신적인 묘사일 뿐이다.

이후 다음 주장을 더함

A -> B은 "A가 없다면 B도 없다"는 조건도 추가로 필요 => counterfactual에 대한 힌트!

결론 적으로 A -> B는 다음 두 가지 조건을 충족해야 한다.

1. A 발생 후 B가 발생해야 한다. (correlation)

2. A가 발생 안했다면 B도 발생 안해야 한다. (counterfactual적 조건)

 

<현대>

철학자 David Lewis의 counterfactual 정의: 실제 발생한 사건에 대한 대체 기술(statement) (발생할 것 같은 사건에 대한 기술)

우리의 수많은 (일상적인) 의사결정은 counterfactual에 기반한다.

ex. "당신의 두통은 아스피린을 먹는다 사라질 것이다." = 아스피린을 먹은 상황과 안 먹은 상황을 비교했을 때, 먹은 상황이 더 나을 것이다.

이 때, 아스피린을 먹은 상황과 안 먹은 상황은 아스피린이라는 변수를 제외하고는 거의 비슷한 상황(세계)이다. 

결국, 실제 발생한 사건을 그것이 발생하지 않은 사건들 중 가장 비슷한 세계가 바로 counterfactual

 

이를 구조화, 체계화할 수 있게 된 것은 Causal Diagram 덕분

 

 

Potential Outcomes, Structural Equations, And the Algorithmization of Counterfactuals

Donald Rubin이라는 통계학자에 의해 Counterfactual을 구하는(Treatment의 효과를 계산하는) framework이 발전했다: Potential Outcome Framework

Potential outcome of Y: X->Y일 때, 개별 인원 u가 X=x이면 갖는 값 - 표현 식 Y_{X=x}(u) (더 줄여서 Y_x(u)로 표현)

- 주목할 점은 집단이 아닌 개별값을 계산한다는 것!

 

Table 8.1을 통해 Potential Outcome Framework의 한계를 설명

답하고자 하는 질문: 교육의 정도가 급여에 얼마나 영향을 줄까? 

- ED: 교육의 정도 (0, 1, 2)

- EX: 업무 연차

- S: 급여

 

1. Potential Outcome Framework는 인과추론의 본질적인 문제가 missing data에 있다고 본다.

ex) Alice는 ED=0이기 때문에 S_0(u)만 값을 갖고, S_1(u), S_2(u)는 알 수 없다.

2. 그리고 이 missing data를 채우는 것(imputing)이 문제 해결(인과관계 분석)이라는 것이 Potential Outcome Framework의 정수 <- 작가는 이것이 잘못되었다고 주장한다.

imputing method 1: Matching

- 작가는 Matching은 conditioning(or stratifying)과 다를게 없다고 주장

    - 어떤 individual A와는 matching할 데이터가 없는 경우도 있고

    - model-free conditioning의 위험이 그대로 존재한다. (unobserved confounders, conditioning colliders)

imputing method 2: Linear Regression

- Eq. 8.1과 같은 수식으로 표현 (S = C + a * EX + b * ED)

- Regression은 상관관계만 표현할 뿐 인과관계를 해석할 수 없다. 

- 예를 들어, ED와 EX가 서로 관계가 있다면(교육을 오래 받을 수록 업무 연차는 줄어들 수 밖에 없다.), 이 관계도 함께 표현해줘야 한다. => 결국 causal story (=model)이 필요하다.

 

따라서 SCM (Structural Causal Model)이 필요하다.

- 모델이 가장 중요하다.

    - EX -> ED, ED -> S, EX -> S (EX가 confounder)냐 vs ED -> EX, ED -> S, EX -> S (EX가 mediator)냐에 따라 적용되는 계산 방식이 완전히 달라진다.

- 위의 예시처럼 후자(Figure 8.3)의 모델이라고 가정하자. (U는 unobserved variable (잔차))

    - Eq. 8.2: S = C + a * EX + b * ED + U_S

    - Eq. 8.3: EX = K - k * ED + U_EX

- S_1(Alice)를 계산하는 방법

    1. Abuction: U_S(Alice)와 U_EX(Alice) 계산(data와 모델 사용)

    2. Action: ED = 1 (do-operator)

    3. Prediction: S_1(Alice) 계산

 

No free lunch: 모델을 미리 산정해놓는 아주 강한 가정이 필요하다.

- 이런 모델을 functional form으로 산정해놓는 것이 현실에서 항상 가능한 것은 아니다. (결국 domain 지식이 중요)

 

The Virtue of Seeing Your Assumptions

Potential Outcome Framework에 필요한 가정들

Causal Graph의 용이함을 활용할 수 없기 때문에 Potential Outcome Framework는 몇 가지 가정이 필요하다.

(이런 가정들이 충족되어야 하기 때문에, Potential Outcome Framework도 모델 기반의 분석)

 

1. SUTVA: stable unit treatment value assumption

특정 개인이 받는 treatment의 효과는 다른 개인이 받는 treatment의 효과와 무관하다.

ex. 내가 아스피린을 먹어서 받는 효과는, 옆에 친구가 아스피린을 먹었는지와 무관하다.

 

2. Consistency

특정 개인이 받는 treatment의 효과는 항상 일정하다.

ex. (아스피린이 효과가 있다면) 아스피린을 먹으면 효과가 있을 것이고, 플라시보를 먹으면 효과가 없을 것이다.

 

3. Ignorability (=Exchangeability)

(가장 중요)

모든 개인은 각자가 control 그룹인지 treatment 그룹인지가 실험 결과와 무관해야 한다.

만약 Ignorability가 안 지켜진다면?

: 아스피린의 효과 실험을 할 때 어떤 개인 u_1가 control일 때는 한 겨울에도 반팔만 입고 생활하다가, treatment 그룹일 때는 잘 따뜻하게 입고 지낸다면, 아스피린의 효과를 검증하기 어려울 것이다.

 

Causal Diagram을 통한 Ignorability 확인

Z를 통제했을 때, X가 Y에 대해 ignorable한지 확인하려면 두 가지 조건을 확인하면 된다.

1. Z가 X -> Y의 모든 backdoor path를 차단해야 한다

2. Z가 X의 descendant면 안된다

 

Counterfacutal을 표현하는 데에 Causal Diagram이 답이라는 것을 찾아온 과정

SCM은 그 자체로 몇 가지 주요 가정들이 내포되어 있다.

아래 순서로 가정들이 추가된다.

1. Probabilistic Bayesian Network에서의 "-> Y" 의미: Y의 부모 인자들의 관찰 데이터가 주어졌을 때, Y의 확률분포표에 의해 Y=y의 확률이 결정됨

2. Causal Bayesian Network에서의 "-> Y"의 의미: 1번과 동일하지만, 확률분포표가 관찰 데이터에 의해 주어진 것이 아닌 부모 인자들에 대한 intervention에 의해 구해짐

3. SCM에서의 "-> Y"의 의미: Y는 부모인자들에 의한 함수 (Y = f_Y(X, A, B, .... U)

    => The response function

 

따라서 counterfactual 질문에 답하기 위해서는 각 노드 사이의 정량적인 관계가 규명되어야 한다.

 

작가가 SCM이 답이라는 것을 찾기 전, SEM (Structural Equation Models)에 의탁했었음.

: SEM을 활용하면 모든 변수에 대해 counterfactual을 계산할 수 있음!

SCM은 SEM보다 더 좋은데, SEM과 달리 linearity를 가정할 필요가 없음

 

결론적으로 Causal Diagram과 response function을 알면 모든 counterfactual query들에 대응 가능하다.

다음 내용들은 그 적용 예시들

Counterfactuals and the Law

법조계에는 but-for causation을 통해 인과간계를 규명하는 framework이 자리잡혀 있다. 

피고인의 행위가 "직접적인 원인"일 때 유죄로 판단

여기서, 직접적인 원인을 설명하는 데에는 PN (Probability of Necessity)과 PS (Probability of Sufficiency) 개념이 필요하다.

 

Probability of Necessity vs Probability of Sufficiency

PN = P(Y_{X=0}=0 | X = 1, Y = 1)

- X=1은 Y=1이기 위한 필요조건 (집에 불이났을 때, 방화행위와 산소 모두 필요 조건)

- 이 때, X=0일 때 Y=0일 확률을 Probabilty of Necessity로 정의한다. (산소가 없다면 불이 안 날 확률, 방화행위를 안한다면 불이 안 날 확률)

- 참고로, do-operator로는 counterfactual을 파악할 수 없다.

 

PS = P(Y_{X=1}=1 | X = 0, Y = 0)

- Probability of Sufficiency는 X=1은 Y=1이기 위한 필요조건을 나타낸다.

- 법원에서는 PS가 너무 낮다면 피고의 행위를 유죄로 판단하지 않는다. (직접적인 원인이 아니라고 판단)

- 우리는 직관적으로 더 직접적일 것 같은 원인들을 파악할 수 있다.

- 예시

    1. 방화행위를 하지 않았다면, 집은 불타지 않았을 것이다.

    2. 산소가 없었다면, 집은 불타지 않았을 것이다.

    - 1번 2번 둘 다 참 (두 명제 모두 PN=1)

    - 하지만 2번 진술에서, 산소는 일반적으로 항상 존재한다. => 따라서 X=1이라고 Y=1일 확률은 매우 낮다. (PS가 매우 낮다.)

    - 1번, 2번 모두 PN=1이지만, 1번은 PS가 높은데 반해, 2번은 PS가 낮으므로 방화행위가 더 "직접적인 원인"이라고 판단한다.

 

인공지능에게 인과관계를 가르쳐준다면, PN뿐만 아니라 PS도 계산할 수 있게 해야한다.

(렇지 않다면 "산소 때문에 집에 불이 났다"라는 쓸 데 없는 진술만 하게 될 것)

 

Necessary Causes, Sufficient Causes, and Climate Change

지구 온난화에 대한 연구에서 PN, PS를 적용한 예시를 알아보자.

2003년 8월 프랑스에서 갑작스러운 초고온현상으로 많은 사상자 발생

-> 해당 초고온현상을 지구 온난화 때문이라고 판단할 수 있을까?

옥스포드의 기상 물리학자 Myles Allen이 정의한 지표 FAR (fraction of attributable risk): 기후 변화의 영향을 측정

- 두 가지 확률을 계산해야 함

- p_0: 기후 변화(1800년대 산업혁명 이전) 이전 이상현상이 발생할 확률

- p_1: 기후 변화 이후 이상현상이 발생할 확률

FAR: p_0에서 p_1로 변한 만큼이 기후변화의 영향이라고 설명할 수 있다. 

아래 두 조건이 충족되면 FAR은 PN과 동일한 의미

1. 기후 변화(온실 가스 배출)와 이상 현상 사이의 confounder가 없어야 함

2. monotonicity 가정: 기후 변화가 이상 현상을 방지하는 효과가 있으면 안된다.

 

영국 기상 서비스 회사인 Met Office의 Allen 과 Peter Scott의 연구: 유럽 여름에서의 이상 현상(평균 기온보다 1.6도 이상 높아지는 현상)의 절반의 원인은 인간 때문이다.

- 인과추론을 적용할 수 없기 때문에 매우 난해하게 기술됨

-> 작가의 재기술: 이산화탄소 배출은 2003년 이상 고온 현상의 necessary cause이다.

 

기상학자 Alexis Hannart는 기후 변화 연구에 causal model을 적극 차용

- 기후 변화의 Causal Diagram을 그림: Greenhouse Gases와 Climate Response 사이에 confounder가 없다고 판단 

- 2003년 이상 고온현상과 기후 변화 사이의 PN, PS 계산

    - 기후 변화의 PS는 매우 작다: 단기간의 개별 사건의 PS를 계산하면 작을 수 밖에 없다.

    - 하지만 PN은 매우 컸다. 

- PS를 계산하는 기간을 길게 잡을수록 커진다: 기후 변화가 장기적으로 이상 고온현상이 일어날 확률을 높일 것

- (반면 PN은 감소한다: 기후 변화 외의 다른 원인들이 주는 영향이 causal model에 추가되면서 전체 원인에서 차지하는 볼륨이 줄어든다.)

 

PN, PS 개념이 학자들 사이에서도 일반적이지 않기 때문에 연구마다 다른 주장을 하는 경우가 지금도 많이 있다.

어떤 연구는 PN으로 계산해서 기후 변화가 기상 이변의 원인이라고 주장하는 반면,

다른 연구는 PS로 계산해서 기후 변화의 영향이 매우 작다고 해석한다.

결론적으로 기상 이변과 같은 short-term analysis를 하는 데에 PS를 도입할 때는 기준치를 잘 설정해야 한다. (기준치를 너무 harsh하게 설정하면 원인의 영향을 과소해석하는 것)

 

오늘날 기상 예측 시스템은 단기간 기상 예측은 가능하지만, 장기간의 기후 변화를 예측하지는 못하고 있다.

Causal Modeling을 통해 기후 변화의 장기간 예측에 대한 연구도 활발해져야 한다.

 

A World of Counterfactuals

Counterfactual은 인류가 세상을 이해하는 데에 필수적인 분석 방법론이었다.

이번 챕터에서 소개하지 않은 Counterfactual의 주요 내용들

 

1. ETT (Effect of Treatment on the Treated)

- 약물의 효과를 검증할 때 쓰는 기법

- RCT를 할 수 없을 때, Treatment를 받은 사람들이 Treatment를 안 받았을 때의 상황을 구해서 Treatment의 effect를 계산

 

2. Mediation Analysis

- Chapter 9에서 본격 적으로 다룬다.

- Direct Effect와 Indirect Effect를 구분해낼 수 있음

- 놀랍게도, 이 분석에 Counterfactual 개념이 필요함!

인과추론의 2번째 단계: intervention

- 아직 도입하지 않은 acton 또는 정책의 효과를 예상하기 위한 시도들

Confounding이 seeing과 doing을 혼동시키는 주된 장애물이고, 이 장애물을 제거하는 도구로 "path blocking과 back-door criterion이 필요하다. 이를 통해 시스템으로 인과추론의 엄밀함을 확보할 수 있다.

다음과 같은 방법들이 있다.

1. back-door adjustment

2. front-door adjustment

3. instrumental variables

4. do-calculus ("universal mapping tool"

    - 위 1, 2, 3이 항상 유효하지는 않다.

The Simplest Route: The Back-Door Adjustemnt Formula

만약 변수들에 대한 데이터가 충분히 확보되어 있다면 이를 "통제"하는 것이 가장 적절한 선택지일 것이다.

1. deconfounder의 각 stratum들의 별로 평균적인 효과를 구하고

2. 각 stratum들의 비중을 가중치로 계산한다

 

이렇게 규명된 effect를 causal effect라고 단언할 수는 없다.

다음 두 조건을 만족해야 한다.

- path diagram이 규명되어야 한다.

- 통제된 변수 Z가 back-door criterion을 만족해야 한다.

 

<요약>

back-door criterion은 어떤 변수들을 deconfound해야 할지 알려준다,

adjustment formula가 실제로 deconfounding을 한다.

- (implicit ver.) linear regression, partial regression

- (explicit ver.) nonparametric case, back-door adjustment formula

 

<한계>

- 발견 못한 back-door path가 있는 경우 인과 효과를 적절하게 검증할 수 없다.

 

The Front-Door Criterion

5장에서의 담배-폐암 관계 예시 (Figure 7.1)

back-door adjustment를 적용할 수 없다: Confounder인 Smoking Gene을 관찰할 수 없다.

=> 이런 경우 Front-Door Adjustment를 적용한다.

1. Smoking -> Tar의 Average Causal Effect를 측정한다.

    - 계산식: P(tar | smoking) - P(tar | no smoking)

2. Tar -> Cancer의 Average Causal Effect를 측정한다.

    - 계산식: P(cancer | do(tar)) - P(cancer | do(no tar))

3. Smoking -> Cancer의 Causal Effect를 계산한다.

    - 계산식:

        P(cancer | do(smoking)) = P(tar | smoking) * P(cancer | do(tar)) + P(no tar | smoking) * P(cancer | do(no tar))

        P(cancer | do(no smoking)) = P(tar | no smoking) * P(cancer | do(tar)) + P(no tar | no smoking) * P(cancer | do(no tar))

    - 여기서 P(cancer | do(tar))는 data를 통해 계산할 수 있다 (do를 벗겨낼 수 있다)

 

<요약> 

- front-door adjustment는 두 종류의 변수 (X, Z)를 통제한다는 점에서 back-door adjustment와 다르다.

- 여기서 X, Z는 Y까지 front-door path에 있다. (back-door path에 있지 않다.) 

- 식 7.1 참고

- back-door adjustment와 달리 Confounder 를 통제할 필요가 없다.

- do operator가 아닌 seeing으로만 연산이 가능하다.

 

<한계>

- M이 shielded mediator인 경우(Figure 7.2)만 적용 가능하다.

    - C -> M으로 arrow가 있으면 적용 불가능하다.

    - 다시말해, shielded mediator가 있는 경우는 적용 가능할 수 있다. 만약, 처치 불가능한 confounder가 있다면 shielded mediator를 찾아서 front-door adjustemnt를 적용하자.

 

<연구 적용 예시>

- Glynn and Kashin은 그들의 연구에서 RCT, back-door adjustment, front-door adjustment를 모두 적용했다.

- 작가가 그들의 논문을 토대로 causal diagram을 그려보니 (Figure 7.3) C -> M이 영향이 거의 적은 shielded mediator를 가진 형태였다. 따라서 front-door adjustment를 적용해도 괜찮은 반면, C는 측정할 수 없어서 back-door adjustment는 적용불가능했다.

- 연구 결과: back-door adjustment는 RCT와 차이가 컸던 반면, front-door adjustment는 거의 같은 결론이 나왔다.

 

The Do-Calculus, Or Mind Over Matter

Adjustment의 목적: Intervation 없이 Observation만으로 Causal Effect 계산하기

P(Y | do(X)) 를 P(Y | X, A, B, Z, ...)로 치환하는 것: do-operator를 제거한는 것!

*do-operator: erases all the arrows that come into X, and in this way it prevents any information about X from flowing in the noncausal direction (p. 157)

아래 공리들을 사용하면, 모든 causal graph에서 do-operator를 제거하고 causal effect를 seeing만으로 계산할 수 있다.

 

DO-CALCULUS

1. W -> Z -> Y: W는 Z를  통해서만 Y에 영향을 주고, 이외 경로는 없는 경우

    - P(Y | do(X), Z, W) = P(Y | do(X), Z)

    - Z를 통제했기 때문에, W에서 Y로 가는 모든 경로가 차단되었다. (독립이다.)

    - 식에서 addition or deletion of observation을 가능하게 해줌

 

2. Z -> X, Z -> Y, X -> Y (Z가 confounder)

    - P(Y | do(X), Z) = P(Y | X, Z)

    - Z가 X에서 Y로 가는 모든 back-door path를 막고 있기 때문에, Z를 통제하면 do(X)는 see(X)와 동일하다.

    - 식에서 do()를 벗겨내거나 씌워줌

 

3. X /-> Y (X에서 Y로 가는 causal path가 없는 경우)

    - P(Y | do(X)) = P(Y)

    - 만약 Y에 영향 없는 do를 한다면, Y의 확률 분포는 변하지 않는다.

    - 식에서 addition or deletion of intervention을 가능하게 해줌

 

1, 2, 3을 적용해서 front-door adjustment를 도출하는 예시: Figure 7.4

 

 

The Tapestry of Science, Or The Hidden Players in the Do-Orhcestra

do-calculus를 확립하는데까지 여러 학자들이 공을 세웠다.

- Thomas Verma: d-separation property를 증명

- Dan Geiger: path blocking된 경로가 아니면 causal digram에서는 독립이 아님을 증명

- Jin Tian: front door, back door 를 그래프로 단순화 함

- Ilya Shpister: do-calculus를 위한 알고리즘 완성: do-calculus의 completeness 증명

- Peter Spirtes: 인과 관계를 network로 접근하는 방법 제안: intervention = causal diagram에서 화살표를 지우는 것

    -> 수많은 연구에 영감을 줌: back-door criterion, do-calculus, counterfactuals, generalizability, missing data and machine learning

The Curious Case(s) of Dr. Snow

도구 변수에 대한 설명

1853년 John Snow 박사가 식수의 청결도와 콜레라 사이의 인과관계를 밝혀낸 연구(Figure 7.8)에서,

Water Purity와 Cholera 사이의 인과관계를 직접 밝히기가 어려워(아직 현미경이 없었다), Water Company(식수 추출하는 곳이 서로 다른 두 곳)를 도구변수로 활용했다. 

 

<요약>

- 도구 변수(Z)를 활용하면 Confounder인 U를 통제할 필요도 없고, 심지어 존재 여부를 확인할 필요도 없다.

- Z -> X의 효과가 a, Z -> Y의 효과가 ab라면 X -> Y의 효과는 ab ÷ a로 계산할 수 있다.

 

<한계>

- Z와 Y 사이에 direct path가 있거나 back door path가 있으면, Z는 도구 변수로 사용 불가능하다.

- Z->X라는 causal direct path가 있어야만 도구 변수로 사용할 수 있다.

 

Good and Bad Cholesterol

RCT에서 선택편향이 발생한 경우의 해결 방법: 도구 변수 활용

linear model이 아니여도 monotonicity를 만족하면 도구 변수를 활용해 X의 causal effect를 계산할 수 있다.

도구 변수로 사용하려면 아래 세 조건을 만족해야 한다.

1. Z가 confounder와 독립인가? - Z를 랜덤 변수로 사용하는 것을 권장한다.

2. Z -> Y 경로가있는가?: 있으면 안된다.

3. Z와 X 사이에 강한 상관관계가 있는가?

이 경우 1, 2, 3을 규명하는 데에는 causal diagram을 그리는 데에 규명된 common sense를 사용하는 것이 좋다.

 

선택편향이 발생한 경우(Figure 7.11) Treatment의 effect를 측정하는 방법

monotonicity: Z=0, X=1인 경우는 없다는 가정

1. worst-case scenario: non complier(Z=1, X=0)가 아무도 효과를 안 봤다고 가정

2. best-case scenario: non complier가 모두 효과를 봤다고 가정

3. placebo effect (Z=0, Y=1)는 빼준다.

1번 값과 2번 값 사이에서 효과를 추정 (range of estimates)

 

만약 range estimates가 아닌 point estimates를 구하고 싶다면?

=> LATE (Local Average Treatment Effect)를 계산

 

<요약>

- do-calculus와의 비교

- 장점: Confounder의 존재 여부를 파악하기 어렵거나, do-calculus를 적용하기 어려운 경우에 사용할 수 있다.

- 단점: do-calculus보다 유연성이 떨어진다. (만족해야 하는 가정이 더 많다.)

    - causal diagram의 규명이 필수적이다.

역설(Paradox)은 착시현상과 마찬가지로 우리 뇌가 어떻게 동작하고, 어떤 식으로 판단을 내리는지를 알려준다.

인과관계에서의 역설(Paradox)은 직관적인 인과추론이 확률과 통계 논리와 어떻게 충돌하는지를 밝혀준다. 

 

The Perplexing Monty Hall Problem

몬티홀 역설에서 최종 선택시 문을 바꾸는게 이길 확률이 2배 높다는 것을 사람들은 받아들이지 못한다.

"문을 바꿀 확률과 안 바꿀 확률이 동일해야 하는 것 아닌가?"

이렇게 생각하는 이유는, 그 동안의 확률 통계학문이, data에만 집중했을 뿐 data가 만들어지는 과정(= model)은 전혀 고려하지 않았기 때문이다.

1. Causal Diagram을 활용한 설명 (Causal Reasoning)

몬티홀 역설에서 Causal Model은 다음과 같다.

Your Door -> Door Opened

Location of Car -> Door Opened

Door Opened는 Your Door와 Location of Car에 모두 영향을 받는 Collider이다.

따라서 Door Opened가 conditioned 되어버린 순간, Your Door와 Location of Car는 독립이 아니게 된다.

만약 규칙을 바꿔서, 사회자도 Location of Car를 모른다고 치자.

그렇다면, Causal Model은 다음과 같이 될 것이다. (Location of Car와 Door Opened는 독립이 된다.)

Your Door -> Door Opened

Location of Car

이 때는 선택지를 바꾸나 안 바꾸나 이길 확률이 동일하다. Door Opened가 conditioned되어도 Your Door와 Location of Car가 독립인 채로 유지되기 때문이다.

 

2. Transfer of information 관점에서의 설명 (Bayesian Reasoning)

당신이 Door 1을 선택했다고 하자.

규칙에 따라 사회자는 Door 1과 Location of Car을 제외한 선택지를 Open해야 한다.

사회자가 Door 3를 열었다고 하자. 이는 Door 1 또는 2가 Location of Car라는 뜻이다.

결국 이 문제는 당신의 첫 선택(Door 1)이 맞았느냐(Door 1 = Location of Car), 틀렸느냐(Door 1 != Location of Car)로 치환된다. 

처음부터 맞는 선택을 확률은 1/3이므로 틀렸을 확률은 2/3 (=1-1/3)이다. Door 2는 첫 선택이 틀렸을 경우를 대변하는 선택지 (Door 3가 이미 열렸으므로)이다. 

이는 반박을 위한 test(실험)로부터 잘 살아남은 가설일 수록 참일 확률이 올라간다는 Bayesian 분석의 주제와도 맞닿아 있다.

(애초에 대상이 아닌) Door 1과 달리 Door 2는 사회자가 문을 여는 선택의 후보가 된다. 사회자가 Door 3를 열었다는 것은, Door 2가 꽝일 확률로부터 한 차례 살아남았다는 뜻이다. 아무런 검증(사회자의 선택)도 받지 않은 Door 1과 달리, Door 2는 사회자가 꽝이 아닐 수 있다는 실험을 한 차례 해 준 것이다.

 

More Collider Bias: Berkson's Paradox

두 가지 질병과 입원 사이의 Causal Diagram이 다음과 같다고 하자.

Disease 1 -> Hospitalization

Disease 2 -> Hospitalization

질병 1과 질병 2는 독립이지만, 입원한 사람들(Hospitalization = True)인 사람들만의 데이터로 상관관계를 구한다면, Disease 1과 Disease 2가 상관관계가 있다는 잘못된 결론을 내리게 될 수도 있다.

이 또한 마찬가지로 Collider (Hospitalization)을 통제했기 때문에 발생하는 오류이다.

철학자 Hans Reichenbach는 "No correlation without causation"이라는 상당히 과감한 주장을 했는데, 이는 Collider를 고려하지 못한 주장이다. (Direct effect와 Confounder만 있는 세상에서는 맞는 이야기일 수 있다.)

만약 동전 2개를 던지고, 둘 중 하나라도 앞면이 나오는 경우만 기록을 한다고 가정하자.

그 기록들을 보면 두 동전이 독립이 아니라는 잘못된 결론을 내릴 수 있게 된다.

왜냐하면, 둘 중 하나라도 앞면이 나오는 경우만 기록하는 행위가, Collider를 통제하는 것이기 때문이다.

동전 예시에서는 이게 잘못된 결론이라는 것을 쉽게 파악할 수 있지만, 현실 세계에서는 자기도 모르게 Collider를 통제하곤 한다.

(건강한 사람들의 데이터도 포함해야 하는데, 입원한 사람들의 데이터만 보는 등)

 

Simpson's Paradox

어떤 약물 D가 데이터 상, 남성에게도 안 좋고, 여성에게도 안 좋지만 모든 사람들에게는 좋을 수 있을까? -> 그럴 수 있다.

이 역설을 해결하기 위해서는 마찬가지로 데이터가 어떻게 생성되었는지를 봐야 한다. (이 데이터는 랜덤 추출된 것이 아니다; 환자들이 약물 D 복용 여부를 직접 선택해서 만들어진 데이터다.)

 

역설을 해결하는 데에 4가지 과정을 거친다.

1. 왜 사람들이 이 역설을 어려워하고 놀라는지를 밝혀낸다.

2. 역설을 다른 문제로 치환(identify)한다.

3. 이 다른 문제에는 역설이 없음을 밝힌다.

4. 처음 역설에서 충돌하는 2개의 명제 중 참인 명제를 선택한다.

 

1. Simpson's Paradox를 Simpson's Reverseal과 구분한다.

a/A > b/B, c/C > d/D 라고 (a+c)/(A+C) > (b+d)/(B+D)가 아님은 산수 공부를 한 사람이면 누구나 알 수 있다. 

(a+c)/(A+C)는 가중 평균으로서, 더 큰 수로 수렴한다.

따라서 저 수식 자체에는 역설이 없다. 역설은 수학을 넘어 더 깊은 믿음에서 기인한다.

 

2. 여전히 위의 약물 예시가 역설로 느껴지는 이유

한 약물이 동시에 2가지 충돌되는 사실을 충족시킬 수 는 없기 때문이다. "여자한테는 안 좋지만, 사람한테는 좋다?"

이렇게 생각하는 직관은 전혀 틀린게 아니다. (저 문장은 논리적 모순이 맞다.)

다른 예시를 들어보자. (Savage's sure-thing principle)

사건 C가 발생하면, A는 1달러에서 1.05달러가 되고, B는 1달러에서 1.08달러가 된다.

사건 C가 발생 안하면, A는 1달러에서 1.3달러가 되고, B는 1달러에서 1.4달러가 된다.

 

3. 사건 C가 발생하던 안하던, B가 A보다 더 높게 오르므로 B를 선택하는 것이 합리적인 선택이다. (역설이 전혀 아니다.)

다만 필요한 전제는, A 또는 B를 선택하는 것이 C가 발생할 확률에 영향이 없어야 한다는 것이다.

만약, B를 선택하면 C가 발생하고, A를 선택하면 C가 발생 안한다고 하면,

B 선택하면 0.08 달러를 벌 수 있는 반면, A를 선택하면 0.3 달러를 벌 수 있기 때문에, A를 선택하는 것이 더 합리적인 선택이 된다.

따라서 약물 D 문제를 AB 달러 예시로 치환하기 위해서는 이 가정이 타당한 가정인지를 검증해야 한다.

당연히 약물 D 선택 여부가 성별을 바꾸지는 않으므로 타당한 가정이라고 볼 수 있다.

 

4. 다음 단계에서 살펴봐야 하는 것은 데이터가 어떻게 만들어졌는지를 Causal Diagram으로 파악하는 것이다.

Gender -> Drug

Gender -> Heart Attack

Drug -> Heart Attack

Gender가 Confounder다. 데이터에 따르면, 여성들이 남성들보다 약물 D를 더 선택하는 경향이 있다.

편향 없는 데이터 해석을 위해서는 confounder가 되는 Gender를 통제하고 분석해야 한다. 이는 여성 데이터와 남성 데이터를 각각 보고 평균을 내려야 한다는 뜻이다. (가중 평균을 하는 것이 아니라)

 

각각 구해서 평균 내리는게(Partitioning) 항상 옳다는 뜻은 아니다.

데이터가 어떻게 만들어지는지 Causal Model을 보고 판단을 내려야 한다.

만약 데이터는 같고, Causal Diagram이 이랬다면 어땠을까? (Gender를 Blood Pressure로 바꾼다. 여기서 Drug은 Blood Pressure를 낮춰준다.)

Drug -> Blood Pressure

Drug -> Heart Attack

Blood Pressure -> Heart Attack

이 Causal Model에서의 결론은, Drug이 Heart Attack을 완화하는 데에 도움이 된다이다. (Table 6.6)

여기서 Blood Pressure는 Mediator다.

이 경우에는 Partitioning (Stratifying)이 불필요하고, 오히려 Drug의 다른 causal path (indrect effect)를 함께 측정 못하는 결과를 낳는다.

 

이 예시들의 결론은 분석을 하는 데에는 통계 뿐만 아니라 extra information이 필요하다는 것이다. (Causal Model을 그려야 한다.)

Simpson's Paradox in Pictures

위의 예시는 변수들이 bianary(Drug D를 복용한다 안한다, Heart Attack에 걸린다 안 걸린다) 였지만 continuous variable로도 예시를 만들 수 있다. 오히려 시각화가 더 용이해서 이해하기 더 쉽다.

Figure 6.6 예시: age별로 그룹을 나눴을 때, 운동할 수록 콜레스테롤 수치가 낮아지지만, age별로 안 나누면 운동할 수록 콜레스테롤 수치가 높아진다는 해석이 나온다.

앞의 예시와 마찬가지로, age가 운동량과 콜레스테롤 수치의 confounder이다. age가 많을 수록 건강 관리를 위해 운동을 더 많이 하게되므로, age로 그룹을 나눠서 해석하는게 올바른 분석이다.

 

Lord's Paradox (Figure 6.7)

어떤 식단이 체중 증가에 효과가 있는지를 검증하고 싶다. 특히 성별에 따라 다른 효과가 있는지 검증하고 싶다.

학교 안에서 실험을 했을 때, 여학생 집단과 남학생 집단 각각 모두 W_I (식단 시작 전 몸무게)와 W_F (식단 종료 후 몸무게)가 동일한 분포를 보였다.

첫번째 주장: 여학생 집단과 남학생 집단 모두 W_I와 W_F가 동일하니 해당 식단은 체중 감량에 효과가 없다. 성별에 따라 효과가 다르지 않다.

두번째 주장: 식단 시작 전에 특정 몸무게를 가진 집단(W_I = W_0)만 봤을 때(Deconfounding?), 남학생들이 여학생들보다 식단으로 인한 체중 증가 효과가 더 크다.

 

두번째 주장의 오류: Causal Diagram (Figure 6.8)을 그렸을 때, W_I는 성별과 Y(체중 증가량)의 Confounder가 아니다. Mediator다.

따라서 W_I=W_0으로 W_I를 통제하는 것은, Deconfounding이 아니라 성별의 Indirect Effect(W_I에 주는 영향)를 제거하는 것 밖에 안된다. Y=W_F - W_I이므로 성별은 Y에 두 가지 Indirect Effect로 영향을 주는데(W_I, W_F) 이 중 절반을 차지하는 W_I의 영향을 제거하고 S와 Y의 관계를 해석하는 것은 오류이다.

이는 앞에서의 sure-thing principle의 전제도 충족시키지 못하는데, 여기서 Treatment에 해당하는 성별이 W_I의 분포에 영향을 끼치기 때문이다. 따라서, W_I로 partitioning해서 데이터를 해석하는 것은 잘못된 분석이다.

 

이 실험은 사실 처음부터 하자가 있는데, 바로 식단을 Treatment로 두고 대조군과 실험군을 세팅하지 않았다는 것이다.

이제 상황을 바꿔서 식단을 경험한 집단과 하지 않은 집단으로 그룹을 나눈다고 가정하자.

하지만 이때 랜덤하게 배분을 하지 못해서 대조군(Dining Room A)에 W_I가 더 적은 학생들이 몰려있었다고 하자. (Figure 6.9)

이 때는 W_I=W_0로 partitioning하는게 올바른 접근이다.

왜냐하면 이때는 W_I가 Confounder기 때문이다.

 

1950년대 말부터 1960년대 초까지 통계학자들과 의사들 사이의 가장 뜨거운 논쟁: 담배가 폐암의 원인인가?

학계 (나아가 가족끼리도) 의견들이 첨예하게 갈렸다.

Jacob Yerushalmy (A biostatistician at the University of California, Berkeley): 담배 옹호론자

Abe Lilienfeld (An Epidemiologist at Johns Hokins University): 담배 반대론자 - 담배가 폐암의 원인이다

담배-폐암 토론의 성패를 가르는 주요 가설은 다음 내용

- 니코틴에 대한 열망과 폐암의 모두 원인이 되는 미지 변수의 존재 (= confounder)

하지만 때는 아직 confounder에 대한 연구가 본격적으로 시작되기 전이었다. 이 이슈를 과학자들이 어떻게 다루는지를 살펴볼 것

의학계에서 causal question이 답하는 데에 난이도가 높은 것은 모두가 인지하고 있었다

주요 사례는 다음 두 가지: 괴혈병과 콜레라 (둘 모두 각각 비타민 C와 콜레라균이 필요충분 원인인 것은 밝혀냈다)

담배-폐암의 인과관계를 주장하기 어려웠던 이유

- 많은 사람들이 평생 담배를 피고도 폐암에 안 걸리고, 어떤 사람들은 담배를 전혀 피지 않고도 폐암에 걸렸다

- 담배가 아닌 다른 원인(유전, 유독 가스가 있는 업무 환경 등)에 의해 폐암을 걸리기도 한다

- RCT를 적용할 수도 없는 상황 (윤리적 문제)

따라서 Yak과 Fisher가 그랬듯, 상관관계만 주장하고 잠재적인 미지 변수(confounder)가 있을 수 있다고 주장하는게 합리적이다.

Confounder가 없다고 증명해야 하는 것은 담배 반대론자들의 역할

결론적으로는 담배 반대론자들이 승리한다 ("Cigarette smoking is causally related to lung cancer in men")

하지만 한계도 있었다

- 인과추론을 이론으로서 체계화하지는 못했다 (아직 1960년대는 여타 다른 뒷받침되는 이론들이 부족했다)

- Hill's criteria라는 Austin Bradford Hill이라는 영국 통계학자가 만든 가이드라인에 의해 주장이 전개되었다.

    - Fisher의 방법론적 접근과 정반대로, 양적 패턴을 기초로 인과관계가 규명되었다.

Tobacco: A Manmade Epidemic

첫번째 근거: (Figure 5.2) 인당 담배 소비율 그래프 증가와 함께 폐암 발병률 그래프도 따라 증가한다. (1940년대 ~ 1960년대)

-> 인과관계를 주장할 수 없다: 1940년대 근대화가 더 본격화되면서 자동차 배기, 도로 타르, 시멘트 등 기관지에 안좋은 기체들이 폐암의 원인이었을 수도 있음

두번째 근거: "Dose-Response effect"

- 담배 피는 사람들이 안 피는 사람들보다 사망률과 폐암 발생률이 몇 배는 높았고

- 담배를 피다가 멈춘 사람들의 경우, 계속 피는 사람들보다 폐암 발생률이 현저하게 떨어졌다.

-> 인과관계를 주장할 수 없다: Smokers are self-selecting

- 유전적으로 또는 기질적으로 비흡연자보다 폐암 발생확률이 높을 수도 있다

-> 재반박: 유전자가 confounder라는 주장은 비겁함 - 증명하기 불가능하기 때문에

- Cornfield's inequality: 유전자가 담배피는 습관을 형성한다는 주장은 수학적으로 불가능하다

    - 만약 흡연자가 폐암 발병률이 9배가 높다면, 해당 유전자가 있을 확률이 적어도 9배는 높아야 한다.

    - 만약 해당 유전자가 비흡연자에게서 발견될 확률이 12퍼센트라면, 흡연자에게 이 유전자가 있을 확률은 100퍼센트가 넘어감으로 수학적으로 불가능

- 이는 사실 Smoking의 Direct Effect 유무에 따라 다른 모델이 있을 수 있음을 시사하는 (Diagram 5.1 vs 5.2) 중요한 주장

- 나아가 이후 sensitivity analysis라는 통계 기법의 초석이 되었다.

1950년대 실험 증거

- 쥐한테 담배 타르를 입혔더니 암이 발생하더라

-> 대부분 전문가들은 담배가 폐암의 직접적인 원인임을 받아들이기 시작

하지만 담배가 폐암의 원인이라는 결론을 완벽히 내리지는 못했다: 담배회사들의 공작과 Fisher를 비롯한 몇몇 통계학자, 의사들의 고집 때문에

아직 인과추론 기법이 자리잡기 전이기 때문에 이런 주장들을 강하게 반박하지 못했던 것도 사실이다.

 

The Surgeon General's Commmission and Hill's Criteria

5명의 의학, 통계 전문가들로 구성된 committee를 통해 담배-폐암 인과관계를 밝혀내려는 시도 진행했다.

"원인"을 규명하기 위해서는 당시 통계 방법론에서 탈피해야 했다.

"원인"을 정의하기 위해 5가지 기준을 마련하고 이들을 충족하는지 여부를 통해 판단하려 했다

1. consistency: many studies, in different populations, show similar results

2. strength of association: including the dose-response effect: more smoking is associated with a higher risk

3. specificity of the association: a particular agent should have a particular effect and not a long litany of effects

4. temporal relationship: the effect should follow the cause

5. coherence: biological plausibility and consistency with other types of evidence such as laboratory experiments and time series

 

(나중에 Hill이 다른 4가지 기준을 추가해, 다른 의학 분야에도 적용되는 Hill's criteria를 만듬 - 다만, 9가지 조건을 모두 충족해야만 원인은 아니다.)

사실, 5가지 기준(그리고 Hill's criteria 모두)을 충족한다고 "원인"이라고 정의할 수는 없다. 각 기준들 모두 abusing될 수 있는 취약점들이 있다.

하지만, 인과관계를 규명하기 위해서는 통계 바깥에서 기준(모델)을 만들어야함을 인지한 것 자체가 인과 추론 연구에 있어 도약이었다.

(인과추론 연구의 가이드로 삼기에는 턱없이 부족한 기준이었다. - 차라리 Conrfield's inequality가 sensitivity analysis의 씨앗이됨으로서 더 큰 성취었다.)

 

Smoking for Newborns

birth-weight paradox: 신생아가 underweight으로 태어나는 경우, 산모의 흡연이 아기 생존율에 도움을 준다?

-> collider bias였다. (Figure 5.4)

- Birth Weight이 낮은 신생아 데이터만 봄으로써, Smoking과 Mortality 사이의 backdoor path가 열린다: Smoking -> Birth Weight <- Birth Defect -> Mortality (이 backdoor path는 noncausal이다.)

Causal Diagram을 통해 collider bias를 규명할 수 있다.

이 예시는 직관과 반대되는 데이터가 나오기 때문에 collider bias를 규명할 수 있었지만, 일반적인 상식이 형성되지 않은 분야에서는 아직 발견 못한 collider bias가 있을 수도 있다.

 

 

Passionate Debates: Science vs Culture

위의 예시에서 Smoking 자리를 Race로 바꾼다면?

실제로 Wilcox의 연구에서 흑인들의 신생아 생존률이 백인들보다 낮은 것을 발견했다.

Wilcox는 나아가, 신생아 몸무게와 생존률 사이의 인과관계가 없다고 주장하여 (Race만이 생존률에 영향을 준다고 주장) 인종차별주의자라는 비판을 받았다.

Smoking과의 차이: Smoking이 원인인 경우 금연을 통해 해결할 수 있지만, Race가 원인이라면 해결이 불가능하다.

비판하기 전에 살펴볼 것은, Race가 직접 생존률에 영향을 주는 것이 아니라, Race로 인한 사회적 변수들의 차이가 생존률에 영향을 줬을 수도 있는 것이다. 

작가의 마지막 주장: 사회적 맥락을 전혀 고려하지 않은 과학적 주장은, 주장하는 사람의 의도와 상관 없이 더 악한 세상을 만드는 데에 일조하게 될 수도 있다.

Causal Diagram의 언어는 감정에 좌우되지 않고 인과관계를 규명할 수 있는 방법을 제공해준다.

성경의 다니엘 예시.

바빌론의 왕이 뽑은 총명한 소년들(?) 중 하나였던 다니엘은, 성경의 교리에 따르지 않는 육식은 할 수 없었다.

이는 당시 감독관을 매우 곤란하게 했는데, 왕이 소년들을 위해 마련해놓은 귀한 음식들을 먹지않는다면 최대 사형까지 시킬 수 있기 때문이다.

다니엘은 자신의 주장으로 감독관, 나아가 왕에게까지 설득시키기 위해, 다음 실험을 제안한다.

한 그룹은 채식만 시키고(실험군), 다른 그룹은 왕이 준 음식들을 먹인다(대조군).

이는 최초의 RCT(Randomized Controlled Trial)이다.

하지만, 한 가지 조건을 반드시 챙겨야 한다.

바로 Confounding bias가 없는지이다. 이는 두 집단이 비슷한 사람들로 구성되어 있는지 여부를 통해 확인할 수 있다. - 다시말해, 채식만 했던 그룹보다 왕이 준 음식들을 먹은 그룹이 원래부터 더 건강했다면, 실험 후 왕이 준 음식들을 먹은 그룹이 더 건강하다고 해서 이게 음식 때문인지, 원래의 상태 때문인지 파악할 수 없다.

오랫동안 통계학에서 인과추론이 비주류였기 때문에, Confounding을 해소하려는 시도가 최근에서야 활발하게 진행되었다. 그리고 다음 두 가지가 학계에서 공통으로 인정하는 내용이다.

1. Confounding은 인과추론적인 접근 방법으로 해결해야 한다.

2. Causal Diagram은 완전하고 구조적인 해결방법을 제공한다.

본 챕터에서는 Confounding 연구의 역사와 Causal Diagram으로 어떻게 해결이 가능한지를 소개한다.

The Chilling Fear of Confounding

Confounder는 항상 존재하지만, 매 분석마다 이를 심각하게 고려해서, 모든 결과를 의심할 필요까지는 없다.

Confounder를 적절히 통제한 후(여러 가정들을 통해) 내린 결론은 해당 가정들을 피하기 위해 실행한 RCT만큼이나 값어치가 있다.

 

The Skillful Interrogation of Nature: Why RCTs Work

RCT를 통해 내린 결과 만큼은 (전통적인 통계학을 포함한) 모든 학문 분야에서 인과관계라고 해석한다. 

Randomization은 다음 두 가지 장점이 있다. 

1. Confounder bias를 제거한다.

2. 불확실성의 정량화가 가능하다.

Fisher를 중심으로 한 전통적인 통계학은 Randomization의 장점 중 후자에 집중했었다. Fisher는 soil과 식물 성장을 통한 실험에서 산출물의 불확실성에 주목했다. (불확실성 자체는 문제가 아니다. 이를 통제할 수 없는 것이 문제이다.) Fisher는 Randomization process를 통제함으로써, 불확실성 자체도 통제할 수 있었다. 

반면에 그는 1번 장점을 수학적으로 표현할 수 있는 인과추론 개념이 부족했다. 

하지만 이제는 do-operator 개념을 통해 Randomization이 Confounder bias를 제거하는지 설명할 수 있다.

<Figure 4-4> Model 1: 현실 (Confounder를 통제하기 어려움)

Fertilizer -> Yield

Soil Fertility -> Fertilizer, Yield

Texture -> Fertilizer, Yield

Drainage -> Fertilizer, Yield

Microflora -> Fertilizer, Yield

Other -> Fertilizer, Yield

 

<Figure 4-5> Model 2: 우리가 궁금한 것 (Confounder가 Fertilizer에 주는 영향 제거)

Fertilzer = 1-> Yield

Soil Fertility -> Fertilizer, Yield

Texture -> Fertilizer, Yield

Drainage -> Fertilizer, Yield

Microflora -> Fertilizer, Yield

Other -> Fertilizer, Yield

 

<Figure 4-6> Model 3: RCT 적용 

Random Card -> Fertilzer = 1

Soil Fertility -> Fertilizer, Yield

Texture -> Fertilizer, Yield

Drainage -> Fertilizer, Yield

Microflora -> Fertilizer, Yield

Other -> Fertilizer, Yield

The New Paradigm of Confounding

Confounding의 정의:

- P(Y | X) != P(Y | do(X))를 만드는 (둘 사이를 다르게 만드는) 모든 것

이후 Confounding을 정의하려는 시도의 역사 설명 

The Do-Operator and the Back-Door Criterion

do-operator의 기능: Causal Diagram에서 X로 향하는 화살표들을 모두 제거 => X에 대한 information이 noncausal direction으로 흘러가는 것을 방지

이후 causal diagram 예시에서 do-operator를 적절히 적용하는 예제

3장에서는 본격적인 인과관계 이론 적용에 앞서 기본이 되는 개념들을 소개한다.

대표적으로 Bayes Rule 개념을 설명하고, 이를 확장한 Bayesian Network를 소개한다.

그리고 Bayesian Network를 활용한 Causal Diagram을 마지막으로 설명하면서, 인과관계를 Bayesian Network로 표현했을 때의 장점을 정리하며 마무리한다.

Bonaparte, The Computer Detective

2014년 7월 14일 네덜란드에서 출발한 비행기가 사고로 탑승한 298명 전원이 사망한 사건이 있었다.

시신 수습 과정에서 신원을 확인할 수 없는 탑승객들을 규명하기 위해, Bonaparte라는 DNA 분석 프로그램이 사용되었다. 

Bonaparte는 매우 높은 정확도를 보였고, 이는 Bayesian Networks 기반으로 설계된 알고리즘의 힘이었다.

Bayesian Networks는 이 뿐만 아니라, 다양한 분야(스팸 필터, 게임 랭킹, 전화 통신 등)에 사용되고 있다.

Reverend Bayes and The Problem of Inverse Probability

Bayes Rule 개념 설명

목사 Bayes가 궁금해했던 건 다음이었다.

"(어떤 가설이 참일 때, 증거들이 나타날 확률이 아니라) 증거들이 발견될 때, 어떤 가설이 참일 확률은 어떻게 될까?" (Inverse Probability)

-> "(신이 존재할 때, 기적이 발견될 확률이 아니라) 기적이 발견될 때, 신이 존재할 확률은 어떻게 될까?", "어떻게 구할까?"

Bayes Rule은 현상들을 통해 원인의 확률을 귀납적으로 추론하는 과정이다. ("His paper is remembered ... because it shows that you can deduce the probability of a cause from an effect")

 

예시 1) 당구대 예시

일반적인 문제: 당구대 길이가 L일 때, 공을 쳐서 x에 멈출 확률 구하시오

Inverse Probability 문제: 공을 쳐서 x에 멈췄을 때, 당구대길이 L의 확률 분포를 구하시오.

 

예시 2) 까페 (Tea & Scones) 예시

P(T) = 까페에서 차를 살 확률

P(S) = 까페에서 스콘을 살 확률

P(S | T) P(T) = P(T | S) P(S): 차를 샀을 때 스콘을 살 확률(P(S | T)) 을 알고 싶으면, 차를 살 확률(P(T))스콘을 살 확률(P(S)) 그리고 스콘을 샀을 때 차를 살 확률(P(T | S))을 알면 된다.

P(T | S): Forward Probability

P(S | T): Inverse Probability

=> P(T)와 P(S)를 알고 있고(or 안다고 가정할 수 있고), Forward Probabilities를 계산할 수 있으면 수학적으로 Inverse Probabilities도 구할 수 있다.

 

예시 3) Sensitivity

Inverse Probability가 직관적으로 이해하기 어려운 이유

일반적으로 질병 검사에서 "질병이 있을 때, 양성이 나올 확률" (Forward Probability)을 생각하는 것은 자연스럽다. (이 Forward Probability는 검사의 민감도 (Sensitivity(= Recall))라고 부른다.) 이 확률을 생각하는 게 자연스러운 이유는, 질병에서 양성으로 인과적 방향성(Causal Direction)이 수립되기 때문이다.

반면, "양성이 나왔을 때, 질병이 있을 확률" (Inverse Probability)이 우리가 더 관심이 많은 확률임에도, 이를 생각하기 부자연스러운 이유는, 양성에서 질병으로 인과적 방향성이 없기 때문이다. (다시 말해, 질병이 양성의 원인이 되지만, 양성 자체가 질병의 원인이 되지는 않는다.)

양성을 받은 피검사자들이 궁금해하는 것은, 내가 "진짜" 질병에 걸렸을 확률이다. 이는 다음과 같이 계산할 수 있다.

- 피검사자 전체: 3000명

- 질병 환자: 4명, 건강한 사람: 2996명 (현실에서는 구할 수 없는 숫자들)

- 질병에 걸렸는데 양성인 사람: 3명, 질병에 걸렸는데 음성인 사람: 1명

- 건강한데 양성인 사람: 360명, 건강한데 음성인 사람: 2936명

 

=> 양성인데 질병에 걸렸을 확률: 3 / (3 + 360) = 0.82%

 

이 숫자는 실제 전체 피검사자중 질병에 걸린 비율 (4 / 3000 = 0.13%)보다 높다.

다시 말해, 양성을 진단 받았다는 사실이 실제 질병에 걸렸을 확률을 "증가 (augment)"시켰다. (=> 주의할 점은 여기서 증가는 인과적으로 증가시켰다는 게 아니라, 사실에 더 가까워졌다고 해석해야 한다.)

From Bayes' Rule to Bayesian Networks

인공지능 이론을 전개하는 데에, Bayesian Network이 주요한 역할을 했다.

인간의 뇌가 룰베이스로 이뤄져 있다는 이론은 한계에 부딪쳤고 확률을 적용해 뉴런을 표현하자는 제안이 주류로 떠올란다. 여기서 확률을 그래프 형태로 표현하는 것이 Bayesin Networks다. 

"... any artificial intelligence would have to model itself on what we know about human neural information processing and that machine reasoning under uncertainty would have to be constructed with a similar message-passing architecture"

여기서 message란 정방향에서는 조건부 확률, 반대 방향에서는 likelihood ratios를 의미한다.

Bayesian Networks: What Causes Say About Data

Bayes Rule은 Bayesian Network에서 Node 2개에 적용된다.

이제 Node 3개의 경우들을 보자. -> 이는 Bayesian Networks를 구성하는 building block이 된다.

1. A -> B -> C ("chain")

ex) Fire -> Smoke -> Alarm

Fire Alarm이 만일 Smoke Alarm이라면, Fire와 Alarm 사이에는 아무 관련이 없다. 만약 중간을 차단한다면(흄으로 Smoke를 다 빨아들인다면) Fire Alarm은 울리지 않을 것이다. 

여기서 중요개념은 mediator B가 A에서 C로 흐르는 정보를 차단과 동시에 매개 ("screens off")한다는 점이다.

원래는 다음 두 가지 경우 밖에 없다.

A: Fire B: Smoke C: Alarm
0 0 0
1 1 1

만약 Fire Alarm이 고장나서 5%의 확률로 반응을 못한다고 가정하면 경우의 수가 다음과 같이 나올 것이다.

A: Fire B: Smoke C: Alarm
0 0 0
1 1 0 (5%)
1 1 1 (95%)

만약 여기에 조건을 추가해서, Fire 없이 Smoke를 발생시키는게 가능하다고 하면 경우의 수는 다음과 같아진다.

A: Fire B: Smoke C: Alarm
0 0 0
1 1 0 (5%)
1 1 1 (95%)
0 1 (인위적인 Smoke) 0 (5%)
0 1 (인위적인 Smoke) 1 (95%)

이 때, Smoke = 1인 경우만 보는 것을 "B를 Conditioning한다"고 한다. 

Smoke = 1일 때 Fire가 0인지 1인지 상관없이 Alarm = 0 or 1일 확률이 각각 일정하므로, A와 C는 독립임을 알 수 있다.

2. A <- B -> C ("fork")

여기서 B는 confounder라고 부른다.

예) A: Shoe Size, B: Age, C: Reading Ability

A와 C는 전혀 관련이 없는데도, B때문에 상관관계가 높다고 나온다.

이 경우 정확한 분석을 위해서는 반드시 B를 Conditioning해야 한다.

같은 Age의 아이들 데이터를 보면, Shoe Size와 Reading Ability가 독립임을 알 수 있을 것이다.

 

3. A -> B <- C ("collider")

A와 C가 독립인데, 괜히 B를 Conditioning한다면, A와 C가 dependent하게 된다. (이를 collider bias 혹은 explain-away effect라고 한다.)

예) A: Talent, B: Celebrity, C: Beauty

Talent와 Beauty는 관련이 없지만, Celebrity들만 놓고 보면 (Talent와 Beauty가 떨어지는 집단은 제거되므로) 둘 사이의 음의 상관관계가 있는 것처럼 해석된다.

 

이 3가지 조합들은 Bayesian Networks가 인과추론에 기여한 핵심 중 하나이다.

이들을 통해, 인과 모델을 평가하거나, 개입의 효과를 검증하는 등 인과추론에 있어 다양한 시도들이      가능해졌다.

 

Where is my bag? From Aachen to Zanzibar

Bayesian network에서 causal diagram 표현은 엔진이라고 할 수 있다.

이 엔진을 작동시키는 연료는 조건부확률분포표 (conditional probability table)다.

node A가 부모 node를 갖고 있다면, A는 자신의 상태 (=확률)를 결정하기 전에 부모 node로부터 정보를 "듣는다 (listen)".

질병과 검사 예시에서, D(질병 여부) -> T(양성 여부)가 그래프라면, T=0인 확률은 D=0인지, D=1인지의 정보에 따라 결정된다.

 

2개 이상의 부모를 가진 node의 예시 ("Where Is My Bag")

인과 그래프: Bag on Plane -> Bag on Carousel <- Elapsed Time

우리가 궁금한 것: P(Bag on Plane = True | Bag on Carousel = False, Elapsed Time = t)

 

(당부사항) 실제로 Bayesian Network그릴 때, 최대한 sparse하게 그리자. (= 인과관계가 매우 약한 node끼리는 연결하지 마라)

 

Bayesian Networks in the Real World

Bonapartre의 작동 방식 설명

- 가계도가 곧 Causal Diagram이 된다.

- 이 중 DNA를 밝힐 수 있는 부분은 전부 밝히고, 미지의 node들 중 전체의 likelihood를 최대한 높이는 최적해를 구한다.

 

다른 예시: Telephone message encoding with decoding

- 하나의 codeword를 만들어내는 것보다, 2개의 codeword를 만들어낸 후, belief propagation 공식을 반복적으로 적용하면 100%에 가까운 정확도로 decoding이 된다.

 

From Bayesian Networks to Causal Diagrams

Bayesian Networks는 조건부확률을 그래프 형태로 표현한 것에 불과하지만, Causal Diagram은 생산해석에 있어서 다른 차원으로 나아간다.

생산 측면에서의 장점

각 node들을 선택함에 있어, "듣기" 관계를 결정해야 한다.

"듣기" 비유가 인과 그래프가 가진 지식을 요약해준다. ("This listening metaphor encapsulates the entire knowledge that a causal network conveys; the rest can be derived, sometimes by leveragin data.")

1. 인과 관계 가정은 생뚱맞게 튀어나오는게 아니다. 즉, 데이터 입각해서 나와야만 한다.

예를 들어, B를 conditioning 했을 때, A와 B가 독립이 아니라면, chain구조는 아니라는 것을 알 수 있다.

 

2. 데이터로 확인할 수 없는 관계도 있다.

예를 들어, 데이터만으로는 chain인지 fork인지 결론 내릴 수 없다. (둘 다 B를 conditioning했을 때, A와 C는 독립이다.) 

 

생산 측면에서 이런 "듣기" 관계가 고려된 채로 만들어진 그래프는 Interventional, Counterfactual 질문들에 답변할 수 있다. (반면 Bayesian Network는 하나를 관찰했을 때, 다른 하나가 발견될 확률(=조건부확률)만 답변할 수 있다.)

 

해석 측면에서의 장점

Causal Diagram을 활용하면 실제 실험을 하지 않고 emulation이 가능해진다.

 

다시 말해, 실험(=개입 (intervention))의 효과를 예측할 수 있다.

 

+ Recent posts