[The Book of Why] 10. Big Data, Artificial Intelligence, and the Big Questions

횹횹 2024. 5. 15. 18:00

2024. 5. 15. 18:00

AI (Artificial Intelligence)가 Why라는 질문에 답변할 수 있을지에 대한 작가의 의견

Causal Models and "Big Data"

최근 들어 데이터의 양이 어마어마하게 늘어났다.

2014년 Facebook은 300 PB 용량의 데이터를 저장하고 있다고 보고했다.

과학 분야에서도 데이터가 많이 늘어났다. - 모든 현상들을 일일히 조사해야했던 과거와 달리 오늘날에는 online을 통해 모든 데이터에 접근할 수 있다.

데이터가 매우 많아도, 우리의 질문은 단순하다.

- 폐암을 일으키는 유전자가 있는가?

- 어떤 종류의 태양계에 지구 같은 행성이 있을 수 있는가?

- 어떤 요인이 특정 어류의 개체수를 감소시키는가?

이 모든 인과관계에 관한 질문들은 data 자체만으로는 절대 답변할 수 없다.

인과관계 질문들은 다음을 요구한다.

- data를 생성한 model

- 혹은 적어도 그 생성에 작용하는 주요 요인들

결국 data를 해석하는 것은 실제 세계가 어떻게 동작하는지에 관한 가설을 세우는 것을 의미한다.

- 여기서 data mining을 통해 결과와 상관관계가 높은 항목들을 찾을 수 있고, 이 항목들이 원인을 규명하는 출발점이 될 수 있다.

Big Data의 다른 기능은, Inference Engine 역할을 한다는 것이다.

- 예를 들어, Machine Learning은 차원의 저주 문제도 해결할 수 있다.

마찬가지로, 개인화 영역에서도 Big Data와 Causal Inference가 함께 쓰일 수 있다.

- Big Data로 데이터를 모으고 Causal Inference를 통해 필요 없는 항목들을 제거할 수 있다.

Big Data와 Causal Inference의 조합이 가장 크게 기여할 수 있는 분야가 바로 운반성(Tranportability)이다.

운반성(Transportability)이란, 한 대상에 대한 연구를 다른 대상에게 적용할 수 있는지이다.

컴퓨터를 통해 연산량이 크고 복잡한 "data fusion" 문제를 다룰 수 있다. (이때 do-calculus 개념을 알고리즘화할 수 있다.)

Elias Bareinboim이라는 작가의 이전 제자가 다음 알고리즘을 개발했다.

- graphical criteria만을 가지고, 당신이 찾고자 하는 효과가 transportable한지 파악하는 알고리즘

이는 나아가, 오랫동안 통계학자들을 괴롭혀왔던 선택 편향(Selection Bias) 문제도 해결할 수 있게 한다.

선택 편향이 결과에 주는 영향(Causal Diagram에서는 화살표로 표현)을 도식화함으로써, 이 선택 편향의 효과를 발라낼 수 있고, 결과적으로 우리가 궁금한 원인 X의 영향도를 더 잘 측정할 수 있게 된다.

Strong AI and Free Will

AI에 대한 연구: neats(AI의 행동이 설명가능해야 한다)파와 scruffies(설명할 수 없더라도 동작하면 된다)파로 학계가 나뉘었었다. (작가는 언제나 neats파였다)

그러던 중 새로운 접근법이 대두되었다: Bayesian networks - 확률 기반의 접근으로 불확실하고 모순적인 데이터들도 다룰 수 있게되었다.

여러 장점이 있지만 Bayesian networks도 인과관계를 이해할 수는 없다.

최근 AI 분야에 괄목할 만한 발전을 가져온 것은 "deep learning"이다. CNN 같은 기술은 설명력을 더 떨어뜨렸으며, 이로인해 시스템이 실패하더라도 개발자들은 어떻게 고칠지 전혀 파악할 수 없게 되었다. 알파고를 비롯한 눈부신 기술력은 분명, 이전에 불가능 했던 일들(사람을 이기는 바둑 프로그램 만들기)을 가능하게했지만 여전히 (사람의 언어로) 설명 가능한 AI를 만드는 것과는 별개의 일이다.

혹자는 사람의 언어로 설명하는게 왜 필요하냐고 반문한다. 우리의 뇌 또한, 구동 방식을 완전히 설명할 수 없는 건 마찬가지 아닌가? 그 말도 분명 맞고 scruffies들이 학계를 선두하는 것도 사실이지만, 작가는 개인적으로 이해할 수 없는 시스템을 만드는 것을 선호하지 않기 때문에 이 분야로 연구를 이어가고싶지 않아한다.

우리가 뇌 작동방식을 모른다 하더라도, 우리는 사람과 어떻게 의사소통하고 어떻게 교육해야 하는지 알고 있다. - 인과관계의 언어로 이게 가능하다. 반면 AI에게는 아직 인과관계에 기반한 지도가 불가능하다.

예를 들어, 집 청소 로봇이 아침마다 청소를 하는 바람에 내 아침 잠을 깨운다면, 당신은 로봇에게 아침 잠을 깨우지 말라고 부탁할 것이다. 이때 로봇에게 원하는 것은 다시는 아침 청소를 하지 말라고 이해하는 것이 아니다. "청소는 소음을 만들고 -> 이 소음은 자는 사람을 깨우고 -> 누군가는 아침에 소음 때문에 깨는 걸 싫어한다"라는 "원인 -> 결과" 관계를 이해하기를 원한다.

Convolutional Network 기반의 딥러닝 프로그램이 모든 맥락을 이해할 수 있을까? 필자는 아니라고 생각한다. 지금 알파고같은 AI는 인과관계 사다리 1단계 즉, 모방에 기반한 예측 단계에 도달했을 뿐이다. Strong AI가 되려면 이를 넘어서 세계의 다양한 인과관계에 대한 이해도를 갖추어야만 한다.

오늘날 Machine Learning 방법론은 유한한 샘플로 학습한 모델에 기반해 의사결정을 내릴 수만 있다. 다시말해, 처음 시도하는 영역에 대한 의사결정 시에는 인과관계에 기반한 분석이 필요하다.

작가는 Strong AI가 되려면, counterfactual에 기반한 사고가 가능해야 한다고 말한다. "나는 X=x를 했고, 그 결과 Y=y였다. 만약 내가 X=x'를 했다면, Y=y' 였을 것이다." 수학적으로는 P(Y_{X=x'} = y' | X=x)를 계산할 수 있으면 된다.

"의도"는 사람이 의사결 정하는데 중요한 부분을 차지한다. 어떤 사람이 담뱃불을 키고싶다는 느낌이 든다면, 반대 행동(키지 않는 행동)을 했을 때의 결과가 "더 좋을 것 같다"는 판단 아래에 키지 않을 수도 있다. 이런 "자각 행동"이 아직 AI에게는 불가능하다.

이 의도에 대한 토론은, Strong AI를 이야기할 때 주요하게 다뤄지는 "자유 의지"라는 영역으로 넘어간다. 만약 우리가 AI에게 "어떤 의도"로 X=x를 하라고 했을 때, AI가 의도를 파악하고 (의도에 더 부합하는 행동인) X=x'를 한다면, 이 AI는 자유 의지가 있다고 할 수 있다.

철학적으로 깊게 들어가면, 자유의지란 허상이라고 이야기할 수도 있다. 사실 한 개인이 내린 의사결정은 그의 유전자, 호르몬, 등 생리적인 요인들에 의해 이루어진 것이라고 주장할 수도 있다. 그리고 많은 의사결정은 논리적인 분석에 의해 내려지지 않고 본능적인 느낌에 의해 판단되는 경우가 많다. (축구 경기에서 선수들의 패스와 슛은 순간순간의 본능에 의해 이뤄진다고 보는 것에 가깝다.) 의사결정의 "이유"를 말하는 것은 이때 사후 설명 즉 복기에 가깝다. "인간에게 자유의지에 기반한 의사결정이 무엇인가"라는 철학적인 논의와 별개로 이 현상 자체를 AI에게 적용시킨다면, 의사결정을 일으키는 function과 그 이유를 복기하는 simulation 두 가지만 가능하게 한다면 그 AI는 자유의지를 가진 것처럼 행동한다 할 수 있다. 이 function을 교정하는 행위 ("(축구 경기에서) 너는 A가 아니라 B에게 패스했어야 했다")는 해당 agent가 "비슷한 다른 상황"이 왔을 때 다른 의사결정을 할 수 있게끔 하는 것을 말한다. 이 "비슷한 다른 상황"을 판단할 수 있는지가 counterfactual적 사고가 가능한지이고 이것만 풀 수 있다면, 복잡한 인과관계에 기반한 지도 문제를, 더 간단하게 바꿀 수 있다.

결국 작가는 counterfactual을 알고리즘화 (프로그램이 알아들을 수 있는 언어로)하는 것이 AI를 다음 단계로 도약하는 데의 핵심이라고 믿는다.

작가는 자유 의지로 생각하는 기계에 내재된 software는 3가지 구성으로 이루어진다고 주장한다.

1. 세계가 돌아가는 방식에 대한 인과 모델

2. 자기 자신이 어떻게 돌아가는지에 대한 인과 모델

3. 바깥 세상에 본인이 어떻게 대응했는지에 대학 기억 저장소

AI 기술이 발달함에 따라 이에 대한 우려도 높아졌다. 대표적인 우려들을 5개 질문으로 추리고 이에 대한 작가의 답변을 보자.

1. 우리는 이미 생각하는 기계를 만들었는가?

-> 아니다. 지금의 AI는 특정 도메인에서 사람을 흉내낼 뿐 아직 스스로 생각하는 단계로 진입하지는 못했다.

2. 우리는 생각하는 기계를 만들 수 있을까?

-> 그렇다. 만약 생각을 튜링 테스트를 통과하는 것으로 정의한다면 분명 그렇다. 위에 언급했듯 이게 가능하려면 counterfactual을 알고리즘화해야 하는데, 이에 대한 많은 연구가 이미 존재하고 인공지능 분야에 적용되기만 하면 된다.

3. 우리는 생각하는 기계를 만들까?

-> 그렇다. 인류 역사상 기술적으로 가능한데 구현 안된 것은 없었다.

4. 우리는 생각하는 기계를 만들어야 할까?

5. 생각하는 기계는 선과 악을 구분할 수 있을까?

-> 5번에 대한 대답이 그렇다이기 때문에, 4번에 대한 답변도 그렇다이다. AI 기술에 대한 우려로 여러 가지 제안과 규제들이 만들어지고 있는데, 이 중 하나는 위에서 언급한 "설명력"이다. 우리가 생각하는 기계를 만든다면, 이는 분명 우리의 인지 능력이 탑재되어 공감, 장기적인 예측, 자기 통제, 실수 교정 등이 가능할 것이다. 다시 말해 인과 관계 기반한 사고가 가능할 것이고, 이를 통해 인류를 해하는 결정을 했다면 스스로 복기하고 교정해나갈 수 있을 것이다.

'Statistics > Causal Inference' 카테고리의 다른 글

[The Book of Why] 9. Mediation: The Search for a Mechanism (1)	2024.04.13
[The Book of Why] 8. Counterfactuals: Mining Worlds That Could Have Been (1)	2023.12.31
[The Book of Why] 7. Beyond Adjustment: The Conquest of Mount Intervention (1)	2023.12.27
[The Book of Why] 6. Paradoxes Galore! (0)	2023.10.28
[The Book of Why] 5. The Smoke-Filled Debate: Clearing the Air (2)	2023.10.10

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

한 칸씩 쌓기