(전공 관련 교양시간에 읽었던 책에 대한 독후감 입니다)
해당 도서는 총 3부로 구성되어 있는데, 1부에서는 통계학에서 가장 중요한 이론들을 세상 이야기와 버무려 해당 통계 이론의 필요성에 대해 이야기한다. 2부에서는, 보다 데이터 라는 개념에 접근하여 어떤 도메인에서 해당 데이터를 문제해결에 활용하는지에 대한 이야기가 이루어지고 있으며, 3부에서는 데이터 과학의 새로운 도전 분야인 인공지능에 대한 이야기로 책의 내용을 마무리하고 있다. 이 책을 읽기 전 까지만 해도, 통계학을 전공하고 있으면서도 내가 배운 학문이 세상에서 어떤 역할을 하고 있는지 인식하지 못하고 있었다. 이론과 응용 사이의 갭이 존재할 때 학문에 대한 흥미도가 떨어진다는 느낌을 많이 받는데, 이 책을 통해 통계학에서 배우는 이론이 세상에 어떻게 응용되는지를 알게 되어 다시금 전공 분야 공부에 추진력을 얻을 수 있었다.
세상은 불확실하다. 당장의 시간의 흐름 속에서, 다양한 생물과 무생물이 끊임없이 활동하고, 서로에게 영향을 미치기 때문에 세상은 많은 경우의 수를 포함하고 있는 공간이라고 볼 수 있다. 이렇게 복잡다단하고 불확실한 세상을 이해할 수 있는 기저가 바로 데이터이다. 책에서 가장 많이 등장하는 문구는 ‘그 현상의 핵심에 데이터가 있고, 그 중심에 바로 데이터 과학이 자리하고 있다.’ 라는 문구이다. 이제는 전통적인 통계 활용 분야라는 말이 무색하게, 우리 생활 전반의 모든 곳에서 데이터를 기반으로 활용하고 있다. 인생의 모든 순간은 그 사람의 ‘결정’ 에 달려있다는 말이 있을 정도로, 생의 매 순간에 의사결정이 이루어지고 있기 때문에, 합리적인 의사결정을 해주도록 돕는 데이터 과학이 그리고 데이터가 각광받고 활용되고 있는 것은 어찌 보면 당연한 현상일 수도 있다. 데이터 과학은 이렇게 범용적으로 빈도 있게 활용되고, 현재와 같이 빠르게 변화하고 있는 시대에 필수불가결한 학문이기도 하지만, 앞서 언급했듯 그 학문이 다루는 세계는 불확실함의 연속이기 때문에, 학문이 내놓는 결론에 대해 끊임없이 의심하고, 다양한 시각으로 접근하며, 책에서도 언급했듯, 디테일에 대해 예민하게 다가가야 한다. ‘훌륭한 데이터 과학자는 거시적으로 세상을 보는 눈을 가져야한다’ 라는 책의 문구처럼, 데이터 과학자는 전체 숲을 따라가면서도, 숲의 정체성을 흐리지 않는 선에서 각 나무의 오류와 오차의 가능성, 경치의 다양성을 항상 생각하며 길을 해쳐 나아가는 사람이라는 생각이 들었다. 참으로 어느 하나 명확한 것이 없는 학문 같다는 생각이 들면서도, 책에 소개되는 데이터 활용 사례들을 하나씩 읽다 보면, 정말 ‘불확실한 세상을 위한 언어’ 라는 필자의 정의처럼, 불확실함에 당당히 도전해서 세상의 진짜 모습을 읽어 내려가는 학문이라는 생각이 든다. 인간의 직관에 감춰진 불완전함을, 데이터 분석을 통한 객관성으로 보완해 나아가는 것이 가장 이상적인 데이터 과학의 모습인 것 같다.
책을 읽으면서 어떤 부분에선 개인적인 위로가 된 부분이 있었는데, 1부의 ‘2년차 징크스는 왜 생길까’ 에 대한 내용이었다. ‘사람의 인생에는 희로애락이 존재한다’는 말이 회귀분석적으로는 이상할 것 없는 보통의 현상이라 볼 수 있구나 라는 생각이 들었던 부분이었다. 사실 이 책을 읽기 전만해도 회귀분석에서 ‘회귀’ 라는 단어를 사용한 이유에 대해 모르고 있었다. 단지 목표변수와 입력변수 사이의 관계를 도출해내기 위한 분석이라는 것만 알고 있었다. 골턴의 연구에서 아버지와 아들의 키에 대한 분포를 확인해봤을 때, 아버지의 키와 아들의 키가 항상 동일한 양상을 보이지 않는데, 이 때문에 어느 하나의 값으로 치우치는 극단 값이 나타나지 않고 안정적으로 키의 분포가 유지된다고 한다. 이를 평균으로의 회귀 현상이라고 골턴은 설명한다. 즉 대부분의 자연현상은 적정 균형을 유지하려는 경향이 있고, 때문에 일정 간격으로 찾아오는 징크스도 심리적인 문제가 아닌 자연스러운 현상이라는 것이다. 이 평균으로의 회귀 현상 때문에 특정 상황이나 경험에 대한 해석이 어려워 지기도 하지만, 사람의 직관이나 경험에 치우쳐서 그릇된 판단을 하는 것을 막아줄 수 있기도 하다. 회귀에 대한 내용을 통해, 항상 일이 잘못되거나 생각대로 문제가 해결되지 않을 때 자기 자신을 탓하는 경우가 많은데, 생각해보면 그렇다고 해서 매 순간이 절망적인 것도 아니기에, 포기하지 않고 다시 원래의 컨디션으로 회복될 수 있다고 생각하며, 평균적인 상황으로 자연스럽게 돌아갈 수 있다고 생각하며, 힘든 순간은 ‘그럴 수 있지’ 라고 무던하게 극복하자는 나름의 배움을 얻을 수 있었다. 비슷한 맥락으로 또 다른 깨달음을 얻은 장이 있는데, 1부의 ‘미래 예측하기’ 이다. 평소 계획되지 않은 상태는 피하는 편이라, 항상 오늘 할 일, 내일 할 일 등 앞으로의 가까운 미래에 대해 미리 계획해서 어느정도 예측 가능한 상황을 만들어가도록 하는 경향이 있다. 이러한 성향이 통계학에 미묘한 흥미를 가지는 이유일 것 같기도 한데, 필자는 데이터 과학이 다루는 중요한 분야가 바로 미래 예측이라고 말한다. 그런데 이 예측과정에서 중요한 점은 너무 많은 사항들을 고려하지 않는 것 (차원의 저주) 과 너무 과거를 일반화 하지 말라 (과적합 문제) 라는 것이다. 예측할 땐 가급적이면 간단한 논리를 사용하고, 그러면서도 과적합을 피하기 위해 예측의 기반이 되는 데이터와 데이터 분석 방법을 다양화 해야 한다는 것이다. ‘간단함’ 이라는 형용과 ‘다양함’ 이라는 형용이 잘 어우러지는 것 같진 않지만, 과거 데이터로부터 복잡한 현재를 간단화 하여 정확히 인지하고, 불완전한 미래를 다양한 경우의 수로 접근하면서 보다 더 나은 예측을 만들어 나가는 것이 데이터 과학이지 않을까 라는 생각이 들었다.
1부의 내용으로 불확실한 세상에 대한 해석을 관통하는 여러 통계 이론을 살펴보면서, 나름의 불완전한 나의 상태에 대한 위로와, 통계학을 공부하게 된 이유를 얻었다면, 2부에서는 ‘그렇다면 나는 어떤 도메인에서 활약하는 데이터 과학자가 될 것인가’ 에 대해 고민해보는 시간을 가졌다. 빅데이터가 활용되는 분야는 천문학, 의학, 역학, 선거, 금융 등등 정말 많다. 이게 통계학을 공부하는 학생들의 장점이자 단점일 수 있는데, 적용할 수 있는 도메인이 너무 많다 보니, 다양한 학문과 협업할 수 있지만, 넓고 얕은 지식이라는 말이 있듯, 내가 강점 있는 도메인을 찾는 것이 쉽지가 않다. 관심있는 분야가 확실히 정해지고 통계학을 동시에 배우면 시너지 효과가 커지지만, 넓은 들판에 여러가지 갈래로 뻗은 길을 걷는 것은 조금 막막하다. 아직 학부의 단계이다 보니 시야가 좁아서 그런 것일 수도 있지만, 데이터 분석 프로젝트를 하면서, 다루는 데이터 자체에 녹아 있는 배경지식을 알고 있는 것과 모르는 것의 차이는 크다는 것을 느꼈기에 그러한 고민들이 점차 늘어났다. 일단 이 책에서 소개된 여러 분야 중, 거시적인 맥락에서 관심이 갔던 것은, 사회의 소외계층 혹은 사각지대에 놓인 사람들을 위해 데이터를 활용하여 문제를 해결하는 포인트에 가장 관심이 갔다. 일종의 ‘복지’ 분야에서의 데이터 활용이라고 볼 수도 있는데, 등장한 사례 중에 국가 차원에서 관리하는 데이터를 분석하여 복지 사각지대에 놓인 사람들을 발굴하는 사례와 빅데이터 분석을 통해 사회 초년생에게 금융서비스를 제공하는 사례가 가장 인상깊었다. 데이터의 산재나 부재로 인해 데이터 분석 및 활용에서 배제되는 현상이 발생하지 않도록 정부와 기업에서 여러 사업을 통해 문제를 해결한 예시를 통해, 자본주의 사회에서 양극화 현상을 줄이고 특정 집단만이 혜택을 누리는 현상을 줄이는 것에, 데이터 분석 또한 문제해결의 방법이 될 수 있다는 것을 알게 되었으며, 필자가 이야기했던 것처럼 데이터 ‘기술’ 이 아니라 데이터 ‘과학’ 으로 명명된 이유를 조금이나마 짐작할 수 있었다. 활용하고자 시도하지 않으면 그냥 휴지조각이 되었을 데이터에서, 사회에 유의미한 선한 영향력을 줄 수 있는 인사이트를 발굴해 세상의 불완전성을 낮추도록 기여할 수 있다는 점이 매우 흥미로웠다. 시대에 따라 급격히 변하고, 언젠가는 다른 것으로 대체될 수 있는 ‘기술’이 아니라, 인간 세상에서 핵심적인 가치로 자리매김 할 수 있는 ‘과학’ 으로 데이터가 정의되기 위해선 이러한 사례와 같은 관심과 관점이 지속되어야 한다는 생각이 들었다. 미시적인 맥락에서 딱 관심이 갔던 분야는 ‘광고’ 였다. 현재 추천시스템으로 분석 프로젝트를 진행하고 있는데, 추천 시스템 하면 빼놓을 수 없는 광고와 마케팅에 대한 이야기가 나와 매우 흥미롭게 해당 챕터를 읽었다. 데이터를 다루면서, 궁극적으로 인간이 데이터로부터 원하는 목적은 무엇일까 생각해본 적이 있다. 데이터를 통해 얼추 짐작만 하는 현상의 추이나 상태 그리고 미래의 상황을 ‘가시화’ 시키고, 무형의 것들인 인간의 직관에 의한 결정을 어떠한 형태의 것으로 ‘유형화’ 시키기 위해 과거의 데이터에 접근하는 것이 아닐까 싶다. 즉, 모르는 혹은 복잡한 상태를 아는 상태 혹은 이해하기 쉬운 상태로 만들기 위한 욕구가 데이터 과학을 만든 것이 아닐까 라는 생각을 한다. 광고나 마케팅이라는 분야가 그러한 인간의 데이터 과학에 대한 근본적인 니즈와 적절하게 맞아 떨어지기 때문에 많은 활용이 발생하는 것 같다. 소비자가 필요한 것이 있기는 한데, 정확히 어떤 것을 구매 해야 할지 망설이는 상태에서 광고나 마케팅이 그 고민의 과정을 구체화 시켜주고 무엇을 원하는지 보여주며 구매를 설득하는 것이다. 즉, 구매라는 의사결정을 위해 데이터 과학이 광고 혹은 마케팅과 함께 협업하여 소비자를 돕는 것이다. 사람의 마음을 얻는 기저는 그 마음상태에 확신을 심어주는 데이터인 것이다.
3부에서는 인공지능에 대한 이야기가 주를 이루면서, 인공지능이란 기술에 데이터는 어떤 역할을 하는지를 역설하고 있다. 1부와 2부에서 그러했던 것처럼 역시 데이터는 인공지능에서도 절대 없으면 안 될 핵심 요소라고 말한다. 인간이 태어나서 주변 환경으로부터 여러 행동가지를 자연스레 학습하는 것처럼, 인공지능은 ‘데이터’를 학습하며 새로운 지식을 알아간다. 학습의 방법에 관한 연구 분야로 ‘딥러닝’ 이 있는데, 이 딥러닝 알고리즘을 이해하는 데에도 데이터 과학이 필수라고 말한다. 인간의 지능 요소들을 유사하게 구현하기위해, 인간에 대한 정보가 담긴 데이터를 학습에 대한 재료로 삼는 것은 어찌 보면 당연하다. 필자는 인간에 대한 데이터의 접근에 대해 ‘인간에 관한 새로운 통찰’을 알 수 있는 시대가 도래할 수 있다고 설명하면서도, 인간과 가장 가까운 기술이기 때문에 보다 윤리적이고 철학적으로 접근해야 한다고 말한다. 생각해보면 여타 다른 물질적인 기술과 달리 ‘인공지능’은 우리 일상과 항상 함께하고 있다. 당장의 유튜브 콘텐츠를 소비하면서도 알고리즘이 추천해주는 영상을 보고, SNS를 하면서 추천해준 광고의 링크로 들어가 물건을 구매하기도 한다. 그러나, 인간을 기반으로 한 데이터는 항상 도덕적으로 옳다고 할 수 없으며, 오히려 테이와 같은 사례처럼 인간의 어두운 면을 학습해 부메랑처럼 우리에게 돌아올 수도 있다. 인공지능의 건전한 발전을 위해선, 우리가 어떤 데이터를 생성할 것이며, 어떤 방향성으로 데이터를 분석하고 활용해야 하는지 곱씹어보는 계기가 되었다.
필자가 통계와 컴퓨터로 무장한 예술이라고 데이터 과학을 정의한 것처럼, 데이터 과학은 데이터라는 붓으로, 데이터 과학자의 창의성과 첨예한 시각을 통해, 세상의 단면을 다양하게 보여주는 학문이라는 생각이 들었다. 통계학을 배우면서 무심코 들었던 궁금증과 혼란스러움을 해결할 수 있는 책이어서 좋았고, 데이터 과학이라는 학문에 대해 보다 깊이 있게 생각해 볼 수 있어서 나름의 매우 가치 있는 독서의 시간이 되었다.
'독서' 카테고리의 다른 글
생각정리스킬(2021.01.31) (0) | 2021.02.01 |
---|---|
달러구트 꿈 백화점 독후감(08.23) (0) | 2020.08.23 |
1년안에 ai 빅데이터 전문가가 되는 법 독서 정리장 (08.17) (0) | 2020.08.23 |