ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 서평 [똑똑하게 생존하기], 점점 통계는 필수다
    1F 책책책 2021. 4. 26. 07:45
    반응형



    '이 정도 범위를 수술했을 때 5년 이내에 재발율을 90프로 이상 낮춰준다. '

    그게 무슨 말씀이시오, 준의사양반?! 

    기억이 흐려져서 90 혹은 95 프로였을 수도 있다. 침침한 형광등 아래 아마 논문이었을 것 같은 종이 한 장을 사이에 놓고 대화를 했었다. 수술이 끝나고 담당 레지던트와의 짧은 대화 중 머릿 속에 훅 파고든 말은 꽤나 아리송했다.


    말을 그럴싸해보이는데 그래서 재발확률이 줄어든다는 거지, 절대 재발하지 않는다라는 건 아니였다. 

    5년 이후는 어떻게 된다는 건지, 수술이 잘 되었다는 것 외에는 여전히 수술대 위에 올려진 느낌이 드는 말 뿐이었다. 


    오늘 읽은 책은 헛소리가 난무하는 시대를 살아가는 우리를 도와줄 [똑똑하게 생존하기]다. 




    헛소리가 뭐죠? Bullshit이 무언가요. 

    이 책의 원제는 'Calling Bullshit' 이다. 

    10년도 더 전에 본 영화에서 'bullshit'으로 대화가 도배가 되는 장면이 있었다. 누군가 상대방에게 '너 이렇더라?' 하고 말하면 "Bullshit!" 하며 받아쳐나가는 게임이었는데, 우리나라로 말하면 예능에서 인기 있었던 '당연하지' 같은 거였다. 두 주인공이 서로의 마음을 확인하는 나름 중요한 장면이었는데, 그 때는 무슨 뉘앙스인지 와닿지 않았었다. 이제는 포장만 그럴싸한 헛소리를 발견했면 외치면 된다~ "Bullshit!!"


    찾아보니, 무려 2003년 영화 <10일 안에 남자친구에게 차이는 방법>


    데이터와 기계는 거짓말을 하지 않는다. 



    이 책에서 수많은 왜곡되고 부풀려진 데이터를 보면 의심스러움을 지울 수 없겠지만, 그럼에도 데이터와 기계가 거짓말을 하는 것은 아니다. 그들이 이상하게 치우쳐 있다고 느껴진다면 그건 만든 사람 혹은 데이터를 입력한 사람의 편향일 것이다. 


    p86.

    대개의 경우 헛소리는 블랙박스에 입력된 데이터의 편향성 때문이거나 거기서 나온 결과에 분명한 문제가 있기 때문에 야기된다. 간혹 블랙박스의 기술적인 세부 사항이 문제가 되기도 하지만 경험상 그런 일은 흔치 않다. 이는 다행스러운 이이다.


    결국 '콩 심은데 콩나고, 팥 심은데 팥 난다.' 와 GIGO (쓰레기 입력, 쓰레기 출력/ 참고 p.292, 302)'과 같은 맥락이다. 실제로 일을 하면서도 결과가 예상치와 다르게 나오면 기계 탓을 한다던지, 사람 손을 의심한다던지 하는 일을 종종 생긴다. 통제변인이 잘 컨트롤 되었는지에 대한 합리적인 의심일 때도 있지만, 보통 기계보다는 설정해 놓은 가설에 맞춰서 보려는 잘못된 색안경이 오히려 문제일 때가 많다. 



    상관관계는 인과관계가 아니다


    p 133.

    조작 실험이 인과관계의 가장 강력한 증거를 제시하는 이유는 알려진 원인을 분리하고 다른 변수를 모두 일정하게 유지하는 능력 때문이다. 문제는 이런 실험이 항상 가능한 게 아니기 때문에 다른 형태의 증거에 의존해야 한다는 것이다. 다 좋은데, 그럴 때 상관관계에서 인과관계로 근거 없는 비약에 속아 넘어가서는 안 된다.


    둘은 매우 다르지만, 정확히 전달하지 않으면 큰 문제가 생기는 부분이다. 그리고 A니까 B라는 거 아니나고 확실한 대답을 듣고 싶어하는 성향의 사람들과의 대화에서는 '~와 연관성이 높아 보인다'나 '~와 관련이 있어보인다' 와 같이 상관관계를 정확히 표현하려고 하면, 마치 근거가 없는 것처럼 말의 힘이 없어진다. 바로 이 순간에도 '근거'라는 표현을 쓰면서, 인과관계와 상관관계를 칼같이 구분하기가 어려움을 체감한다. 



    잘 만든 거짓말도 쉽지는 않다. 


    데이터시각화 (7장)에서 많은 그래프에서 속아넘어간 뒤에 놀란 사람들이 많을 것이다. 하지만, 난 거꾸로 저런 그래프를 어떻게 만들었나 살펴보는 마음으로 읽었다. 이산화탄소 배출량 (p263-264)과 관련된 그래프를 제외하면, 어떻게 저런 아이디어를 냈지 하며 감탄하며 봤다.


    p값 해킹도 비슷하다. 아웃라이어라고 하면, 말콤 글래드웰을 떠올리는 분들이 더 많을 거다. 하지만, 데이터를 다루다보면 꼭 튀어서 제외시키게 되는 값도 아웃라이어라고 부른다. 가설에 따라 실험을 설계하지만 세포, 조직, 동물 개체로 갈 수록 당연히 통제되지 않는 요인들이 많아지고 설명이 다 안되는 이유들로 아웃라이어가 발생한다. 그래서 실험의 표본이 크면 그게 진짜 아웃라이어인지 판단기준을 명확히 할 수 있다. 이런 아웃라이어를 잘 제외시키는 것은 보정, 정규화, 아웃라이어 제거 등등과 연관되지만, 자칫 잘못하면 인위적인 오차 범위 수정으로 인한 p값 해커가 되기 쉽다.


    [블루드림스] 때도 절실히 느낀 거지만, 현대과학은 진리만을 탐구하는 상아탑이 아니다. 과학계에도 비지니스의 작동원리가 돌고 있다. 블루드림스에서 제약사들의 이익과 관련된 단면을 봤다면, 똑똑하게 생존하기에서는 학술지들을 출간하는 출판사들과 스스로의 명예에 높은 점수를 매기기 위해 인용점수를 쫓는 과학자들의 단면을 볼 수 있다.


    p. 162-163.

    어떤 편집자는 자기네 학술지에 게재된 논문을 인용하라고 저자들에게 압력을 가한다. 어떤 학술지는 1년 중 인용될 시간이 가장 많은 1월에 과도하게 많은 논문을 발표한다. 1년 사이 발표된 많은 논문을 인용하는 연간 요약 논문을 발표하는 데도 있고, 더 많은 인용을 유도하는 경향이 있는 학문분야나 논문 종류로 관심을 돌리기도 한다. 이런 비뚤어진 행동은 학술지 본연의 임무와 인용 평가가 품질 지표로서 발휘하는 효과를 훼손한다.


    허무맹랑한 헛소리로 사람들을 속이고 싶지는 않지만, 어떤 때는 조직 내 작고 큰 의사결정에 내 주장을 하고 싶을 때 많은 데이터를 잘 보여주고 그래프를 잘 그려내는 것도 중요하다. 데이터의 속성에 잘 맞는 그래프나 시각화 방법을 찾는 연습을 하면 헛소리를 잡아내는 것과 동시에 데이터를 잘 그려내는 것에도 도움이 될 것 같다.





    통계는 필요하다


    레지던트의 꼬질꼬질했던 흰색 가운 끝자락을 바라보며했던 그 대화 이후로 '통계' 라는 것에 흥미를 가지게 되었다. 내 나름 의학을 비롯한 현대 과학은 '확률'에 기반해있다는 걸 깨달은 계기였다. 우연하게 기초 수준의 데이터 과학을 찔끔 접할 수 있게 되었고, 통계를 독학으로 조금 하고 나서 전공이 아니지만 데이터를 다루는 분야에 관심을 가지게 되었다. 현실적으로 분야를 바꾸는 게 쉬운 일은 아니기도 하고 아는 바가 얕디 얕아서 관련 기초 지식부터 접해보자는 마음으로 자격증 수험서로 공부하고 있었다. 이 책을 읽으면서 통계 및 데이터 관련 지식이 생기기는 것이 눈에 보이는 가시적인 성과가 아니더라도 분명 삶에 도움이 될 거라는 확신을 가지게 되어 고맙다. 


    p.9) 신식 헛소리는 엄격하고 정확한 인상을 주려고 수학, 과학, 통계학의 언어를 사용한다. 


    다시 말하면, '수학, 과학, 통계학의 언어'를 누구나 알아야 하는 것 아닐까? 점차 이공계 전공을 가지는 것이 현실적으로 유리하다는 사람들의 인식이 올라가고 있기는 하지만, 디테일하게 봤을 때 '통계'를 배우라고 조언하는 사람은 적어도 대입수험생 적에는 못 만나봤다. 요즘 수험생들에게 인생 전체에 놓고 봤을 때 도움되는 개념이라는 걸 알려주고, 확률과 통계에 대해서는 꼭 기초라도 접하게 해주었으면 좋겠다. 





    부디 헛소리를 알아챌 수는 있게 해주세요


    무수한 헛소리 속에 빠져 허우적대다보니 책 말미에는 목적을 잊을 뻔 했다. 이 책의 저자들이 하고 싶은 이야기는 현재사회에서 생존하기 위해 '헛소리 까발리기'는 좋은 기술 같은 것이 아니라 도덕적 의무(p. 449)라고 말한다. 그만큼 중요한 부분에도 영향을 미치고 있음이다. 


    하지만 헛소리를 알아채기만 해도, 10장에서 저자들이 알려주는 6가지 방법을 적용해보며 비판적인 사고를 가지려고 시도만 해봐도 다행이라고 생각한다. 무수한 헛소리를 이 책 한번 읽어서는 '헛소리 까발리기'까지 닿기는 어렵다. 헛소리 까발리기는 멋있기 위한 것보다 훨씬 더 중요한 일이라는 인식만은 챙겼다. 이제 부디 헛소리를 눈치챌 수 있게 이 책 속의 예제를 실전에 적용해봐야 될 것 같다. 


    댓글

Designed by Tistory.