一萬書庫

숫자와 통계가 진심일까? 본문

2022

숫자와 통계가 진심일까?

Power Reviewer 2022. 4. 25. 11:57

 

 

 

 

숫자에 속지 않고 숫자 읽는 법 - 뉴스의 오류를 간파하고 세상을 제대로 이해하기

위한 가이드 _톰 치버스, 데이비드 치버스 / 김영사

 

 

 

 

다소 시간이 흘렀지만, 2006년으로 돌아가 본다. 당시 호주의 지질학자 밥 카터는 데일리 텔레그래프에 이런 글을 올렸다. 헤드라인 뉴스로 뜨기도 했다. “지구가 온난화되고 있다는 주장에는 문제가 있다. 지구온난화는 1998년에 멈췄다.” 사실 이러한 주장이 실린 기사는 처음이 아니다. 지구온난화가 1998년에 멈췄다는 개념은 지구온난화 일시정지혹은 지구온난화 중단에 대한 오랜 토론으로 이어졌다. 기온의 변화 추세가 늦춰진 것으로(혹은 일부 관점에서는 역전된 것으로)보이는 이유를 무엇으로 설명할 수 있을까? 엉뚱하게도 답은 그것은 당신이 1998년을 시작 연도로 골랐기 때문이다.”이다. 시작점과 끝점을 자기에게 유리한 것으로만 고르는 체리피킹(어떤 대상에서 좋은 것만 고르는 행위를 통칭하는 용어. 확증편향과 관련이 있다)때문이라는 것이다. 이는 다른 말로 결과를 안 다음 가설 세우기로 이름 붙일 수 있다. , 이미 데이터를 얻은 후에 그것을 뒤져 흥미로운 결과를 찾아내는 것을 의미한다. 기후 변화나 자살률같이 잡음이 많이 끼는 데이터에선 자연적인 변동이 존재한다고 한다. 그래서 마음만 먹으면 특이하게 높은 점이나 낮은 점을 시작점이나 끝점으로 선택해서 마치 올라가는 추세나 내려가는 추세가 있는 것처럼 보이게 만들 수 있다. 다시 처음으로 돌아가 보면, 1998년 이후로는 온난화가 없어졌다고 주장하는 논문은 더 이상 나오지 않고 있다. 2014, 2015, 2016년 모두 1998년보다 더 더웠고, 3년 동안 연속으로 더워졌기 때문이다.

 

 

 

베스트셀러 책은 어떻게 쓸까? 작가의 역량 말고 무엇이 더 있을까 생각했는데, 그 비결이 어떤 공식 혹은 알고리즘 혹은 비밀코드에 있다고 믿는 사람들이 있다. J. K. 롤링, E. L. 제임스, 알렉스 마우드의 성공에 주목하며 저자가 중성적인 필명을 가진 여성인 것이 성공의 조건이라 주장한 사람도 있다. 알고리즘에 관한 기사를 보니, 텍스트 마이닝(text mining) 소프트웨어를 이용해서 베스트셀러의 2,800가지 공통 특성을 찾아냈다고 한다. 예를 들면 짧은 문장, 목소리가 주도하는 이야기, 박식한 어휘 덜 사용하기, 감정적 리듬, 감정이 고조되었다가 내려가고 또다시 고조되었다가 내려가기같은 것이었다. 이러한 자료들은 어떤 실질적인 내용에 바탕을 둔 것일까? 아니면 통계적 오류일까? 저자는 이런 경우는 분명한 오류라고 한다. 이를 설명하기 위해서 제2차 세계대전 중 폭격기 이야기를 들려준다. 1944년 미 해군은 일본의 활주로를 폭격하는 데 막대한 돈과 노력, 그리고 목숨을 소비하고 있었다. 미 해군은 임무를 마치고 돌아온 폭격기가 주로 어디에 손상을 입었는지 조사했다. 총탄과 대공 포화 흔적이 날개와 동체에 집중되어 있고 엔진에는 없는 것으로 나왔다. 그래서 날개와 동체에 추가로 철갑을 덧씌우기로 결정했다. 잘 했다고 박수를 쳐주어야 할까? 엔진에 손상을 입은 비행기는 대부분 바다에 추락했기 때문에 이 통계에서 빠진 것이 함정이다. 이런 종류의 표본 편행을 생존자 편향(survivorship bias)이라고 한다. 살아남아 소식을 전한 구성원만의 자료를 토대로 한 통계가 잡혔기 때문이다. “그럼 알고리즘을 이용해서 베스트셀러를 예측할 수 있을까? 중성적인 필명이 여성 작가의 글이 출판되는 데 도움을 줄까? 알 수 없는 노릇이다. 중성적인 필명을 가진 여성 작가 중 출판이 되지 않은 사람이 몇 명이나 있는지 모르기 때문이다. 그리고 알고리즘이 원고가 베스트셀러가 될지를 97퍼센트의 정확도로 예측할 수 있을까? 베스트셀러 목록에 오르지 못하거나 아예 출판조차 되지 않은 책들을 모두 살펴본 것이 아닌 한, 그런 예측은 하지 못할 것이 거의 확실하다.”

 

 

숫자가 진심인줄 알았다. 숫자와 통계가 모든 것을 선명하게 알려준다고 믿었다. 그러나 이 책을 읽고 나서 다시 생각해 본다. 현 사회는 숫자와 통계가 여론몰이를 하는 경우도 많다. 오해와 혼란이 벌어질 여지가 다분하다. 의도적이던 아니던 잘못 추려진 정보가 대중에게 전달될 때, 사회는 편향된 사고가 형성되거나, 옳지 못할 결정을 내릴 가능성이 많다. 통계를 올리는 사람, 통계를 읽는 사람 모두가 읽어볼 만한 책이다. 이 책의 공저자 2(부자지간?)은 각기 영국의 과학 저술가, 경제학과 교수로 소개된다. 숫자가 본질을 흐리는 다양한 사례를 통해 숫자와 통계 이면을 생각해보는 시간이 된다.

 

 

 

 

출판사에서 도서를 지원 받아 작성한 리뷰

 

 

 

 

'2022' 카테고리의 다른 글

내일은 내가 죽을 차례다  (0) 2022.04.30
살아남은 자들의 우상  (0) 2022.04.27
개나 소가 아니라, 개와 소 덕분에...  (0) 2022.04.22
말과 글 그리고 책의 힘  (0) 2022.04.21
대한민국은 민주국가인가?  (0) 2022.04.19