'사실이 빠진' 사실을 보는 우리가 알아야하는 것 '새빨간 거짓말, 통계' 를 읽고

in #kr6 years ago

거짓말에는 세 가지 종류가 있다.
그럴듯한 거짓말, 새빨간 거짓말,
그리고 통계.
-벤저민 디스레일<마크 트웨인 자서전 中>

회사를 이직하며 가장 많이 접하며, 가장 배우고 싶어진 것이 데이터 분석이다. 또한 흔히 데이터 분석을 잘 하기 위해서는 '통계'를 배워야 한다고들 말한다. 숫자를 잘 계산하기 위함과 동시에 그 숫자를 잘 이용할 수 있기 위해서는 '통계학'이 기본이기 때문이다. 이 책은 그런 통계가 현실에서 어떻게 악이용이 되고 있는지에 대해 자세히 쓴 책이다.

위에서 말한대로 통계란 때로는 자료를 정리/요약하여 간단하게 확인을 하는데 매우 유용한 학문이지만 반대로 자료를 만드는 사람의 목적에 따라서 크게 달라지기 때문에 자료를 보는 사람의 입장에서는 아예 다른 자료가 될 수도 있다.

책을 읽으면서 나 또한 통계를 이용한 사기(?)를 범한 경험이 생각났다. 실적과 관련하여 보고를 해야하는 상황에서 크게 증가하지 않은 물량을 어떻게 하면 더 부풀려 보여줄 수 있을까 고민하던 차에 표의 세로축 범위를 조정하여 시각적으로 표현을 달리 하였다(하기 예제1, 2 참조) 

예제1)

예제2

같은 기초 데이터를 사용하였음에도 훨씬 더 극적으로 표현이 가능했던 것이다. 반대로 내가 잘 관리를 못하여 수치가 낮아진 표는 아주 조금 낮아진 것 '처럼' 보이는 표를 작성하였다. 물론 당시의 팀장님은 나의 사기에 넘어가지 않으시고 더 자세한 자료를 요구하셔서 들통이 났지만, 팀장님처럼 의심이 있거나 기초 지식이 없는 일반인들은 이런 권모술수에 넘어갈 수 밖에 없을 것이다. 

이처럼 이 책은 위와 같이 눈 속임이 가능한 그래프, 표본 추출의 무지 혹은 의도적인 오류를 통해 자료가 어떻게 왜곡이 될 수 있는지를 쉬운 예시를 통해 알려준다. 

특히 말미에는 통계의 속임수를 피하는 다섯 가지 방법을 알려준다.

첫째, 누가 발표했는가? 출처를 캐봐야 한다.
쉽게 예를 들면 임금 문제로 협상을 진해하는 자리의 자료라 한다면 노조측인지, 경영자측인지에 따라 자료가 나타내고자 하는 의도는 분명히 다를 것이다. 이때 무지로 인한 것이든, 고의적이든 어떠한 왜곡이 발생할 수 있기 때문에 출처와 그 의도를 명확히 하는 것이 중요하다.

둘째, 어떤 방법으로 알게 되었는지 조사 방법에 주의해야 한다.
이것 또한 쉽게 예를 들자면 이런 식이다. '1,000개의 기업에게 설문 조사를 요청했고, 이 중 9% 는 A라는 답변을, 5%는 B라는 답변을 했다.' 그런데 여기서 발표 기관이 생략한 부분이 있다. 84% 기업은 응답을 하지 않았다. 조사 방법이 잘못되었다면 통계 자료의 정확도가 낮아질 수 밖에 없다. 즉 우리는 통계자료의 표본추출이 명확했는지, 그 표본이 충분히 유의미할 정도의 크기인지를 눈여겨 봐야한다.

셋째, 빠진 데이터는 없는지 숨겨진 자료를 찾아 보아야 한다.
'2,800명의 몽고병 환자 중 그 절반 이상이 어머니의 나이가 35세 이상이었다." 이 기사를 제대로 이해하기 위해서는 일반적으로 여자들이 몇살에 아이를 많이 낳는가에 관해 어느 정도 지식이 있어야만 한다. 또는 백분율만 발표하고 실제 숫자는 빼고 발표하는 경우도 있다. 즉 '전체의 66.6%의 사람들이 A를 했다.' 라고 했을 때 전체가 3명 뿐이며 66.6%는 그 중 2명이라고 하면 유의미하다고 생각할 수 없을 것이다. 이처럼 자료에서 배경지식 혹은 속임수를 위한 세부 내용이 제대로 나와 있지 않다면 의심할 필요가 있다.

넷째, 내용이 뒤바뀐 것은 아닐지 쟁점 바꿔치기에 주의해야 한다.
통계 자료를 인용하는 사람들은 그들의 주장을 확고히 하기 위해 기초가 된 데이터의 해석을 다르게 한다. 예를 들어 'A라는 병이 전년도에 비해 3배 증가했다.'고 했다고 해서 실제 그 병이 더 많이 발병했다고 말 할 수 없다는 것이다. 전년도에 비해 전체 인구가 3배 증가 하거나, 전년도에 비해 더 예민하게 움직인 정부에서 경미한 증상도 A 병이라고 기록 했을 수도 있는 것이다. 

다섯째, 상식적으로 말이 되는 이야기인가 살펴 봐야한다. 석연치 않은 부분은 조사해라.
예로 미국에는 800만 명의 전립선암 환자가 있다고 어느 유명한 비뇨기과 전문의가 계산하였는데, 이 숫자는 암연령에 도달한 성인 남자 한 사람당 1.1명의 환자가 있다는 이야기이다. 이처럼 터무니 없는 숫자를 제시했을 때는 의심을 하고 봐야한다는 얘기다.(물론 이를 위해서는 어느정도의 기초 지식이 필요할 것으로 생각된다.)


 다시 말하지만 통계는 우리가 쉽게 자료를 이해하는데 큰 도움이 되는 학문이다. 그러나 이는 충분히 작성자에 따라 왜곡/변형이 가능하기 때문에 '사실이 가려진' 사실을 보는 상황이 생길 수도 있다. 물론 이 책만으로 그런 상황을 피할 수 있는 혜안이 생길거라고는 생각하지 않지만, 내가 '모른다는걸' 모르고 있었구나를 쉽게 일깨워주는 좋은 책이었다.


Sort:  

오, 좋은 책이네요. 언제나 정확한 분별을 하려면 기본적인 지식을 가지고 있어야 한다는 점이...ㅎㅎ 함정이긴 하지만, 시사에 관심을 가지고 보니 경제신문에서도 각종 통계들을 가지고 장난을 많이 치더라구요...
본인이 관련분야에 지식이 부족하다면 제대로 해석해줄 수 있는 관련분야 전문가를 알아두는것도 좋을것 같아요.(요즘 인터넷에는 정보가 많으니 온라인에서라도 말이죠~)

핵심을 잘 요약해주셔서 감사합니다~!
예시도 잘 들어주셔서 더 이해가 쉬웠던것 같아요^^

글을보면서 종편언론들의 편향방송이 생각나네요. 뭐 그것 뿐이겠습니까? 인생이 원래 속고 속이고 꾸미는거지요. 나쁘게 말하면 본질왜곡, 좋게말하면 치장.

통계도 맹신하면 안될듯하네요^^

Congratulations @ymkim519! You received a personal award!

Happy Birthday! - You are on the Steem blockchain for 1 year!

Click here to view your Board

Support SteemitBoard's project! Vote for its witness and get one more award!

Congratulations @ymkim519! You received a personal award!

Happy Birthday! - You are on the Steem blockchain for 2 years!

You can view your badges on your Steem Board and compare to others on the Steem Ranking

Vote for @Steemitboard as a witness to get one more award and increased upvotes!

Coin Marketplace

STEEM 0.21
TRX 0.14
JST 0.030
BTC 69618.00
ETH 3376.33
USDT 1.00
SBD 2.76