[심리학이야기] 데이터가 쓰레기면 결과도 쓰레기다

in #kr7 years ago (edited)

요즘 초등학생 프로그램 효과를 검증하는 자료 분석을 의뢰받아 방금 전까지 '코딩'을 했습니다. 코딩이라고 하면 각자 생각나는 것이 있을텐데 심리학도들에게 코딩이란 설문지나 자료를 컴퓨터에 입력하는 작업을 말하죠. 엑셀 같은 프로그램에 입력하거나 텍스트 메모장에 숫자를 계속 때려 넣습니다. 정말 반복 노동입죠.
IMG_1395.JPG

당신이 만약 노트북을 사용하는데 숫자로 다량의 자료입력을 해야 한다면... 텐키 키보드 하나 정도는 사시는 게 정신건강에 좋습니다.

입력을 하다 보면 자료에 대해 여러 가지 생각을 하게 됩니다. 특히 지금처럼 타인이 수집한 자료를 분석하는 경우엔 더 그렇습니다. 자신이 연구 설계를 하고 자료를 모으는 과정을 컨트롤 할 때는 실수가 생겨도 자신을 탓하고 수습을 하면 됩니다. 하지만 남의 건 탓을 하고 화를 내 봐야 의뢰인은 연구나 자료 분석, 통계에 대해 잘 몰라서 이해를 못 하고 수습도 안 되지요. 매년 데이터가 쓰레기면 결과도 쓰레기가 나온다고 말은 하지만 잘 모르는 사람이 자료를 수집하면 받고 나서 확인하는 제 입장에센 참 힘들고 한숨이 나옵니다. 지금까지 어떤 일이 있었는지 생각해 보니 대략 이렇네요.


아마 몇년 전 가장 처음 분석을 의뢰받은 자료였을 겁니다. 프로그램의 효과를 검증하는 것이기 때문에 시작할 때 한 번 측정하고 마치면 한 번 측정합니다. 그러니까 한 사람의 사전과 사후 데이터가 모두 있어야 분석이 가능하죠. 그런데 심각한 문제가 발생했습니다. 예를 들면 10명이 참가자인데 1-3번 참가자는 사전 측정 자료만 있고 5-9번 참가자는 사후 측정 자료만 있는 식의 사태가 발생했습니다. 이러면 8명의 자료는 아예 못 쓰게 되고 분석에서 제외됩니다. 유효한 데이터가 줄어드는 건 연구자들이 가장 두려워 하는 사태 중 하나입니다. 자료 받아내고 찾아내라고 닥달했던 기억이 있습니다. 요즘엔 자료는 잘 모아줘서 좋습니다.


이건 처음부터 지금까지 계속 되는 문제입니다. 분석 이후 보고서까지 쓰는데 마감을 매우 빡빡하게 줍니다. 제가 자료를 받아오면 코딩부터 분석, 보고서까지 쓰게 됩니다. 그런데 1주일 만에 가능하냐고 합니다. 이럴 땐 정말 니가 좀 해보세요라고 말하고 싶습니다. 당연히 불가능하니까 기간을 더 요구하긴 하죠.
그래서 이번엔 넉넉하게 1달을 받았습니다만... 자료를 받으러 가니 절반을 주고 3주 있다가 나머지 절반을 보내줬습니다. 의뢰인도 자료 모으는게 쉽지는 않다지만 이렇게 하면 눈 가리고 아웅이라는 생각 밖에 안 드네요.


이래저래 현재는 자료는 잘 모아 준다지만 아주 조금씩 절 빠직하게 하는 것들이 있습니다. 바로 응답하지 않은 문항이나 중복응답, 응답 칸 사이에 체크한 경우입니다. 초등학생들이 응답한 설문이기 때문에 애매하다 싶으면 칸과 칸 사이 선에 체크하거나(자기 나름으로는 1과 2의 사이엔 1.5 느낌 같습니다) 해당 사항이 없으면 그런 일 없다고 쓰기도 합니다. ㅋㅋ 측정을 하는 사람들이 신경 쓰고 봐야겠지만 그들 또한 단순히 받아서 전달만 할 뿐이라 신경 안 씁니다. 이런 경우 통계 프로그램에서 missing 데이터로 처리할 수 있습니다만 그렇게 하면 응답 안 한 1문항 때문에 20문항을 버리게 되는 문제가 일어납니다. 사전과 사후로 같은 걸 두 번 측정하기 때문에 응답하지 않은 문항에 한 해 추정치를 넣을 수도 있고 missing 데이터가 있어도 처리하도록 할 수 있지만 어느 쪽이라 해도 정확도가 떨어지는 결과라 저는 찜찜할 수 밖에 없습니다.


'데이터가 쓰레기면 결과가 쓰레기다'

아무래도 이번에도 이 말을 의뢰인에게 한 번 더 해줘야 할 것 같습니다.

다음에는 왜 심리학 전공자가 통계나 데이터 분석에 골치 아파야 하는지 그 얘기를 좀 하겠습니다.

Sort:  

정말.. 통계는 애증의 관계죠
심리학 전공자들이 심리학을 포기하는 이유 중 하나... :(

데이터가 엉망이면 코딩할 때도 분노가....

수포자라 심리학과 갔다가 처음 만나는 고난이 통계 아닌가 싶습니다.

글은 재밌는데 작자의 고충이 느껴지는군요.
숫자 전용 자판이 있는것도 처음 알았습니다.
제게는 재밌는 내용이었습니다. 감사합니다.

고충을 느껴주셔서 감사합니다. 제겐 흔한 일상인데 재밌게 읽어주시다니 새로운 기분이네요.

흥미롭다!

흥미롭게 봐주셔서 감사합니다!

재미있는 내용이네요. 어쩌다보니 데이터를 수합해서 넘겨주는 일을 자주하는데 이 글을 읽고 깊이 반성하게 되네요.

일을 맡은 입장에선 결과가 잘 나길 바라는데 자료가 부실하면 아쉬운 마음이 듭니다. 잘 정리된 자료를 주신다면 모두에게 윈윈이 될 거에요.

심리학 전공자는 보통 상담을 많이 하는 줄 알았는데 통계와 데이터 분석 까지 한다니.. 가장 어려운데 통계라 들었기 때문에 너무 힘드실 것 같습니다.. 비전공자는 전공에 대해 아무것도모르니 대~충 해서 해달라는거.. 그 자체가 스트레스죠ㅠㅠ

심리학 내에는 다양한 전공이 있고 상담을 하는 심리학자들은 일부에요. 상담심리 전공자가 데이터 분석을 하는 경우는 많지 않은데 이게 치료 프로그램 효과를 보는 거라 제게 일이 오기도 하네요.

주변에 통계하는사람이 있는데 요즘.. 탈모가 많이 왔더라구요....

저주 아닌 저주 같네요. ㅎㅎ 전 이런 일 많이 안 해서 탈모는 아니 올 것입니다.

저희 신랑도 심리학 전공했는데 통계도 하고 그러더라구요. 머리 아파보여요..

탈모 관리에... 아닙니다. :) 괜찮겠죠.

ㅋㅎㅎㅎㅎ 탈모... 다행히 저희 신랑은 두피가 안보일정도로 머리숱이 빽빽하답니다.

그렇다면 탈모 걱정은 없겠군요! 다행입니다. ㅋㅋㅋ

정확한 데이터를 얻는 다는게 가능한 일인지... 항상 염려되는 부분이지요... 좋은 글 감사합니다-

정확한 데이터를 얻는 건 아무리 신경을 써도 늘 쉽지 않더라구요.

저도 심리학 전공이라 너무 공감가는 내용이에요ㅠㅠ 실험후에 수집된 데이터보면서 버려야하는 자료들을 버리고 끝내야하나, 실험을 추가진행 해야하나 시간은 모자라고... 그래서 얼렁뚱땅 진행한 연구에 교수님이 한마디 하셨어요 garbage in garbage out! 힘내시라고 작지만 보팅하고 갑니다ㅎㅎ화이팅!

시간 모자라서 정말 고민이 되었겠네요. 으흑. 제 일도 아닌데 눈물이 날 거 같습니당. 응원 감사합니다~

Coin Marketplace

STEEM 0.19
TRX 0.13
JST 0.029
BTC 58809.44
ETH 3151.28
USDT 1.00
SBD 2.43