[4차산업혁명] 우리에게 빅 데이터는 무엇인가?

in #kr6 years ago

빅데이터가 우리사회에 유행처럼 번져 나간 지 상당기간이 흐른 것 같다. 이 용어가 제시하는 의미들은 사실 쉽게 다룰 수 있는 주제가 아니지만 우리 사회는 이미 이를 언제부터인가 만병통치약 정도로 만들어 놓고 여기저기서 사용 중이다. 일단 빅데이터란 용어를 붙으면 뭔가 대단한 일 인 것 같고 보다 과학적인 분석으로 비치는 오류를 생성하고 있는 중이다.

그 예를 잠깐 살펴 보자

large-895567_1920.jpg

“빅데이터를 이용한 딸기재배”
“신용카드 브랜드 평판 6월 빅데이터”
“목요일 내일 빅데이터에 의하면 날씨 좋음”
“월드컵 최고 관심경기는 한국과 독일의 경기 – 빅데이터 분석 결과”
“빅데이터 기업 브랜드 평판지수”
“하수처리에 빅 데이터 기술 적용”
“빅 데이터로 본 재테크”

빅데이터 관련 뉴스.PNG

이 정도면 빅데이터의 가치가 정말 크게 훼손되고 있다는 것을 볼 수 있다. 그저 조금만 이전에 비해 많은 수의 데이터를 모아 놓고, 어떻게든 분석했다면, '빅데이터 분석'이라 말하는 것이다. 예를 들어, 빅데이터 기업 브랜드 평판지수는 6월 현재의 48억개의 데이터를 모아서 분석했다고 한다. 48억개면 어떻고, 4800개면 어떤 차이가 있을까? 이런 수준의 분석에 데이터 수가 그렇게 유의미한 차이를 주고 있을까? 즉, 이렇게 데이터 숫자가 많아야, 브랜드 평판지수가 더 정교할까?

빅데이터 지수.PNG

지난 6.13 선거에서도 빅데이터는 여지없이 등장했다.
바른 미래당의 안 철수 후보가 빅데이터 검색 순위 1순위 이렇게 보도가 되곤 했다. 이를 빌어 안 후보는 자신이 반드시 서울시장으로 선택될 것이라 열변으로 강조하였다. 트럼프 대통령의 당선 사례를 인용하기도 하였다. 그런데 결과는 어떠한가?

이런 식으로 '빅데이터분석'를 인용하고, 주장하면 결과적으로 빅데이터 기법 자체의 가치가 도매금으로 훼손 될수 밖에 없다. 굳이 빅데이터를 인용하지 않아도 검색 순위에 오르는 순위가 1위라 해도 되면 충분한 것을. 또 그래 보아야 검색 순위인 것을 꼭 ‘빅데이터 분석’이라고 주장하는 것은 빅데이터를 제대로 잘 사용하여야 할 주체에게는 반가운 소식은 아닌 것 같다.

해수욕장에서 사용하는 빅데이터 분석은 또 어떤 가치를 제공할 수 있을까?
이번 여름에 100만명의 피서객이 방문했다라고 주장하는 어떤 해수욕장의 발표를 어떻게 신뢰할 수 있을까?
이런 통계숫자의 신뢰를 위해 빅데이터 분석이 사용하는 것이 좋을 것이라 주장이 되고 있는데 그 사연은 이러하다. 부산의 어떤 해수욕장이 시도하는 방법이다. 즉, 통신사와 계약을 맺어 단위 면적에 30분간 머무는 휴대전화 수를 남, 녀, 연령, 국적, 시간대 등 다양한 데이터로 구분 및 분석을 한다는 이야기다. 거창한 이름으로 빅데이터라 부르긴 했지만 사실 앞서서 언급했던 빅데이터 사례보다는 그래도 논리적인 모습을 보인다. 그러나 실제 분석 기법은 수학의 통계기법을 이용하는 것과 크게 다르지 않다.
데이터를 어떻게 비용이 저렴하면서도 제대로 잘 수집하는가가 이전의 방법론과 다른 뿐이다. 사실 어떤 형태로든 데이터만 누군가 잘 모아만 준다면 분석은 이전의 통계 분석방법과 크게 다르지 않다. 이를 빅데이터라는 이름으로 멋지게 포장을 할 필요가 있을까?

결과적으로 빅데이터라는 것에도 거품이 상당히 끼어 가고 있다는 것을 이해할 수 있다. 여기에 인공지능을 의미하는 AI를 동원하면, 더욱 가관일 것이다. 그렇게 하면 뭔가 더 근사해 보이겠지만, 사실 앞에서 언급한 사례들에서 만일 인공지능이 동원된다면 정말 빅데이터라는 혁신은 더 큰 낭패를 보게 될 지도 모른다.

사실 우리가 인공지능을 동원하고, 또 최소한 빅데이터를 동원하는 것은 데이터에서 지금껏 보지 못한 요소들의 상관관계나 새로운 인사이트를 찾아내기 위함이다. 드넓은 해저 지형을 파악하면서 가장 최적의 유전이 나올 만한 곳이 어디인지를 많은 데이터 속에서 상관되는 요소들을 찾아내고 그 관계 속에서 유의미한 것들을 찾아내는 것이 실제 빅데이터가 제공할 가치의 한 가지 사례이다. 그저 이전의 데이터에서, 이전의 통계기법으로도 충분하게 찾아내고 설명할 수 있는 수준의 어떤 것을 찾았다고 말하기 위해 굳이 '빅데이터'를 운운하는 것은 득보다 실이 많다. 즉, 4차산업혁명을 이해하고 제대로 응용하려는 사람들에게 부담만 되고 오해와 좌절을 불러 일으킬 수 있는 일이다.

관계 포스트 https://steemit.com/i40/@seokheehan/5h9m6k-4

Sort:  

굉장히 흥미로운 글 잘 읽었습니다.

'빅데이터'라는 말을 보증수표처럼 여기저기 붙여

뭔가 그럴듯하게 보이게 하는 수법이 여기저기 판을 치긴하죠

Coin Marketplace

STEEM 0.25
TRX 0.11
JST 0.032
BTC 62432.37
ETH 3003.22
USDT 1.00
SBD 3.78