빅데이터를 주제로 강연한 내용

hyeongjoongyoon (68)in #dclick • 6 years ago

오늘 보도자료를 주제로 강의할 일이 있어서, 에버노트를 통해 이전에 강의를 했던 내용들을 한번 찾아봤습니다. 의외로 이전에 '빅데이터'를 주제로 강연을 준비하며 기록한 내용이 있더군요. 무려 6년도 더 전인 2012년 8월에 고벤처포럼에서 30분 정도 분량으로 했던 강연한 내용입니다. <이제는 빅 데이터 시대>라는 책 출간 기념으로.

요 책입니다. 피티 슬라이드는 찾을 수 없어 아쉬우나, 메모한 내용 만으로도 책 요약이 잘 되어있고, 좀 아웃데이티드되긴 했어도 지금도 의미있어 보이는 내용도 있어 공유합니다.

오늘에야 알았는데, 당시 제 강의가 기사화도 되었군요.
비석세스 - 스타트업을 위한 빅데이터 – 고벤처포럼 후기 Part 2

slide 1 오투리조트

제가 얼마전 태백에 출장을 다녀왔습니다.
사실 출장은 어떤 사람의 비리를 거기가면 확인할 수 있다고 해서 갔었는데요.
거기서 제 눈을 사로잡은 것은 바로 이 오투리조트입니다. 이 리조트 사진을 보면 어딘가 좀 이상하지 않나요? 아마 눈치 채신 분들도 있을텐데, 보통 리조트는 산을 바라보며 낮은 곳에 위치하죠. 그래야 건설하기도 쉽고, 또 산을 바라보는 풍경이 좋으니깐요. 그런데 이 리조트는 반대에요. 산 위에다 리조트를 지었어요. 내려다보는 풍경은 좋겠지만, 만드는데는 더 비용이 많이 들었을것 같네요. 실제로 얼마나 비용이 들었을까요. 참고로 리조트에 스키장과 골프장이 딸려 있습니다.
감이 잘 안 오죠? 총 사업비가 4403억원입니다.

왜 빅데이터 강연에 와서 이런 얘기를 하는지 잘 모르겠죠?
사실 빅데이터와 관련이 있는 사안입니다.
이 리조트의 당초 사업비는 1713억원입니다.
이 사업비가 2배 넘게 늘어난거죠.
늘어난 이유는 많습니다. 설계를 하다보니 돈이 더 들었고, 스키장과 골프장을 더 재미있게 구성하려고
코스를 여러차례 바꾸다보니 사업비가 눈덩이처럼 불었습니다.

이 사업에서 출자금은 태백시와 코오롱 등 불과 천억원입니다. 나머지 3천억원이 넘는 돈은 다 빌린 돈, 즉 남의 돈이에요.
그런데도 이렇게 사업비를 늘린 이유가 무엇일까요?
어디 믿는 구석이 있었을까요? 사실 이 리조트 때문에 지금 태백시는 국내에서 첫 파산 위기에 몰린 지방자치단체입니다. 지금은 비록 이렇게 됐지만, 당시엔 뭔가 생각한 게 있기 때문에 이렇게 하지 않았을까요?

믿는 구석은 수요 예측이었습니다.
회원권 전부를 다 팔면 2700억원 정도가 들어옵니다.
그 돈으로 충분히 공사비를 내고, 리조트를 운영할 수 있을거라 생각했죠.
아마 여기 모인 사업하는 분들은 우리 회사가 만든 이 물건이 과연 얼마나 팔릴까를 고민하며
골머리를 썩고 있겠죠. 그리고 상당히 보수적으로 예상하며 각종 전략을 짤 거에요.
그런데 당시 오투리조트는 그렇지 않았습니다.
3천억 넘게 빚을 졌어도 좀 있으면 회원권 다 팔릴 거니까 괜찮아 이렇게 생각을 하고 있었죠.

그렇다면 과연 회원권은 얼마나 팔렸을까요?
이 리조트는 2008년 말에 개장했는데요.
지난해 말 기준으로 판매된 회워권이 450억원에 불과합니다.
수요예측이 엄청나게 잘못된거죠.

그 결과는 정말 참혹한 수준입니다.
오투리조트는 현재 총 사업비가 4400억원인데 현재 부채가 3500억원입니다.
오투리조트를 만든 태백관광개발공사라는 공기업은 부채비율이 2000%가 넘어서 전국 모든 공기업 가운데 부채비율이 단연 1등입니다.
이 빚 가운데 1600억원은 태백시가 지급보증을 한 돈이에요.
오투리조트가 지금 빚을 갚을 가능성이 희박하기 때문에 이 빚도 태백시가 떠안을 가능성이 크고,
태백시 1년 예산이 2500억원인데요. 갑자기 예산의 60% 빚이 생기는 겁니다.
지금 전문가들은 국내 첫 지자체 파산사태가 태백시에서 발생할 가능성이 높다고 보고 있습니다.

자 그러면 어떻게 수요예측을 해야할까요?
여러가지 방법이 있을 겁니다. 강원도 주변 리조트의 회원권 판매 현황과
잠재수요자층을 조사하고, 그에 맞는 가격대에 얼마만큼의 지불용의가 있는지
비용과 시간을 들여 조사할 수도 있을거에요.
근데 데이터 경영의 관점으로 들어가면 한발짝 더 나아갈 수 있습니다.

저는 오늘 빅데이터를 얘기하러 나왔는데요.
빅데이터가 무엇인지, 개념이 무엇이고, 이 개념이 발전되어 온 과정이 어떻고, 어떤 기업에서 어떤 어떤 빅데이터 솔루션을 내놨다는 식의 얘기를 할 의사가 없습니다.

저는 빅데이터가 어떻게 사업의 혁신을 가져올 수 있는지, 새로운 서비스를 만들어낼 수 있는지,
내가 하는 사업에 어떻게 도움이 될지. 이런 것들에 영감을 줄 수 있는 사례들을 제시할 계획입니다.
앞으로 20분 동안도 이렇게 강연을 진행할 계획입니다. 괜찮겠죠?

Slide 2 오바마와 구글 독감예보

오투리조트 사건은 파면 팔수록 어이없는 사건입니다.
제대로 된 감사가 착공이 시작된 지 5~6년이 지난 지난해야 시작됐고,
감사 결과 부실, 도덕적 해이 사건이 100여건이나 발견됐습니다.
그리고 그제서야 검찰에서 수사가 들어갑니다.
다시 오투리조트의 사례로 돌아와서 얘네들이 한 실수가 수요예측이잖아요.
이런 실수는 많은 사람들이 저지릅니다.
심지어 오바마 미국 대통령도 저지른 적이 있죠.

무슨 말이냐면요. 오바마 집권 첫해 금융위기로 너무 어려웠던 때고, 미국의 자동차 회사 3사가 모두 어려워져서 자동차의 도시 디트로이트의 분위기는 역대 최악이었습니다.
그 때 오바마 정부가 내놓은 정책이 cash for clunkers, 즉 노후차량 보상프로그램입니다.
이 정책은 탄소배출이 많은 노후차량을 교체할 때 보조금을 준다는 내용인데요.
탄소가스 배출을 줄이는 동시에 자동차 소비를 증진시켜 경기를 부양하는 두 마리 토끼를 노린 정책이죠.
오바마 정부는 이 정책을 위해 2009년 7월부터 11월까지 4개월동안 10억달러의 예산을 편성합니다.

대부분의 정책전문가와 경제학자들이 이 정도 예산이면 충분하다고 봤죠.
미국 정부는 너무 소비가 침체되서 이 돈도 다 못 쓸 가능성인 높다고 봤습니다.
하지만 결과는 정반대였죠. 10억달러는 한달만에 소진됐습니다.

만일 미국 정부가 구글의 도움을 받았다면 어땠을까요?
팔리는 추세를 실시간으로 보면서 보조금의 정도를 조절했을 겁니다.
정해진 예산으로 최고의 결과를 이끌어내기 위해선 세부적인 결정을 지속적으로 조정해야 합니다.
한 대에 3천달러 주기 시작했는데 예상했던 수요보다 훨씬 많다면 그보다 인센티브를 줄여도 어느 정도 수요는 유지됩니다. 이 정책의 목적은 자동차 판매 증진과 환경 오염이 심한 차를 줄이는 거라면 주어진 예산을 더 잘 활용할 수 있었죠. 그건 철저히 데이터 기반으로 해야하죠.

바로 그런 예가 구글의 독감 예보입니다.

구글의 독감예보 시스템은 많은 분들이 아시겠지만, 간략히 설명하겠습니다.
구글의 플루트렌드라는 사이트에 들어가면 전세계 지도에 독감 현황이 나와있습니다.
구글은 이걸 어떻게 아는 걸까요?
열쇠는 바로 검색 키워드에 있습니다.
우리가 검색하는 키워드는 바로 우리의 사고를 반영합니다.
네이버나 다음 등은 실시간 검색어나 첫 페이지의 뉴스, 블로그 글 등에 의해 왜곡되기 때문에
검색 키워드가 우리의 사고를 그대로 반영하다고 보기는 좀 어렵습니다만,
첫 페이지에 아무것도 없는 구글의 검색창은 그런 왜곡의 여지가 적습니다.
사람들은 보통 자기가 필요로 하는 것, 궁금해하는 것을 검색하죠.
여러 분들도 지난 한주동안 검색창에 무엇을 입력했는지 되돌아보면 알 수 있을 겁니다.

구글은 사람들이 감기, 독감, 감기약, 독감예방주사, 기침 등 독감과 관련된 검색어를 어느 지역에서 많이 검색하는지를 실시간으로 수집해 지도에 표시했습니다.
이 정보는 현황 자료이긴 하지만, 사실상 예측자료나 다름없습니다.

만일 여기 왼쪽에 앉아있는 사람 절반 이상이 감기에 걸렸고, 우리가 이 건물에서 하루종일 같이 있는다면 감기가 전염될 가능성이 높겠죠?
구글은 검색빈도를 색깔로 표시해 지도에 표시했고, 이런 방식의 독감예보는 실제 미국 질병관리국보다 2달 빨리 독감을 예보하기도 했습니다.

Slide 3. 의사결정 구조

자 그러면 빅 데이터 시대에 의사결정 구조가 어떻게 바뀔까요?

예전에는 의사결정을 내리고 결과를 지켜보기까지의 시간이 꽤 길었습니다.
그래서 감이 좋은 경영자가 제대로 된 결정을 하는 게 중요했습니다.
정보를 모아서 의사결정을 하고 결과가 나올 때까지 기다려야 했으니까요.
하지만 빅데이터 시대에 경영과 의사결정은 이렇게 바뀔 가능성이 높습니다.
큰 방향의 결정이 이뤄진 이후에 결과가 지속적으로 수집되고, 그것을 바탕으로 세부적으로 의사결정을 조정해서 최선의 선택으로 이끌어갈 수 있습니다.

자 사례를 들어서 먼저 빅데이터에 대해 얘기를 했는데요.
오늘은 이렇게 빅데이터로 어떻게 의사결정을 바꿀 수 있는지, 경영에서 혁신을 할 수 있는지, 새로운 사업을 할 수 있는지를 중점적을 얘기해보려 합니다.
요즘 빅데이터라는 용어가 너무 인기죠.
실체없는 마케팅 용어로도 많이 사용됩니다.
그리고 어떤 사람은 그건 빅데이터가 아니라 예전에도 있던거야라고 말할지도 모릅니다.
그리고 오늘 제가 얘기하는 것도 상당 부분 그건 빅데이터가 아니라 예전에도 있던 데이터 경영이야라고 말할지도 몰라요.

slide 4. 빅데이터란?

말 그대로 엄청나게 많은 데이터.
사실 엄청나게 많다는 사전적인 의미보다는 왜 데이터가 많아졌나, 그리고 이 데이터들로 무엇을 할 수 있느냐를 보는 것이 중요합니다.

그러면 데이터가 왜 많아졌을까요?
크게 4가지 이유가 있습니다.

모바일, SNS의 대중화
모든 영역의 전산화
사물간통신(M2M) 센서의 증가
멀티미디어 콘텐츠의 증가

기본적인 설명은 여기까지.

slide 5. 빅데이터 활용사례 #1 예측

구글트렌드 사이트에 들어가면 전세계 구글 사용자들이 검색하는 키워드에 데이터들을 바로 조회할 수 있습니다.
키워드, 장소, 기간을 입력할 수 있는데요.

예를 들어 아이폰4S를 입력하면 많이 입력한 국가와 시기별 검색빈도수가 그래프로 나옵니다.
여기 그래프가 급격하게 올라가는 부분이 있죠.
그 때가 애플이 출시한다고 발표한 날입니다.

어느 지역에서 어떤 상품이 인기가 있는지, 유명한지 등을 이걸로 확인할 수가 있습니다.
만약에 어떤 사람이 자기가 만든 상품이 어느 나라에서 모르는 사람이 없다고 말한다면
이 사이트에서 그 국가와 상품명을 설정하고 결과값을 뽑아보면 알 수 있어요.
물론 구글을 전혀 사용하지 않는 국가에서는 소용이 없지만요.

사실 우리가 구글에 남기는 검색 키워드는 무서운 정보에요.
우리가 페이스북, 트위터에 남기는 일상의 단상, 사진, 좋아요 누른 게시물들도 무서운 정보고요.
바로 한 국가, 한 지역사회의 의식을 파악할 수 있기 때문이에요.

그런데 이 정보들로 미래를 예측할 수도 있습니다.

좀 다양한 사례들이 있는데요.
첫번째는 이 아저씨. 미시경제학 교과서 저자로 유명한 할 배리안이라고 UC 버클리 경제학과 교수인데요.
검색빈도수를 분석하면 경제지표를 예측할 수 있다는 내용의 논문을 쓴 적이 있어요.
그 논문에 제시된 사례 중에는 포드에서 출시한 경차가 있습니다.
포드 경차의 판매량과 구글에서 미국 현지에서 포드의 경차이름을 검색한 빈도수를 그래프로 그려보면 묘하게 비슷해요. 상당한 상관관계가 있다는 말이죠.
예를 들어 어떤 관광지가 어느 나라 사람에게 인기있는지를 살펴보려면 지역을 선택하고 그 관강지를 입력해보면 됩니다.

헤지펀드 매니저 다니엘 엠이라는 사람을 구글의 검색빈도수를 펀드 운용에 활용합니다.
이 사람이 발표한 자료에 따르면 구글에서 주식시장의 붕괴가 가장 많이 검색된 시기가 2009년 9월 8일인데 실제로 S&P 지수는 일주일 후인 15일부터 보름동안 20% 가까이 빠지죠.
주택 가격이 가장 높았던 시기도 '집값 버블 housing bubble'이 많이 검색된 시기와 겹친다고 합니다.

심지어는 검색빈도수로 선거결과도 예측할 수 있습니다.
구글트렌드에서 보면 문재인, 안철수의 검색빈도수는 2011년 하반기부터 치솟았습니다.
안철수 원장은 서울시장 보궐선거 무렵부터 검색빈도가 높아졌고,
문재인 의원은 지난해 자서전을 출간하면서부터 검색빈도수가 많아졌습니다.

사실 한국에서 좀 더 의미있는 자료를 뽑으려면 네이버나 다음의 자료를 뽑아보면 좋은데 이런 식으로 실시간으로 공유하지 않고 있고, 그리고 첫 화면에서 클릭을 유도하거나 검색을 유도하는 콘텐츠들이 많아 왜곡이 좀 있죠.

그래도 아마 앞으로 검색빈도수가 선거예측의 중요한 자료로 사용될겁니다.

slide 6. 빅데이터 활용사례 #2 숨은 수요

숨은 수요. 아마 이 분야에서 스타트업을 하거나 기존에 기업에 있던 분들이 관심이 많을 것 같아요.
마케팅과 사업의 관건 중에는 새로운 수요를 창출해내는 것도 중요하지만,
이미 한번 잡은 소비자들에게 어떻게 하면 재구매를 창출해낼 것인가가 중요하잖아요.

제가 방금 점심에 어떤 보험사에 계시는 분과 식사를 했는데
보험사에서는 2가지가 관건이라고 해요.
업셀링과 크로스셀링.
둘다 이미 한번 소비를 한 사람들에게 하는 건데요.
업셀링은 한번 구매한 사람이 같은 물건을 더 사게 하는거에요.
예를 들어 암보험을 10만원짜리 가입했으면 그 사람에게 5만원을 더 추가해 15만원짜리 암보험에 가입하게 하는거죠. 크로스셀링은 치과보험을 가입한 사람에게 고혈압 보험을 가입하게 하는 식으로 다른 상품을 파는 겁니다.

아마존은 소비자들이 어떤 물건을 사려고 들어가거나, 구입하면 추천엔진이 당신은 아마도 이것을 좋아할거야. you may also like 라고 해서 새로운 물건을 추천해줍니다. 이 추천엔진에서 발생하는 매출이 전체의 30% 가량 된다고 하죠. 아까 다룬 개념으로 보면 크로스 셀링인거죠.

숨은 수요를 추천엔진을 통해 찾아주는 좋은 사례는 넷플릭스라는 업체입니다.
미국의 온라인 동영상 업체인 넷플릭스는 시네매치라는 서비스를 하고 있습니다.
이전에 자기가 본 영화나 드라마를 분석해 당신이 좋아할 만한 영화를 소개해주는 거죠.
예를 들어 장진 감독의 코미디 영화를 여러편 봤다면 장진 감독의 신작을 소개해주기도 하고,
미셸 공드리의 이터널 선샤인을 본다면 같은 감독의 다른 작품들이나 비슷한 소재의 작품을 소개해주죠.
넷플릭스는 회원 대부분이 기간별 정액제이기 때문에 이런 서비스를 해주면 만족도가 높을 수 밖에 없습니다.

사실 넷플릭스라는 기업은 미국 최대의 DVD 업체인 블록버스터와 비교해서 봐야합니다.
블록버스터에게 데이터 경영이란 DVD를 제 시간에 배달하고 회수하는 정도에 그쳤지만,
넷플릭스에겐 고객의 취향들을 분석해 새로운 서비스로 만들었습니다.
어쩌면 두 기업이 희비를 교차한 것은 데이터를 바라보는 관점 때문일지도 모릅니다.

사실 중요한 숨은 수요가 바로 소개팅 시장입니다.
소개팅을 해주는 사람에게 내가 원하는 스타일에 대해 구구절절하게 얘기하기가 어렵습니다.
이런 서비스를 하는 기업이 이음이라는 곳이죠.
제가 고벤처를 알게 된 것도 이음을 취재하면서 였는데요.
이음에 가입하려면 자신의 개인정보를 비롯해 취향 등을 빼곡하게 적어야 합니다.
데이터 분석기술이 좋아질수록 더 취향에 맞는 이성을 찾아줄 가능성도 높아지는 거죠.

slide 7. 빅데이터 활용사례 #3 소셜 애널리틱스

사실 빅데이터가 이렇게 유명한 개념이 된 중요한 이유 중의 하나가 SNS와 소셜애널리틱스 때문입니다.
데이터 마이닝은 과거부터 있던 개념이었는데 소셜애널리틱스는 새로운 시도였기 때문이었죠.
소셜애널리틱스는 SNS 상의 정보를 분석해 소비자들의 수요와 성향을 파악하는 겁니다.

사실 소셜 애널리틱스의 다양한 사례들이 있는데요.
아마 가장 많이 사용하는 사람들 중의 하나가 기자가 아닐까 생각합니다.
자기가 쓴 기사에 대해 직접 전화를 하거나 이메일을 보내주는 사람은 아주 민감한 기사를 쓰지 않는 이상 그리 많지 않거든요. 하지만 트위터에 들어가면 기사에 대한 반응을 바로 확인할 수 있습니다.
어떻게 보면 SNS는 일반 사람들의 일상적 표현을 온라인으로 이끌어왔다고 볼 수 있죠.

이런 일반 사람들의 일상적 표현은 중요한 마케팅 자료이기도 합니다.
하얀국물 라면 시장을 열었던 꼬꼬면 등은 처음부터 소셜애널리틱스에 심혈을 기울였고, 또 소셜마케팅을 활발히 했죠. 헹켈이라는 나이프 브랜드. 쌍둥이 칼이라는 주부라면 모두 아는 식칼이 있는데요.
이 칼의 제조사 헨켈은 어느 순간부터 매출이 꾸준히 줄기 시작했습니다.
이유를 분석하려 했는데 쉽지 않았죠. 그래서 소셜애널리틱스를 시도하고, 주부들이 칼에서 나는 향을 싫어한다는 것을 알게되요. 결국 향을 바꿨고, 다시 기존 매출을 회복했죠.

slide 8. 빅데이터 활용사례 #4 인공지능

구글의 실시간 번역서비스. 핵심은 데이터의 량.
같은 시도를 1990년대 IBM이 이미 했음.
번역의 방법은 패턴매칭.

비슷한 것은 오타체크프로그램입니다.
지금 구글, 네이버, 다음 등 모두 오타를 바로잡아 '이것을 찾으셨나요?'라는 서비스를 하고 있습니다.
제가 유튜브가 아니라 유큐브라고 치면 이것을 찾으셨나요가 나옵니다.
이것 역시 예전 MS가 상당한 투자를 진행하며 만들었던 프로그램입니다.
하지만 구글이 가장 정확하죠. 이미 사람들이 입력하고 수정한 데이터들 때문입니다.

구글의 음성인식 서비스도 데이터가 쌓이면서 더 정확해지고 있습니다.
만일 실시간 번역과 음성인식 서비스가 합쳐지면 실시간 통역서비스가 나오게 됩니다.
이 역시도 패턴매칭이기 때문에 데이터가 많아질수록 더 정확해지죠.

애플의 시리처럼 인공지능 서비스도 데이터가 쌓일수록 질문의 진의를 정확하게 파악하고 그에 맞는 대답을 내놓는다고 합니다.
사실 인공지능으로 가장 유명한 애는 IBM이 만든 왓슨입니다.
왓슨이 퀴즈대회에서 우승하면서 유명해졌고, 월가에 취직했다는 말도 들었죠.
왓슨은 대규모 데이터를 빠르게 처리해 적절한 답변을 찾아내는 컴퓨터인데요.
이런 인공지능 컴퓨터는 이제 사람취급.

slide 9. 빅데이터 활용사례 #5 센서

볼보. 부품들의 상태, 안정도 등의 데이터를 실시간으로 수집.
50만대 팔린 뒤 발견할 수 있던 결함을 1000대 팔렸을 때 알 수 있음.

아비바 보험사는 차에 센서를 달아 운전자의 운행기록을 분석해 보험료를 매기고 있음.
사고다발지역과 혼잡시간대 운해빈도가 낮은 사람에게 할인.

네덜란드의 스파크드. 소에다가 센서 부착해 움직임과 건강상태 수시로 확인.
영국의 파큐브. 공공기관 민간기업, 개인이 보유한 센서를 등록하면 센서가 수집한 정보들을 분석.
센서가 수집한 정보를 공유하는 플랫포을 만든 셈.

slide 10. 서울버스 사건이 준 교훈

빅데이터 시대의 행정.

아이폰 출시 11월 28일
유주완 군 서울버스 앱 개발 1주일.
서울버스앱 출시 12월 3일

앱 이코노미의 서막을 알리는 역사적 사건.

그런데 갑자기 제동. 12월 14일 경기도청이 '공공정보 무단이용이라는 이유'로 서울버스앱에서 경기도 버스정보 차단. "법률적 문제와 형평성의 문제"
시민들이 엄청 분개. "공무원이 해야할 일을 못하게 막냐"
분위기를 감지한 김문수 지사 "정보차단을 풀어라"고 지시해 사건이 일단락.
아이폰 출시 한달도 되지 않아서 정말 다양한 사회현상이 발생하죠.

이 사건은 공공정보의 활용이라는 의제를 우리 사회에 던져줬음. 각 버스가 실시간으로 어느 정류장에 있단 정보는 분명 어딘가에 있었음. 이 정보가 수집과 동시에 활용될 수 있는 형태냐. 그 정보가 어디에 올라오느냐 등 여러 이슈가 생김.

sldie 11. 오픈 플랫폼 - 구글트렌드

일단 오픈플랫폼을 먼저 설명하면 대표적인 것이 구글트렌드.
IT 산업에서는 항상 플랫폼 헤게모니를 둘러싼 경쟁이 펼쳐짐.
이 중에서 플랫폼 개방성 정도를 경쟁력으로 삼는 경우가 많았고, 결국엔 승리. 아닌 경우도 있지만.
PC 운영체제 : MS윈도 vs 리눅스
네이버 지식인도 오픈 플랫폼. 정보를 네이버 직원들이 만든 것이 아니라 플랫폼만 제공하고 사람들이 스스로 만들게끔 했음.
페이스북, 트위터도 마찬가지. 로그인을 통합해버리고 수많은 써드파티 툴들이 만들어졌음. 스스로.

데이터 플랫폼 중에서는 구글트렌드가 대표적.
네이버는 검색정보 알 수 없다.
구글트렌드는 수집한 정보들 바로 공유.
오픈의 정도는 사업적인 판단.
하지만 플랫폼과 공유의 개념은 반드시 가져가야 함.

slide 12. 소셜리서치
예전에 우주의 비밀을 풀기 위해 어느 사이트에 가면 내 컴퓨터의 연산능력을 빌려줬듯이 소셜리서치는 어느 사회적 과제를 두고, 자발적 참여자들의 시간과 노력을 빌려서 연구하는 것.
첫번째 프로젝트가 민자사업이고, 참여자들이 하는 일들은 정보공개청구. 저도 함께 참여.
문제는 전국에 얼마나 많은 민자사업이 있고, 어떤 업체들이 참여하고, 수요예측은 얼마였고, 최소수익보장액은 얼마고, 실제 수요는 얼마고, 자금은 이자 몇 퍼센트로 어디에 빌렸는지 알 수가 없음.
이 프로젝트 하는 이유가 민자사업 제대로 감시하고 관리하면 수십조 세금 아낄 수 있을 거란 판단.
물론 우리 노력이 값지지만 전 IT에 관심이 많으니까 이런 생각을 했음.
이거 API로 만들어서 앱으로 만들면 안되나.
민자사업 앱을 만들어서 사업 현황 모두를 실시간으로 공개하면 부정이 끼어들 여지가 줄어들텐데.
왜 이 수십명이 공무원들과 싸워가며 이런 공익적인 일을 해야할까.
전 여기 있는 사람들 열명 정도 정부에 들어가서 3개월 정도 작업하면 충분히 이런 앱을 만들 수 있다고 봐요.
그렇게해서 정부 예산을 10조원 정도 아낀다면 그 돈의 절반 정도는 벤처를 위해 쓸 수 있는 것 아닌가요?
아니면 우리가 예산 짜는 것만 관심있지, 예산이 어떻게 사용되는지는 관심도 없고 언론의 감시도 거의 안 받습니다.
이런 부분을 아예 API로 만들어 앱으로 만들면 엄청난 행정의 혁신이 이뤄지죠.

slide 13. 행정 혁신

공공데이터의 실시간 수집과 활용으로 진정한 맞춤형 복지가 가능.
하지만 공공데이터의 실제 활용은 미미한 수준. 등기부등본 뽑으려면 다운 받아야 할 프로그램들. 비용.

sllide 14. 빅데이터 플랫폼 경쟁

구글의 맵리듀스
하둡
아마존

slide 15. 빅데이터에 대해 주의할 점

마케팅 용어인가.

sldie 16. 정리

내가 혹은 우리 회사가 가진 데이터는 무엇인가.
우리 회사가 하고 싶은 서비스나 만들려는 물건에 필요한 데이터는 무엇인가.
우리 회사에 쌓이는 데이터들은 어떻게 관리되고 있는가. 바로 공유나 활용이 가능한가.