[뉴비존 x 프로미스팀] why BIG DATA. 1st

in #promisteem6 years ago

big-data-1084656_1920.jpg


안녕하세요, 스티미텔러

뉴비존(@newbijohn) 입니다.


왜 빅 데 이 터 인 가






시작하며

meeting-2284501_1920.jpg
요즘 다양한 기업들의 채용공고를 보면 <데이터 사이언스>의 구인이 활발해짐을 봅니다. 이미 실리콘밸리에서는 <데이터 사이언스>들이 다양한 활동을 하고 있으며, 기업들의 서비스를 더욱더 원활하게 제공될 수 있도록 만들어지고 있습니다.

당연히 우리나라에는 이러한 부분이 좀 늦게 도입이 되고 있지만, 긍정적인 부분은 data에 대한 중요성을 인지했다는 부분입니다.

예전에는 특정 서비스를 기획하는 이들의 '감'을 통해서 "이렇게 하면 잘될꺼야" 라는 insight를 통하여 서비스들이 빌드되고 출시되었지만 이제는 big data라는 놈으로 인해 더 깊은 부분과 다양성에 대한 insight가 가능해짐으로 인해 효율적인 접근이 가능하다는 부분입니다.

big data란?

the-text-of-the-830139_1920.jpg

빅데이터는 지금까지 사용하던 database 시스템으로 처리할 수 있는 용량을 넘어선 데이터를 칭한다고 보면 됩니다.
이 빅데이터는 꽤 크고, 꽤 빠르게 이동하며 기존의 데이터베이스 아키텍처의 제한사항에 들어맞지도 않는다고 봐야 합니다.
하지만 이런 빅데이터의 다양한 데이터에 가치를 끌어가려면 데이터를 원활하게 처리하기 위한 대안이 필요합니다.

빅데이터에는 3V가 있는데 volume(규모), velocity(속도), variability(다양성)이 있습니다.
이러한 요소들을 토대로 원활하게 다룰 수 있는 다양한 접근법들이 생겨나면서 광대한 빅데이터를 효율적으로 다룰 수 있게 된 것이 현재입니다.
하지만 3V는 데이터의 본질을 알기 위한 일종의 '렌즈' 일 뿐이지 명확한 정답을 지니고 있는 것은 아닙니다. 본질을 통해 데이터를 어떤식으로 활용할지 그걸 이끌어내는게 요즘의 '데이터 사이언스'들이 하는 일이라고 보면 됩니다.

  • volume - 규모
    기존의 적은 용량의 데이터들과 비교할 수 없을 정도로 큰 데이터를 지닌 빅데이터를 통해 기업들의 가치를 창출할 수 있는 범위가 기하급수적으로 넓어졌습니다. 현재 IT구조에서 부딪히는 가장 큰 난관이 바로 이 <규모> 부분입니다.
    현재의 구조로는 빅데이터를 담을 수 없을뿐더러 시도를 했다간 어떤일이 벌어질지도 모를 정도라고 봐야합니다. (예를 들어 200ml를 담을 수 있는 물컵에 500ml에 담았던 물을 부으면 어떻게 될까요?)
    하지만 바로 이 부분을 처리하기 위해 2가지 방법이 있습니다. 하나는 그린플럼 등의 데이터 웨어하우스/데이터베이스와 같은 대량 병렬 처리 아키텍처 입니다. 진화 속도가 더딘 정규 데이터 세트와 어울리는 부분입니다. 다른 하나는 아파치 하둡기반 솔루션입니다. 처리할 수 있는 데이터의 구조에 어떤 조건도 부여하지 않을 수 있습니다. 위 두가지는 바로 3v 요소 중 다양성이 어느 정도의 영향력을 발휘하냐에 따라 달라진다고 봐야합니다.
  • velocity - 속도
    속도는 일단 국내는 크게 할 말이 없을 정도로 오래전부터 빠르게 이동하는 데이터를 대처하는 시스템들이 많이 있습니다. 이걸 기업이, 사람이 어떻게 써야할지만 결정하면 되는 문제입니다.
  • variability - 다양성
    다양성은 <데이터 사이언스>의 센스가 가장 잘 발휘되는 영역입니다. 쌓여져가는 데이터에는 관계성이 없이 무작위로 쌓이게 됩니다. (바로 현재의 데이터들이 그렇죠)
    이런 데이터들에 어떤 관계성을 부여하고 그걸 통해 어떤 데이터를 결과물로 추출할지 결정을 해야 하기 때문입니다. 이러한 과정이 없이는 빅데이터가 완성될 수가 없습니다. 그리고 변동이 심한 시장에서 기업이 살아남을 수 있는 부분은 이 다양성을 어떠한 형태로 운영을 하느냐가 가장 큰 관건이라고 봐야 합니다.
    가공되지 않는 데이터를 얼마나 효율적으로 끌어갈 수 있는지 그걸 빠른 시장에 어떻게 대입을 해야할지? 그게 걱정이라면 바로 'agile ' 방법론으로 접근을 해야 합니다. (이 부분은 2부에서 다뤄보겠습니다.) 이 애자일을 통해 기업들은 바로바로 시장에 데이터를 활용할 수 있습니다.

다양성을 어떻게 이끌어야하나

man-3230661_1920.jpg

기업에서의 데이터사이언스들은 다양성을 이끌어야 한다고 위에서 언급을 했습니다. 그 이유는 빅데이터는 무지막지한 놈입니다. 말 그대로 엄청나게 큽니다. 크다는게 단순히 크기만 큰게 아니라 엄청나게 다양한 데이터들이 있는데 이게 아무런 가공도 없이 불규칙하면서 엄청나게 있으며, 아무도 그걸 어떤식으로 써야한다고 지침을 주지 않습니다.

이런 부분에서 데이터사이언스들은 그 많은 데이터를 가공하고 어떻게 써야 효율적이라는 답을 제시해야 합니다. 꽤 어렵죠? 정말 고단하고 힘든 과정은 데이터를 깔끔하게 정리하는 과정이고 이를 가공하는 과정입니다.

가장 먼저 다양한 부서들을 만납니다. 그러면 그 부서에서 원하는 방향이 있을거구요. 하지만 데이터는 그 부서가 원하는 방향으로 답을 주지 않습니다. 정말 극현실적인 데이터를 줍니다. 만약 제조를 담당하는 부서이고 물건을 시장에 내놨을 때 잘 팔릴 수 있느냐 입니다. 이 과정을 위해서는 데이터 사이언스는 제조하는 제품들의 spec를 알아야 하고 시장의 어느곳에서 어떻게 누가 이 제품을 가장 많이 구매하는지, 할인은 했는지, 1+1인지? 부분들을 추출합니다.

추출과정에서 엄청난 데이터들을 마주하게 됩니다. 하지만 이걸 다양성에 맞게 분류하는 일이 바로 데이터 사이언스의 일이기 때문에 그대로 분류를 합니다. 분류를 하다보면 굉장히 좋은 인사이트가 발견되고 그 안에서 이 제품을 어떤식으로 판매하면 더 좋은지 알게됩니다. 이를 마케팅 부서와 함께 연계해서 인사이트 리포팅을 해주면 제조부서와 마케팅부서가 서로 협업을 하며 제품을 더 원활하게 판매할 수 있는 대책을 마련하게 되고 직접 온라인이나 오프라인에 실행하는 부서들과 연계해서 판매가나 프로모션성으로 진행을 할 수도 있습니다.

꽤 매력적이지 않나요?

개인적으로 소셜 데이터들을 분석해서 현재 우리 회사의 뷰티제품이 얼마나 인지되고 판매되는지.. 그리고 어떠한 spec를 원하는지 알게되면서 꽤 재미있었습니다. 이러한 다양성을 지닌 데이터를 분류하면서 insight를 얻어서 광고를 하게 됐는데 실질적으로 광고비대비 매출 220%라는 성과를 얻게 되었었습니다.

지금은 기업들이 데이터 마이닝, 데이터 분석, 서비스 기획 등의 다양한 직군을 뽑아서 활용하고 있지만 이건 대기업이나 뽑는 수준이고 중소기업은 한 사람이 모든걸 다해야 합니다. ㅋㅋ

일단 1편을 마치고
2편에서는 애자일과 하둡에 대한 개념과 이게 왜 빅데이터에서 필요한건지 알아보도록 하겠습니다.

여기까지 읽어주셔서 매우 감자드려염~(오타아님)

이제 잘가여~ 안녕~






주요 소통 주제
IT관련 칼럼, 먹스팀, 일상글, ANTI-대문제작, 고팍스까기
(누구처럼 어디 거래소 직원 노노), 감성글, 뻘글



©newbijohn

Sort:  

멀티플레이어가 되어야겠네요.ㄷㄷ

ㅋㅋㅋ 한 분야만 알아서는 불가능하긴해여 ㅎㅎ

빅데이터도 4차산업혁명을 이끌 분야중 하나인것은 틀림 없는것 같습니다. 다른 분야들과의 조합이 상당히 기대되기도 하구요..
오늘도 잘보고 가요 @newbijohn

글쵸... 이미 국내에 데이터에 대한 내공이 깊으신 분들이 많이 계셔서 좋은 조합들이 예상됩니다.

대충 제가 하고 있는 것을 기록해 보면

간단하게 보면 대략 4단계로 (수집 => 분류 => 분석 => 보고) 처리되지만


  1. 일단 데이터 수집을 위한 : 크롤러 ( 일반적으로 sns 나 신문기사 정보를 수집 )

  2. 자연어 분석 : 수집된 데이터를 자연어 분석하여 유형별로 분류

  3. 도메인 전문가 : 업무 특성을 잘 알고 수집된 데이터를 분석할 줄 아는 사람이 분류된 데이터를 어떻게 후처리하라고 지시

  4. 보고를 위해 데이터를 도메인 전문가가 이야기 해준 로직을 적용


결론 쉽지 않고 힘들며 또한 지속적으로 트랜드에 따라 변화함. 그리고 이것이 왜 유의미한 결론인가를 고객에게 설득해야 되는데 그건 더 빡셈 ㅎㅎ

그리고 tensorflow, hadoop, mongodb, bigquery, R, python, nodejs, 형태소분석, wordtovec, NLU, ML(machine learning), MC(machine comperhension) 등 개발언어와 관련지식 또한 복합적으로 알고 있어야 소통이 가능해서 빡친 업종이라 할 수 있겠습니다.

역시 운사마형님+_+ 존경스!!

다양한 개발언어와 관련지식을 아는 것두 중요하지만 제일 중요한건 분석을 통한 인사이트를 내는 능력이라고 봐요. 지식은 그저 소통을 위한 부분이고 데이터 사이언스 스스로가 내공이 있다면 그 모든게 인사이트 하나로 커버가 되지 않을까 싶긴합니다. 다만 이런 상황이 오기까진 부단한 노오력이 필요하긴 하더라구요 ㅎㅎㅎㅎ 신뢰도가 쌓여야해소요 ㅋ

감자주세요.

시로요. 제가 다 먹을꼬에요.

그럼 저주세요~

팩션골드 바보

ㅋㅋㅋㅋㅋㅋㅋㅋ

어휴;; 디로야 아부지한테 그러면 안 되지만
너니까 인정!

Big Brother , Big Data의 시대.

Posted using Partiko Android

전 고구마로 부탁드립니다 방구를 끼고 싶거든요...

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 빅데이터 재미있는 분야 같아요 ㅋㅋ 많은 분들이 빅데이터와... 블럭체인을 헤깔려 하시는 분들도 많은것 같지만 ㅋㅋ... 빅데이터를 통해 불필요한 일들좀 그만 했으면 좋겟습니다. 보고 있나 정부 기관...

아니 이 아재 .. ㅋㅋㅋ 빅데이터는 블록체인과는 다른분야긴 하지만 연관을 지어보자면 충분히 가능성이 있을 듯 해염+_+

ㅋㅋㅋ
가끔 블록체인이라도 ICO 보면,, 빅데이터로 충분한게 많아보이거든염!! 다 스캐밍ㅁ

스캠 ㅋㅋㅋㅋㅋㅋ

진짜 스캠을 잘 하는 방법을 빅데이터로 분석해서 한다면?!!! 두둥!!

그럼,,, 잡혀가지 ㅋ
스캠을 찾는 방법을 빅데이터로 해줭 ㅋㅋ

그건 불가능합니다. 고갱님

빅데이터가 기업에게 큰 영향과 방향성을 가이드해 줄것 같네요~

맞아염...가이드를 해주긴 하는데 그걸 실행하는 사람들이 그만큼 전문적이여야 해요... 안그러면 의미가 없더라구요...(소귀에경읽기죠..)

적을 알고 나를 알면 대박이다!!! 그걸 가지고 있는게 빅 데이터 같아요...맞나요?

스팀 고래의 꿈.jpg

그렇죠. 스스로의 점검도 되고, 적의 약점을 분석도 가능하구욤!+_+

맞아요 꼭 필요해요 ㅎㅎㅎ
없으면 안됨 어느 시간대에 누가 접속하는지 연령대는?
ㅋㅋㅋ 이벤트는 언제하면 되는지

그렇져눟ㅎ

다 뿌린거? ㅋㅋㅋㅋ

Coin Marketplace

STEEM 0.21
TRX 0.20
JST 0.034
BTC 90598.76
ETH 3112.87
USDT 1.00
SBD 2.99