[뉴비존 x 프로미스팀] why BIG DATA. 2nd

in #promisteem6 years ago

big-data-1084656_1920.jpg


안녕하세요, 스티미텔러

뉴비존(@newbijohn) 입니다.


왜 빅 데 이 터 인 가 2 편






지난 1편이 궁금하신 분들은 아래에서 확인이 가능합니다.
[뉴비존 x 프로미스팀] why BIG DATA. 1st

agile. 도대체 뭐야?

devops-3155972_1920.jpg
기존에 project를 진행을 하는 방식이 기획 -> 디자인/코딩 -> 개발 -> 테스트 -> 출시 식으로 진행이 되어 왔습니다.
이러한 방법을 워터폴(waterfall) 이라고 합니다. 단어 그대로 위에서부터 아래로 쭈욱~ 순차적으로 진행한다고 봐야 하는거죠.

하지만 애자일은 기획, 디자인/코딩, 개발이 동시에 시작을 합니다. 여기서 질문이 오겠죠? "아니! 기획서도 없는데 디자인이며 개발을 어떻게 합니까?" ... 이런 질문을 하는 분들이 워터폴 방법론에 푸욱 빠져 계신분들이라고 보면 됩니다. 대다수 '우리는 애자일 방법론으로 서비스를 론칭합시다' 라고 하면 모두가 저 말을 합니다. 왜 그럴까요? 정답은 '해본적이 없어서' 입니다.

아무리 이론적으로 알고 머릿속에 그려봐도 스스로 행동을 해본적이 없기에 막연한 두려움에 저런 질문들을 많이 합니다. 하지만 애자일 방법론을 통해서 성과를 보게되면 그 말이 쏘옥~ 들어가더라구요 ㅎ

애자일 방법론은 서비스를 론칭하기 위해 기획, 디자인, 개발을 하는 인력들이 매일매일 15분 단위로 서비스에 대한 진행여부에 대한 체크를 하고 이슈 사항과 리스크에 대해서 논의를 합니다. 그리고 바로 빌드 작업을 진행하게 되죠. (사실 애자일 방법론을 하기 위해서는 개개인 스스로가 현재 수준의 업무 능력에서 좀 더 앞서나가야 하는 센스가 있어야 합니다. 그게 없다면 중간에 빠져버리더라구요. )

이런식으로 만들어진 서비스를 바로 시장에 출시해서 고객들의 피드백을 분석하게 됩니다.

여기서 중요한 부분이 바로 이 시점에서 데이터 사이언스의 능력이 크게 발휘되게 됩니다. 시작점 부터 함께 하지만 데이터 사이언스는 이 피드백 기간에 빠르게 고객들의 다양한 데이터를 마이닝하고 분석해서 인사이트를 얻게 됩니다.

이렇게 얻어진 데이터를 통해서 출시한 서비스를 고도화하는 작업을 하게 됩니다. 이때부터 스프린트 단위로 움직이게 됩니다. 보통 1 스프린트에 2주간의 기간을 두고 진행을 합니다. 1주일의 기간동안 고도화를 진행해서 릴리즈를 하고 그 후 1주간 데이터를 마이닝해서 인사이트를 얻습니다.

다시 1스프린트를 통해서 지속적으로 고도화를 하고 릴리즈를 하게 됩니다.

너무 복잡하고 고단한 작업이 아니에요? 라고 생각한다면 그 순간 그 서비스는 접어야 한다고 말씀을 드릴 수 밖에 없습니다.

데이터 사이언스가 왜 그렇게 빠르게 데이터를 얻고 분석해서 인사이트를 공유할까요? 시장은 기업을 기다려주지 않습니다. 아니! 더 심하게 말하자면 고객들은 당신 기업들의 서비스를 평생 쓰지 않아요~! 더 좋은게 출시하고 있고, 더 다양한 혜택을 주는 서비스들은 지속적으로 출시되고 있습니다. 이러한 상황에서 느리게 반응하는 기업에 누가 오래 있을까요?

극단적인 예를 들어 코인판이 엉망이여도 스팀잇 서비스가 애자일로 빠르게 대응하며 움직인다면? 이렇게 많은 사람들이 떨어져나갈까요?

정답은 떨어져나갑니다. ㅋㅋ 하지만 이렇게 심하게 떨어져나가진 않는다는 점입니다. 최소한의 고객을 더 붙잡을 수 있다는 거죠. 그리고 이걸로 얻어진 데이터를 회고삼아 next를 도모할 수 있다는 점입니다.

우리나라의 대다수 기업들이 이런점을 놓치고 있습니다. 늘 해왔던 방식으로 진행하면서 왜 우린 매출이 안늘어? 왜 유입이 없어? 다른데 하는 거 반이라도 따라해봐 ㅋㅋㅋㅋ

그냥 웃습니다..... 저 말을 매번 들었고, 실제로 그렇게 하다가 망하는 기업이 한둘이 아니기에요....

하둡....무한의 품으로

아파치 하둡은 빅데이터 산업이 성장하는 원동력이라고 할 수 있습니다. 이 하둡은 대량(10GB ~ 100GB)의 데이터를 그 구조와는 1도 상관없이 저렴한 비용으로 처리할 수 있습니다. 대단하죠?

이런 하둡과 관련한 기술로 '하이브' 나 '피그' 에 대한 언급도 자주 되고 있습니다.

하둡의 핵심으로는 mapReduce 프레임워크를 들 수 있습니다. 맵리듀스는 웹 검색 인덱스를 생성하는 문제에 대처하려는 목적으로 ' google' 이 만들었습니다. (구글 만쉐)

맵리듀스는 데이터세트에 대해 쿼리를 진행하고 나누어 여러 노드에서 병렬로 실행할 수 있는 기능이 최고 입니다. 컴퓨팅을 분산처리하면 단일 머신에 들어맞지 않는 대규모 데이터 문제를 해결할 수 있다는 점입니다. 이게 바로 범용 리눅스 서버와 연동하면 광대한 컴퓨팅 어레이의 비용 효과적인 대안을 마련할 수 있습니다.

바로 이러한 맵리듀스(오픈소스)는 2006년 야후에서 자금을 지원받은 더그 커팅이 구현했고, 웹 규모에 걸맞는 성능을 갖추기 시작했습니다.

몇 가지 하둡 관련 용어를 볼까요?

  • 앰버리: 배포, 구성, 모니터링
  • 플룸: 로그 및 이벤트 데이터의 수집 및 임포트
  • HBase: 수십억 개의 행으로 확장될 수 있는 열 기반 데이터베잇흐
  • 하이브: SQL 방식의 액세스를 갖춘 데이터 웨어하우스
  • 머하웃: 기계 학습 및 데이터 마이닝 알고리즘 라이브러리
  • 맵리듀스: 서버 클러스터에서의 병렬 컴퓨팅
  • 피그: 하둡 컴퓨팅을 위한 고수준 프로그래밍 언어
  • 우지: 조직적 통합 및 워크플로우 관리
  • 스쿱: 관계형 데이터베이스의 데이터를 가져오기 위한 도구
  • 워: 클라우드에 제한받지 않는 클러스터 배포
  • 주키퍼: 구성 관리 및 조정

휴... 더 많지만 이정도로 ㅋㅋㅋ

다시 한 번 더 언급하지만 하둡은 진심 빅데이터 산업에서 없어서는 안되는 존재입니다. 하둡 도입을 무시하는 기업은.... 아디오스~ ㅋㅋㅋ

다음화에서는 무엇을 다룰지 아직 주제를 선정중이긴 하지만
곧 바로 찾아오겠습니다.

이제 잘가여~ 안녕~






주요 소통 주제
IT관련 칼럼, 먹스팀, 일상글, ANTI-대문제작, 고팍스까기
(누구처럼 어디 거래소 직원 노노), 감성글, 뻘글



©newbijohn

Sort:  

@promisteem 에서 자유주제미션 #1 참가자분들 보팅왔습니다.
(이글에 3/3만큼 보팅합니다!!)

오~ 감사합니당!+_+

아직 아이티 관련 무지한 저로써는 어렵네요.ㅋ
이것저것 관심이 많아서 다 접하는데 참... 깊이 아는거는 없네요.ㅋㅋㅋ

원래 이것저것 넓고 얇게 하는게 좋은거졍+_+

designkoi님이 newbijohn님을 멘션하셨습니당. 아래 링크를 누르시면 연결되용~ ^^
designkoi님의 [#32 코이옥션 ] 오늘의 "콕션" 아이템은 "이오스 무드램프" 입니다 [steemit goods auction- EOS LED lamp]

... 콕션 feun 님, kilu83 님 낙찰되셔서 12.75 SBD 기부완료!
  • 22회차 콕션 newbijohn님 낙찰되셔서 1.75 SBD 기부완료!
  • 23회차 콕션 donekim 님, ccodron 님...

    하이브하우스 우찌관리 피그언어
    공부했어여 :)

    오...능력자심!!!

    뉴비존님 어떤일 하시나 궁금했는데 빅데이터 전문가셨군요~^^ 공부할 키워드 많이 알아갑니다~~ㅎㅎ

    빅데이터 전문가보단....현실잡부에 불과합니다. ㅋㅋㅋ

    현실잡부 같지 않은 전문가님 말씀 잘 봤습니다
    먼마린지 반은 알아들었나 싶지만
    잘 봤어용~

    공부해야겠습니다.^^

    공부없이 얻어지는게 없더라구영 ㅠ

    이오스 계정이 없다면 마나마인에서 만든 계정생성툴을 사용해보는건 어떨까요?
    https://steemit.com/kr/@virus707/2uepul

    Coin Marketplace

    STEEM 0.15
    TRX 0.12
    JST 0.025
    BTC 54852.52
    ETH 2440.67
    USDT 1.00
    SBD 2.18