빅 데이터 분석하기 #6 - 필요한 기술? 데이터 엔지니어 / 데이터 분석가 (Part 2)steemCreated with Sketch.

in #kr7 years ago

안녕하세요 @jingdol 입니다^^

kr-science 태그가 활발해 졌으면 하는 마음에 부족하지만 제분야 관련해서 글을 적어 볼까합니다.

예전에 시작했던 "빅 데이터" 관련글을 시간나는 대로 올려볼까 합니다.

스팀잇 유저분들이 다양한 background를 가지고 게시다는걸 고려해서 최대한 쉽게 풀어보도록 하겠습니다.

지난글 '빅 데이터 분석하기 #5 - 필요한 기술? 데이터 엔지니어 / 데이터 분석가(https://steemit.com/kr/@jingdol/5)'에서 데이터 엔지니어와 데이터 분석가의 역활(role)에 대해서 이야기 해 보았습니다.

예전에도 한번 언급한거 같은데 세상에는 정말 다양한 프로그램잉 언어와 소프트웨어 툴(software tool)들이 존재 합니다. 그렇다면 빅 데이터 환경에서 주로 쓰이는 프로그램 언어나 소프트웨어 툴에는 어떤 것들이 있을까요? 이번 포스팅에서는 빅 데이터에서 사용되는 보편적인 툴 몇가지에 대해서 이야기 해볼까 합니다^^.

앞서 저희는 역활(role)을 데이터 엔지니어(데이터 수집/가공)와 데이터 분석가(데이터 분석/리포팅)으로 나누었습니다. 여기서 데이터 엔지니어는 기본적으로 데이터를 수집/적제할때 사용되는 하둡(Hadoop), MongoDB, MySQL과 같은 DB툴들을 능숙하게 다룰수 있어야 합니다. 그리고 데이터 분석가는 R, Pandas(Python), Matlab과 같은 분석툴들을 기본적으로 능숙하게 다룰 수 있어야 하는데요.

스크린샷 2017-08-29 오후 11.40.57.png

위 그림을 보시면 두 역활 모두 능숙하게 다루어야 하는 부분에 하둡/Spark과 같은 빅 데이터 프렘이워크 그리고 이 프레임워크들을 사용하기 위해 필요한 언어 Java/Scala등이 있습니다. Java/Scala는 데이터 분석가에게 쉬운 언어는 아니지만 어느정도 사용 할 줄 알아야 합니다. 그 이유는 간단한데요. 데이터 분석가는 수집된 빅 데이터에서 insight를 도출해 내야 하는데요. 여기서 모델 설계등과 같은 기본적인 일들은 샘플 데이터를 가지고 R이나 Matlab같은 툴에서 수행이 가능하지만 전수 데이터를 활용한 모델 검증(모델 정확성/모델 실용성등)을 분석가가 수행해야 하기 때문입니다.

전수 데이터를 활용해서 모델 검증을 수행하기 위해서는 Spark을 활용하시면 빠르게 확인하실 수 있는데요. 물론 R을 가지고도 Spark을 사용 할 수 있기는 하지만 어차피 모델을 실제 적용 할 때는 Java/Scala기반으로 구현이 되어야 하기 때문에 다시 검증 작업을 수행해야 합니다. 같은 일이 중복되는거죠..(ㅠ.ㅠ) 그래서 이왕이면 데이터 엔지니어 만큼은 못하더라도 분석가가 시험해 보고 싶은 모델정도는 구현/적용시험 정도는 할줄 아는게 일을 진행하는데 정말 많이 편합니다^^

저는 이전 글에서 데이터 엔지니어와 분석가는 하나의 공동체라고 말씀드렸습니다. 그 이유는 빅 데이터의 수집, 가공, 저장, 엑세스, 분석 그리고 시각화까지 이중에 어느 하나라도 빠질 수 없는 하나의 "워크 플로우"이기 때문입니다. 하나의 워크플로우 속에서 데이터 엔지니어와 데이터 분석가의 역활은 나누어져있지만, 전체적인 워크플로우에 대해서는 모두 어느정도 이해는 있어야 한다고 생각합니다.

이상 @jingdol 이였습니다.

Sort:  

This story is interesting
beneficial.

요즘 자바를 익숙하게 사용 할 줄 아는 사람들에게 Scala 라는 언어를 배우길 권장한다던데 너무 축약되어있어서 모르고 보면 암호화폐 쳐다보는 느낌이라는 소문이. .ㅎㅎ

ㅎㅎ 그럴거에요 저는 자바->파이썬->스칼라 순으로 써봐서 뭔가 스칼라는 자바와 파이썬 썩어논거 같은 느낌이랄까 ㅎㅎ

매트랩 파이썬 오토캐드 일러스트레이터 익숙한 친구들입니다 ㅎㅎ

Coin Marketplace

STEEM 0.17
TRX 0.15
JST 0.028
BTC 62094.36
ETH 2436.39
USDT 1.00
SBD 2.50