빅 데이터 분석하기 #9 - 하둡과 하둡 관련기술 (Apache-Hadoop Distributed Processing Framework)

jingdol (66)in #kr • 9 years ago

안녕하세요 @jingdol 입니다^^

kr-science 태그가 활발해 졌으면 하는 마음에 부족하지만 "빅 데이터" 관련글을 시간나는 대로 올려볼까 합니다. 스팀잇 유저분들이 다양한 background를 가지고 게시다는걸 고려해서 최대한 쉽게 풀어보도록 하겠습니다.

빅 데이터 (1990년)

빅 데이터라는 용어는 1990 년 중반, 데이터 양의 증가(Volume)를 나타내기 위해 처음 사용 되었습니다 -
그리고 컨설팅 업체 인 메타 그룹 (Meta Group)의 애널리스트였던 Doug Laney 이개념을 확장하여 다양한 데이터(Variability)의 증가와 해당 데이터가 생성되고 업데이트되는 속도(Velocity)를 포함 하였습니다.

Apache-Hadoop Distributed Processing Framework (2006년)

Hadoop 분선처리 프레임 워크는 Apache Open Source Project로 시작되어 하드웨어를 기반으로 구축 된 클러스터 플랫폼에 빅 데이터 응용 프로그램을 실행하도록 설계되었고, Hadoop 주변에 다양한 기술들(yarn, hive등등)이 생겨나면서 주목을 받게 됩니다 .

Hadoop 생태계(하둡 및 하둡 주면 기술들)가 형성되고 주목을 받기 시작한 초창기에는 주로 Yahoo, Google, Facebook 같은 대형 인터넷 회사들, 이미 빅 데이터를 보유하고 처리하고 있던 회사들이 전부였지만, 그로부터 수년이 흘러 지금은 소매 업체, 금융 서비스 회사, 보험 회사, 의료기관, 제조업체 등등 많은 분야에서 빅 데이터 분석을 필요로 하고 있습니다.

그리고 이 수요는 앞으로도 계속 늘어날 겁니다, 왜냐하면 데이터양은 더욱더 증가하고 있으니까요
(참조 "빅 데이터 분석하기 #8 - 왜? 빅 데이터가 생겨 났을까? https://steemit.com/kr/@jingdol/ft5pv-7)

Hadoop 관련 기술

Yarn - Hadoop의 핵심 기능 중에 하나 인 클러스터를 관리해주는 녀석입니다. IT업종관련일을 하시는 분들은 아시겠지만 컴퓨터 자원을 관리하는게 제일 골치아픈 부분입니다. 부족한 자원 때문에 항상 문제가 발생하니까요... ㅠ.ㅠ 일을 하다보면 이미 서버 자원이 남아있지 않은데도 뭐 추가해달라 뭐 추가해달라 등등.. 이미 만들어놓은 프로세스들도 갈아 엎어야하는 상황들이 자주 발생하니까요.

MapReduce - 분산된 클러스터에서 데이터를 병렬로 처리하는 프로그램을 작성할 수 있게 해주는 놈입니다. 엄청난 일을 할 수 있게 해주는 만큼 프로그램 구현 복잡도가 엄청납니다(ㅠ.ㅠ 엄청 어려운녀석이에요) 2008년인가 2009년쯤에 하둡 MapReduce을 처음 들어다 봤었는데 간단한거 짜는데도 꽤 긴 시간을 투자 했어야 했습니다 (그래도 재미는 있었습니다 ㅎㅎ)

Spark - 클러스터에서 대규모 데이터 분석 응용 프로그램을 실행할 수있게 해주는 오픈 소스 병렬 처리 프레임 워크입니다. 데이터 분석업무를 수행 해서 그런지 제가 빅 데이터 기술중에서 가장 사랑하는 녀석입니다. 버젼 1.5때부터 사용해 보았는데요 MapReduce 프로그램 짜는것보다 100배는 쉽고 friendly합니다 (분석가에게). Scala / R / Python 언어를 지원하는데요, 저는 일 때문에 3가지 언어다 사용해서 분석 프로그램을 구현/실행해 보았는데 언어마다 Spark에서 지원되는 API 범위에 차이가 있기는 하지만 그리 어렵지는 않습니다^^

Hive - Hadoop 파일에 저장된 데이터를 쿼리하고 분석하기위한 데이터웨어 하우스 시스템입니다 - HiveQL을 잠깐 사용했었는데 엄청 느립니다 -_-;

Kafka - 기존 메시지 브로커를 대체하도록 설계된 분산 메시징 시스템으로 메세지를 주고/받는데 사용하는데요. 데이터를 수집/연동 하는데에 쓰이는 녀석입니다. Kafka - SparkStreaming 형태로 실시간 메세지 수집-> 가공 -> 저장 할 때 사용 해 보았는데 재밌는 녀석입니다.

"빅데이터 분석하기 #1 - 빅데이터 개요"
https://steemit.com/kr-scientist/@jingdol/1
"빅데이터 분석하기 #2 - R 소개"
https://steemit.com/kr-science/@jingdol/2-r
"빅 데이터 분석하기 #3 - 우리는 왜 빅 데이터 기술이 필요 한가?"
https://steemit.com/kr-science/@jingdol/3
"빅 데이터 분석하기 #4 - 세상을 바꾸는 빅 데이터 기술"
https://steemit.com/kr/@jingdol/4
"빅 데이터 분석하기 #5 - 필요한 기술? 데이터 엔지니어 / 데이터 분석가"
https://steemit.com/kr/@jingdol/5
"빅 데이터 분석하기 #6 - 필요한 기술? 데이터 엔지니어 / 데이터 분석가 (Part 2)"
https://steemit.com/kr/@jingdol/6-part-2
"빅 데이터 분석하기 #7 - 외로운 데이터 분석가"
https://steemit.com/kr/@jingdol/7
"빅 데이터 분석하기 #8 - 왜? 빅 데이터가 생겨 났을까?
https://steemit.com/kr/@jingdol/ft5pv-7