빅 데이터 분석하기 #4 - 세상을 바꾸는 빅 데이터 기술
안녕하세요 @jingdol 입니다^^
kr-science 태그가 활발해 졌으면 하는 마음에 부족하지만 제분야 관련해서 글을 적어 볼까합니다.
예전에 시작했던 "빅 데이터" 관련글을 시간나는 대로 올려볼까 합니다.
스팀잇 유저분들이 다양한 background를 가지고 게시다는걸 고려해서 최대한 쉽게 풀어보도록 하겠습니다.
빅 데이터 분석하기 #3 - 우리는 왜 빅 데이터 기술이 필요 한가? (https://steemit.com/kr/@jingdol/3) 에서 빅 데이터를 다음과 같은 성격을 가진 데이터라고 요약 할 수 있습니다 - 빅 데이터는 큰 용량(Volume), 빠른 속도(Velocity), 그리고 높은 다양성(Variety)을 갖는 정보자산 입니다.
몇년전까지만해도 저희는 GB단위의 데이터도 분석하기가 힘들었습니다. 하드웨어적으로나 소포트웨어적으로.. 생각해보면 지금 우리가 겪는 IT 현실은 정말로 많은 발전을 거두었습니다. 제가 8~9년전 처음 데이터 마이닝을 배울때만 해도 데이터 sampling / feature selection등과 같은 많은 데이터를 어떻게 하면 자~~~~알 출여 낼 수 있을까를 가장 중요하다고 배웠으면 관련 기술들을 배웠으니까요.
여기서 가장 큰 이슈는 성능 때문인데요 - 만약 모델이 순차적으로 feature들을 늘려가고, 모델 파라미터를 바꿔가면서 최적화하는 부분까지 자동으로 만들어 놓았다고 했을때 걸리는 시간이 상상을 초월 했으니까요, 이것도 물론 메모리 안깨지고.. 블랙아웃(정전)도 없고 하드웨어, 코드가 완벽하게 짜여 있어 자원을 정말 자아아아아알 활용한다고 가정했을때.. 죽지않고 결과를 낸다는 믿음하에...
지금은 기술이 많이 발전하여 terabytes(1000GB)~petabytes (1000TB) 단위의 데이터가 수집되고 분석에 사용됩니다. 이것이 현재 가능한것은 하드웨어의 엄청난 발전과 그리고 빅 데이터 기술발전도 같이 이루어 지고 있었죠. 실제적으로 모델에 집중되어있는 사람들은 시스템 자원, 하드웨어 성능을 고려하며 일을 해야하기 때문에.. 하드웨어가 가장 큰 골치덩어리죠. 그래서 나온게 단일 머신, 즉 컴퓨터 한대가 아닌 여러대, 수십대에서 부터 수천대를 사용하여 데이터를 처리하는 빅 데이터 플랫폼, 클러스터 등등 기술들이 발전해왔다고 생각합니다.
만약 데이터를 처리하는데 하드웨어의 성능에 전혀 영향 받지않고 데이터를 처리, 즉 데이터에서 내가 원하는 정보를 원하는 시간안에 찾을 수 있다면 정말 일하기가 수월해질겁니다.
그리고 방금드린 말씀은 현실에 존재 합니다. 바로 빅 데이터 기술이 앞에 말한 하드웨어 성능을 고려하지 않고 수십억건의 데이터를 처리하고 원하는 정보를 얻을 수 있습니다.
"하드웨어 성능을 고려하지 않는다"는 부분을 여기서 한번더 되짚어가야 할 거 같습니다 (오해의 소지가 있기 때문입니다)
예를들어서 2G 정도의 데이터를 계산하기위해선 2G의 물리적 메모리(하드웨어)가 필요하다고 하고 4G 데이터는 4G 물리적 메모리 등등
저희는 데이터가 늘어 날때마다 컴퓨터를 바꿔야 합니다. 그럼 만약 10TB 데이터를 한번에 계산하고 싶다면요? 10TB 되는 물리적 메모리 - 아직 하드웨어 기술이 도달 못한 양의 데이터를 처리하고 싶다면? 이런 방식으로는 불가능 하죠. 그런데 2G메모리 컴퓨터 5000대를 사용할 수 있다고 한다면요? 100TB는 2G메모리 컴퓨터 10000대, 컴퓨터 사항이 100G의 물리적 메모리를 가지고 있다면 1 peta 데이터를 계산하는데 만대가 있으면 되겠죠?
물론 실제 사용되는 메모리양은 프로그램 언어/구현방식/계산방식에 따라 다르지만 쉽게 설명 해드리렬구 1:1이라는 전제조건을 두었습니다. 말씀 드리고자 하는 내용은 그게 아니니까요^^
그래서, 여기서 하드웨어 성능을 고려하지 않는다는 이런 부분입니다. 필요하면 컴퓨터를 더 사면 되는거죠. 빅 데이터의 가장 큰 장점이 바로 병렬 처리이기 때문입니다.
상상해보세요 버튼 하나를 클릭하면 수천, 수만대에 컴퓨터가 몇백억, 몇천억건의 데이터를 가공, 분석하여 내가 원하는 결과를 10초안에 준다면요? ^^ 재밌을거 같지 않으세요? ㅎㅎ
이번글에는 그림은 없고.. 글만 적었네요 다소 재미없을거 같다고 느끼지만.. 그래도 한번 그림없이 글만 적어 보았습니다 ^^
이상 jingdol 이였습니다.
Congratulations @jingdol! You have completed some achievement on Steemit and have been rewarded with new badge(s) :
Click on any badge to view your own Board of Honor on SteemitBoard.
For more information about SteemitBoard, click here
If you no longer want to receive notifications, reply to this comment with the word
STOP확실히 그림이 아쉽긴 하지만 글 내용이 그림을 압도하네요 ㅎㅎ 유익한 글 감사합니다