빅 데이터 분석하기 #3 - 우리는 왜 빅 데이터 기술이 필요 한가?
안녕하세요 @jingdol 입니다^^
kr-science 태그가 활발해 졌으면 하는 마음에 부족하지만 제분야 관련해서 글을 적어 볼까합니다.
예전에 시작했던 "빅 데이터" 관련글을 시간나는 대로 올려볼까 합니다.
스팀잇 유저분들이 다양한 background를 가지고 게시다는걸 고려해서 최대한 쉽게 풀어보도록 하겠습니다.
우리는 왜 빅 데이터 기술이 필요 할까?
최근 몇 년 동안 기계에서 생성되는 데이터의 양 / 유형 및 시스템 / 서비스에 대한 인간의 상호 작용이 기하 급수적으로 증가하며 빅 데이터는 엄청난 관심을 받고 있으며 이러한 성장은 사물 인터넷(IOT)/센서기술이 성장함에 따라 계속 증가 할 것으로 예상됩니다.
하지만 데이터의 복잡성 증가, 요구되는 데이터 처리/분석 속도, 데이터의 다양성 등등은 새로운 데이터 관리(저장 / 액세스 / 보안/ 분석)의 어려움으로 나타났고 이를 해결하기 위한 노력은 현재 진행형이며 앞으로도 더욱 발전 할것으로 보입니다.
이미 오래전부터 저희는 데이터를 수집, 저장, 가공, 분석, 시각화(정보화)를 해오고 있었습니다. 빅 데이터 기술도 앞에 말씀드린 플로우를 따라갑니다. 수집, 저장, 가공, 분석, 시각화(정보화). 같아 보이지만 여기에는 정말 많은 차이가 존재합니다. 그중에서 데이터 분석가 입장에서 보면 바로 효율성이라고 할 수 있습니다 (저의 개인적인 생각으로) .
데이터를 분석가는 기본적으로 가설을 새웁니다. 그리고 그 가설을 데이터를 통해서 확인을 하는데 다양한 데이터를 조합/변환, 다양한 모델 설계/개발/테스트 등등 새운 가설들을 시험/확인 시험/확인 시험/확인 ...과정을 원하는 답을 찾을때까지 반복하게 됩니다.
여기서 실제 분석가의 시간을 가장 많이 잡아먹는 부분이 바로 데이터의 수집과 연동 부분인데요.
아래그림을 보시면 여러분야에 종사하는 사람들이 현제 다양한 데이터를 수집하고 각각의 시스템에 저장을 하고 있습니다. 여기서 데이터의 수집 및 저장 방식(포맷), 데이터가 저장되어있는 시스템(DB)가 다양한데요. 공개되어있지 않은 데이터를 요청하기 위해선 데이터 소유자 그리고 시스템 관리자를 통해 전달 받게 되고, 오픈되어 있는 데이터일 경우 데이터를 제공하는 시스템의 API문서를 읽어 시스템 API 및 데이터 포맷을 이해 하고 개발하여 수집하기까지 정말 많은 시간과 비용이 들게 됩니다.
과거 데이터를 제공하는 곳도 있지만 시스템 부하때문에 보통은 데이터를 연동하는 시점부터 데이터를 받아 볼 수 있게되니 원하는 데이터를 받아서 분석하기까지 상당한 시간이 걸리게 되는 겁니다.
빅 데이터 기술은 데이터 검색과 데이터 분석을 기존 방법 보다 빠르고, 편하게 수행 할 수 있는 환경을 제공 합니다. 그래서 데이터 분석가가 보다 쉽고 편하게 다양한 데이터를 가져와 분석 할 수 있죠. 데이터를 분석하는 사람에게는 빅 데이터 기술이 원하는 데이터를 빠르게 접근할 수 있으며 더나아가 기술을 잘 활용하면 기존보다 수천배에 달하는 데이터를 빠른시간내에 분석하여 결과를 도출해 낼수 도 있습니다.
빅데이터 분석하기 #1 - 빅데이터 개요
https://steemit.com/kr-scientist/@jingdol/1
빅데이터 분석하기 #2 - R 소개
https://steemit.com/kr-science/@jingdol/2-r
빅데이터 기술은 지금보다고 중요시되고 발전해 나가겠지요 : )
모두의 분야에서 빅데이터가 더 중요해지겠죠? 저도 잘 따라가야할 것 같습니다. 좋은 글 감사합니다. :)
구글같은 곳은 분석하기위해 얼마나 많은 빅 데이터가 있을지 궁금하긴해요