빅데이터 분석하기 #1 - 빅데이터 개요
안녕하세요 @jingdol 입니다^^
요전에 kr-science 태그를 보았습니다. 몇몇분이 열심히 활동하시고 게시더라구요. 저도 kr-science 태그가 활발해 졌으면 하는 마음에 얼마되지않는 저의 지식 몇가지를 글로 적어 볼까합니다.
스팀잇 유저분들이 다양한 background를 가지고 게시다는걸 고려해서 최대한 쉽게 풀어보도록 하겠습니다.
그리고 저를 팔로우 하시는분들은 아시겠지만 저의 한국어 능력이 많이 떨어지겠 때문에 이점 양해 부탁드립니다(_ _)
빅데이터란?
빅데이터란 단어는 많이 들어보셨을 겁니다. 빅데이터를 한마디로 정의하기는 힘들지만 단순하게 표현하자면 크고 다양한 데이터가 빠른주기로 수집된 형태라고 보시면 될거같습니다.
스팀잇만 보시더라도 저희의 모든 행동이 데이터화되어 저장되는거 아시나요? 누가 언제 어떤글들을 쓰고/보고 누구에게 보팅을 하고 누구에게 코멘트를달고 등등의 모든행동들이 데이터화되어 저장이 되고있습니다.
스팀잇 유저가 25만명정도라고 보았을때 그사람들이 스팀잇내에서 어떤 행동들을 하는지 실시간으로 수집된 데이터, 정말 많고 다양한 데이터가 수집이 되겠죠? 이런형태의 데이터를 빅데이터라고 보시면 될거같습니다.
그럼 빅데이터를 왜 수집 할까요?
데이터를 수집하는 목적은 예전이나 지금이나 정보화에 목적을 두고 있습니다. 다만 빅데이터에서달라진 점은 정확하고 다양한 정보들을 찾아낼 수 있는 환경이 주어짐과 동시에 데이터를 처리하기 위한 기술 난이도가 그만큼 복잡해지고 어려워졌습니다.
빅데이터 IT 기술
IOT, 센서 기술에 발전으로 다양하고 많은 정보들이 수집되고 있으며 정보기술(IT) 또한 이에 맟워 많은 발전을 하고 있습니다.
빅데이터에서 IT기술은 크게 두분야로 나누어 진다고 볼 수 있습니다. 정보를 데이터화 시키는 data engineer와 수집된 데이터를 정보화시키는 data scientist가 있습니다.
정보정보 - 데이터 - 정보형태인데요.
여기서 정보라는 단어를 두번써서 조금 이상해 보일수도있는데요. 앞에 정보는 센서에서나오는 데이터 또는 누군가 이미 만든 정보(예: 날씨) 모두를 포함합니다.
여기서 데이터 엔지니어는 기존에 만든 데이터를 그대로 사용 할 수도 있고 새로운 지표를 만들수도 있습니다. 그리고 뒤에 정보는 여러가지의 데이터/정보를 사용해서 만들어내는 새로운 정보입니다.
비트코인 시세 예측을 가지고 예를들어 보자면data scientist는 비트코인 시세 예측에 필요한 정보/지표/모델들을 정의 하고 데이터 엔지니어는 이에 필요한 정보를 수집하고 지표를 만들어 제공하는 역활을 담당하게 됩니다.
1편에서는 빅데이터 기술에 거부감을 느끼시지 않으셨으면 하는 마음에 전체적인 그림만 소개드렸는데요 2편에서는 1편보다는 조금더 디테일하게 들어가 볼까 합니다.
이상 @jingdol 이였습니다.
좋은글이네요~♡ 정보 감사합니다^^
좋은 글 감사합니다.
빅데이터라는 말은 많이 들었섰는데 좋은 정보 감사드립니다
좋은 글 감사합니다 ㅎㅎ #kr-science 태그 앞으로도 자주 이용해주세요! 요즘 빅데이터, IOT 하면 이공계가 아니더라도 한번씩 다 들어보신 용어인 것 같습니다.