[Be a Data Scientist] _ 대체 뭐길래 ?! (데이터 분석 & 데이터 마이닝 & 머신러닝 & 인공지능)

yongju (46)in #kr • 9 years ago (edited)

Be a Data Scientis

얘네들 뭐예요 ?

Data Mining
Statistics
Deep Learning
Machine Learning
Big data
AI (Artificial Intelligence)

: 4차 산업혁명, 알파고의 등장, Google Home(에코), Amazon, Google 의 미친짓 등등 요즘 가장 핫한 분야가 제가 위에 나열한 분야라고 생각 됩니다. 물론 IOT, Connected Car, Sharing economy 등 다양한 이슈들이 있지만 이슈들 또한 어떻게 데이터를 처리하고, 자동화 하는지에. 대한 부분이 core라 생각됩니다.

앞으로 이 분야에 관하여 Steemit 에 한글로 된 자료를 정리하자는 취지로 그 방점을 찍어보려 합니다. 저도 아직 모르는 것이 너무 많고, 제가 잘못된 지식을 알고 있을지도 모르니 언제든 첨언&수정&지적 부탁드립니다.

데이터 분석의 개요와 용어 정리에서 시작하여 기본 알고리즘 소개, 분석툴 소개, 최신 연구동향 등에 대하여 지극히 개인적인 견해로 다룰 예정입니다.

그럼 첫 번째로 복잡하게 남용되고 있는 용어들을 나열해보고 Steemit kr 사용자는 같은 의미의 언어로 사용하고자 용어들을 정리해보도록 하겠습니다.

Data Mining

: Data Mining은 가장 포괄적인 단어로 사용됩니다.
[데이터 마이닝(data mining)은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것이다.
[https://ko.wikipedia.org/]

데이터 마이닝은

     데이터 저장 -> 데이터 불러오기 -> 데이터 정체하기 => 시각화 or 데이터 탐색 => 모델링 -> 제품화 or 자동화 -> 데이터 저장

의 사이클을 가지고 진행됩니다. => 의 표시로 된 부분에서는 시각화/데이터 탐색에서 사이클이 종료되고 다시 처음으로 돌아갈 수도 있고, 같은 의미로 => 모델링이 종료되고 다시 처음으로 돌아갈 수 있습니다. 여러 종류의 알고리즘이 있고, 굉장히 광범위한 부분이라 오늘은 '아 이런거다~' 의 개념만 드리도록 하겠습니다.

Statistics
: 통계학은 데이터에 접근하는 전통적인 방법으로, 크게 두가지 종류로 나누어 볼 수 있습니다. 기술통계와 추리통계로 나누어 지는데, 기술통계는 평균, 분산 등 한 종류의 자료 설명에 관심이 많은 친구입니다. 사과 한상자가 있는데 그 상자안에 있는 사과 크기의 평균, 사과 크기 분산 등과 같이 사과 한놈한테만 관심이 있습니다. 추리통계는 두 개 이상의 변수에 관심이 많은데 (사실 표본을 추출하고 모수를 추청하는 통계기법이지만 다른 관점으로 바라보면) 사과 한상자가 있는데 그 안에 사과들 당도가 얼마나 되는지 알고싶습니다. 근데 모든 사과를 다 먹어볼 수 없으니 3개 정도를 먹어보고 '아 이 상자속 사과는 달구나' 라고 판단을 내릴 수 있죠. 이 때 우리는 사과 - 당도 의 관계에 대하여 생각해 봅니다. 통계학은 데이터 마이닝을 수행하는 하나의 도구로 사용된다 생각하시면 좋으실 듯 합니다. (오로지 데이터 과학자의 관점 + 저의 관점 입니다)
Deep Learning
: Deep Learning 은 사실 그냥 큰 범주를 갖는 알고리즘 중 하나입니다. Deep learning 이라는 용어가 너무 유행이라 여기에 넣어 보았습니다. Deep learning 은 Neural network 라는 machine learning 도구를 좀더 학습을 잘하도록 발전시킨 것이라 생각하시면 됩니다. 이 부분에 대해서는 나중에 더욱 자세히 들여다 볼 예정입니다. (Deep learning은 만능이 아니야!! 라고 혼자 소리쳐 봅니다)
Machine Learning
: 머신러닝은 이렇게 ‘기계’가 일일이 코드로 명시하지 않은 동작을 데이터로부터 ‘학습’하여 실행할 수 있도록 하는 ‘알고리즘’을 개발하는 연구 분야이다. (1959년 아서 사무엘). 기계에게 어떻게 동작하도록 하나하나 모두 입력하지 않고도 스스고 학습하여 원하는 행동을 하도록 만드는 것을 이야기 합니다. 알파고에게 기보를 주고 바둑을 스스로 학습시킨 것 처럼 목표를 가지고 그 목표에 알맞게 기계가 행동하도록 만드는 것입니다.

Machine learning vs Data Mining
: 이 둘은 매우 유사하고 겹치는 부분도 많지만 이름에서 풍기는 느낌처럼 Machine learning은 기계를 학습시키는 것을 목표로 하고, Data Mining은 데이터에서 지식을 발견하는 것을 목표로 합니다.
Big data : Big data 는 말그대로 많은 데이터 입니다. 데이터가 많아진다고 해서 완벽한 기계를 만들거나, 엄청난 정보를 뽑아낼 수 있다는 것은 아닙니다. 요즘 빅데이터라는 용어가 많이 사용되고, 컴퓨팅 능력의 향상으로 기술이 발전된 것은 맞지만, Big data라는 단어가 분석&AI 등 모든것을 내재하고 있는 듯하게 사용된다는 점은 조심해야 할 부분이라 생각됩니다. small data에서도 엄청난 insight를 뽑아낼 수 있습니다.
AI (Artificial Intelligence) : Machine Learning을 통하여 기계 스스로 결정을 내리거나 주어진 task를 수행하는 모든 것을 말합니다. 물리적 기계를 지칭하는 말로 주로 사용되지만 소프트웨어나 자동화 프로그램 모두 AI 라고 불립니다. Strong AI & Weak AI 등에 대한 이슈도 많은 논의가 필요하고, 이야기가 필요하다 생각됩니다.