평균, 편차, 분산, 표준편차 용어 정리 with Python

in #kr7 years ago

평균

평균은 특정 집합을 대표하는 통계값(statistic)으로 합을 개수로 나눈 값 입니다. 단순한 random variable의 기대값이기도 합니다.

python 코드로 표현하면 아래와 같습니다. (S는 표본집합으로 n개의 변수를 가지는 list로 가정합니다.)

from functools import reduce
S = [...]
def mean(S):
    return reduce(lambda x,y:x+y, S)/len(S)

편차

편차는 특정 집합의 원소들에 대해 평균과의 차이입니다. 개념적으로는 얼마나 데이터가 흩어져 있냐를 볼 때 사용합니다. 차이를 구하는 distance함수에 따라 양의 값과 음의 값을 모두 가지기도 합니다. 편차의 경우 L1 거리를 사용하는데, 이는 양의 값과 음의 값을 모두 가집니다.

python 코드로 표현하면 아래와 같습니다.

def dev(x,mean):
    return x-mean

분산

분산은 편차의 distance함수를 변형한 함수입니다. 앞선 편차에서는 L1 거리로 양의 값과 음의 값을 모두 가지기 때문에 편차가 0이 되어 의미없는 숫자가 될 때가 있습니다. 분산은 distance 함수에 제곱을 취함으로 무조건 양수를 반환합니다.

python 코드로 표현하면 아래와 같습니다.

from math import pow
def var(S):
    m = mean(S)
    return reduce(lambda x,y:x+y, map(lambda x:pow(dev(x,m), 2),S)) / (len(S)-1)

분산은 제곱의 평균 빼기 평균의 제곱으로도 구할 수 있습니다.

def var2(S):
    E1 = mean(list(map(lambda x:pow(x,2), S)))
    return E1 - pow(mean(S),2)

표준편차

표준편차는 분산의 제곱근 입니다.

from math import sqrt
def std(S):
    return sqrt(var(S))

참고자료

https://ko.wikipedia.org/wiki/분산
http://drhongdatanote.tistory.com/36

Sort:  

안녕하세요 tmkor님, @Skan 님의 리스팀으로 방문하게 되었습니다.
오래전에 다 배웠던 것 같긴한데요.. 지금보니 잘 모르겠군요 ㅋㅋ
잘 보고 갑니다 앞으로 종종 소통하고 지냈음 좋겠네요^^

안녕하세요 성민님, 댓글 감사드립니다. ^^
저도 기억이 가물가물해져서 정리하기 위해 올리고 있습니다.
앞으로도 잘 부탁드립니다. ^^

네 감사합니다. 앞으로 종종 소통하면서 즐거운 스팀잇 즐겼으면 좋겠네요.. 오늘도 즐거운 하루 되시길 바랍니다.

파이썬이 짱이죠...ㅎㅎ

네 ㅎㅎ 가볍게 실험 돌릴때에는 이만한 언어도 없는 것 같습니다.

아~~ 어렵네요 ^^ 정말 공부잘하는 학생이고싶었는데 ㅎㅎㅎ 그렇게는 되지않았네요 ^^ 잘읽고갑니다

Coin Marketplace

STEEM 0.16
TRX 0.16
JST 0.032
BTC 59615.63
ETH 2524.32
USDT 1.00
SBD 2.44