평균과 표준편차 그리고 기대값steemCreated with Sketch.

in #kr6 years ago

Time to ReStudy

화폐의 시간가치, 가치평가, 포트폴리오 이론..
학창시절 배웠던 재무관리의 목차중 일부다.
단지 시험을 위해 공부해야 했던 과목..

하지만 투자에 관심을 가지게 되면서 재무관리는 시장이라는 전쟁터에 나가기 위해 필요한 "무기"가 되었다. 특히 "감"이란 필살기가 없는 사람에게 "재무관리"는 전장에서 살아남기 위한 최소한의 무기라고 생각한다.

필자가 앞으로 연구 예정인 두 자산을 이용한 전략을 구성하기 위해서도 여러가지 이론적 배경지식이 필요하다. 이론적 배경이 없어도 다른 사람들이 써놓은 방법론을 활용하여 Back Test를 할 수 있겠지만, 그것들을 확장하고 새로운 아이디어를 얻기 위해서는 최소한의 이론은 정리하고 가는 것이 좋을 것 같다.

이제 기억 저편으로 사라져버린 지식들을 다시 끄집어 낼 시간이다.
(참고로 이 글은 필자가 잊고 있었던 내용들을 다시 정리하기 위해 기술한 글입니다. 글에 오류 등이 있을수 있으며, 지적은 환영합니다.)

평균과 표준편차

일단 쉬운 것 부터 시작해보자.

평균은 여러 숫자의 대표값이다. 대표값을 산정하는 다양한 방법이 있지만 가장 흔하게 쓰이는 것이 바로 평균이다.
(산술) 평균은 여러 숫자 중 높은 숫자는 깍아 내고 그 갂아낸 부분을 낮은 숫자에게 더해주는 방법으로 구할 수 있다. 이것은 울퉁불퉁한 땅을 평탄화 하는 작업과 비슷하다.

예를 들어, 10과 6이라는 숫자가 있을때 높은 숫자인 10에서 2를 잘라내어 6에 더해주면 두 숫자는 8로 같아지며, 이것이 바로 평균이 된다.

숫자가 많아지면 이러한 작업이 복잡해지므로 보다 단순화된 다른 방법이 필요해진다. 숫자 하나하나를 잘라내고 더하는 것보다 모든 숫자를 한꺼번에 잘라내어 0으로 만들고 잘라낸 숫자를 모두 더하여 각 숫자에게 다시 동일한 비율로 나누어 주면 동일한 결과를 얻을 수 있다. 위의 예에서는 10과 6을 잘라내어 0으로 만들고 잘라낸 숫자를 모두 더해(10+6) 기존의 두 숫자에게 동일하게 배부 (10+6)/2=8 하면 된다.

수식으로는 다음과 같이 표현된다.
image.png

평균은 여러 숫자의 대표값을 나타내는 데는 유용하지만, 그 숫자들을 설명하는데는 부족함이 있다. (10과 6) 그리고 (12와 4)라는 숫자 집합은 상당히 다른 높낮이를 가지고 있지만, 평균은 8로 동일하다.

따라서 두 집합을 표현하기 위해 평균 이외에 다른 무언가가 필요한데, 수학자들은 각 숫자가 평균이 되기 위해 잘라내거나 더한 부분에 주목하였다. (10과 6)에서는 "2"가 (12와 4)에서는 "4"가 바로 평균이 되기 위해 잘라내거나 더한 부분이다. 이를 평균을 기준으로 서술하면 "2와 4는 각 숫자가 평균에서 떨어진 정도"라고 표현 할 수도 있다. "2"와 "4"가 바로 "표준편차"이다.

숫자를 3개로 늘려보자. 11, 7, 6 이라는 숫자 집합의 평균은 8이다. 각각의 숫자가 평균으로 부터 떨어져 있는 정도는 3, 1, 2이다(3, 1, 2는 각 숫자와 평균 차이의 절대값이다). 이 경우 "떨어진 정도"는 얼마일까? 3, 1, 2의 평균인 2라고 할 수 있지 않을까?

즉, 표준편차를 다시 정의하면 "각 숫자가 평균에서 떨어진(또는 흩어진) 정도의 평균"이라고 할 수 있을 것이다. 따라서 표준편차도 일종의 "평균"이다.

수식으로는 다음과 같이 표현할 수 있다.
image.png

표준편차를 구하는 식을 평균을 구하는 식과 비교해보자. 평균의 수식에서 x를 |x-평균|으로 대체하면 표준편차의 수식이 된다. 즉, 표준편차는 편차(|x-평균|)의 평균이다.
필자에게 표준편차의 이름을 지으라고 한다면 아마도 "편차평균" 이라고 할 것이다.

하지만 실제로 표준편차를 위와 같이 정의하지는 않는다. (왜그런지는 잘모르겠지만) 수학에서 절대값의 계산은 매우 귀찮다고 한다. 따라서 수학자들은 절대값을 대신할 다른 방법을 생각해냈다. 절대값 대신 제곱을 사용하는 것이다. 다만 제곱을 한 후 다시 원래 숫자로 돌려놓기 위해 제곱근을 취한다. 따라서 표준편차의 수식은 다음과 같이 재정의 된다.

image.png

위의 식을 이용하여 11, 7, 6의 표준편차를 구하면 약 2.16이 된다. 처음에 계산했던 2와는 차이가 있지만 얼추 비슷하다.

표준편차는 값 자체로도 의미가 있지만, 보다 중요한 역할은 집합간 비교를 위한 것이다. 따라서 일반적으로는 표준편차의 값자체에 집중하기 보다는 집단간의 흩어진 정도의 차이를 보는데 표준편차를 많이 이용한다.

흩어진 정도를 비교하기 위한 것이 주목적이라면 제곱근을 취하기전 상태인 제곱만으로도 충분한 의미가 있을 것이다. 이렇게 제곱근을 제거하게 되면 "비교"라는 기본 취지도 훼손하지 않으면서 계산은 더욱 쉽게 된다.

따라서 제곱근을 취하기 전의 값이 많이 사용되는데 이를 "분산"이라고 부른다.
분산은 다음과 같은 수식으로 표현된다.
image.png

제곱은 다시 다음과 같이 풀어쓸 수 있다.
image.png

이렇게 풀어쓰고나면 한 가지 아이디어를 더 접목 시킬 수 있게 된다.
분산은 편차의 곱(편차X편차)으로 나타낼 수 있는데 이 두 편차가 꼭 같을 필요가 있을까? 만약 첫번째는 x에 대한 편차를, 두번째는 y에 대한 편차를 넣으면 어떻게 되는 걸까?

이런식으로 쓰고 공분산이라고 읽는다.
image.png

분산을 구할때 x에 대한 편차를 제곱하면 항상 (+)가 되므로 , 편차의 합은 계속 커지게 된다. 하지만 x의 편차와 y의 편차를 곱하는 경우 x와 y가 각각 움직이는 방향에 따라 편차의 곱은 (+)가 될 수도 (-)가 될 수도 있다. 따라서 편차가 계속 같은 방향으로 움직이는 경우 (+)값이 점점 커지게 되며 반대방향으로 움직이는 경우, (-)값이 점점 커지게 된다.
즉, 공분산은 x와 y의 편차의 방향이 같은지 다른지를 보여주는 지표가 될 수 있다.

확률과 기대값

위에서 평균, 표준편차, 분산 및 공분산에 대한 식을 정리해보았다.
이제 위의 식을 약간 변형해보자.
위의 식들의 공통점은 앞에 1/n을 가지고 있다는 것이다. 위에서도 언급했지만 1/n은 평균을 구하기 위한 방법이다.
다른 관점에서 보면 모든 숫자에 1/n이라는 동일한 가중치를 준 것이라고 볼 수도 있다.
위의 수식을 아래와 같이 바꾸면 1/n이라는 가중치가 좀 더 확실하게 보인다.
image.png

1/n은 동일 비중을 의미한다. 예를 들어 1, 1, 1, 2, 2 라는 숫자 집합이 있을때 1/n은 0.2가 된다. 같은 숫자 끼리 묶어보면 1은 0.6, 2는 0.4라고 표현할 수도 있다. 따라서 1/n을 동일 숫자가 반복될 확률 Pi로 바꾸어도 식은 성립할 것이다.

image.png

확률을 사용하여 표현하는 경우 평균은 E(X)로, 분산은 Var(X) 그리고 공분산은 Cov(X,Y)로 표현한다. 이 경우 E(X)는 "기대값"이라고 부른다.

모든 수식은 공통적으로 ΣPi로 시작하는 것을 볼 수 있는데, 이는 다음과 같이 모든 수식을 E(X)형태로 표현할 수 있다는 뜻이기도 하다.
(표준편차를 편차평균이라고 불렀던 것과 동일한 맥락이며, ΣPi를 E로 바꾼것에 불과하다)

image.png

참고로 앞에 있는 영문 E, Var, Cov를 더 단순하게는 다음과 같이 표현하기도 한다.

image.png

연산법칙

이제 수식을 확장하기 위한 연산법칙을 알아보자.

기대값의 연산

  • 숫자 a의 기대값
    E(a) = a

  • aX의 기대값
    E(aX) = aE(X)

  • X+Y의 기대값
    E(X + Y) = E(X) + E(Y)

따라서 E(aX + bY)의 기대값은 aE(X) + bE(Y)이다.

증명 : E(aX + bY)
= E(aX) + E(bY)
= aE(X) + bE(Y)

분산의 연산

  • 숫자 a의 분산
    Var(a) = 0

  • aX의 분산
    Var(aX) = a2Var(X)

증명 : Var(aX)
= E[(aX - E(aX))2]
= E[(aX - aE(X))2]
= E[a2(X - E(X))2]
= a2E[(X - E(X))2]
= a2Var(X)


  • X+Y의 분산
    Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)

증명 : Var(X+Y)
= E[((X+Y) - E(X+Y))2]
= E[(X+Y - E(X)-E(Y))2]
= E[((X-E(X)) + (Y-E(Y)))2]
= E[((X-E(X))2 + (Y-E(Y))2 + 2(X-E(X))(Y-E(Y))]
= E[((X-E(X))2] + E[(Y-E(Y))2] + 2E[(X-E(X))(Y-E(Y))]
= Var(X) + Var(Y) + 2Cov(X,Y)

따라서 aX + bY의 분산은 다음과 같다.
Var(aX + bY) = a2Var(X) + b2Var(Y) + 2abCov(X,Y)

Sort:  

Congratulations @thrufore! You have completed the following achievement on the Steem blockchain and have been rewarded with new badge(s) :

Award for the number of upvotes received

Click on the badge to view your Board of Honor.
If you no longer want to receive notifications, reply to this comment with the word STOP

Do not miss the last post from @steemitboard:

SteemFest³ - SteemitBoard support the Travel Reimbursement Fund.

Support SteemitBoard's project! Vote for its witness and get one more award!

Congratulations @thrufore! You have completed the following achievement on the Steem blockchain and have been rewarded with new badge(s) :

Award for the number of upvotes

Click on the badge to view your Board of Honor.
If you no longer want to receive notifications, reply to this comment with the word STOP

Do not miss the last post from @steemitboard:

SteemFest³ - SteemitBoard support the Travel Reimbursement Fund.

Support SteemitBoard's project! Vote for its witness and get one more award!

Coin Marketplace

STEEM 0.18
TRX 0.16
JST 0.030
BTC 67211.91
ETH 2613.85
USDT 1.00
SBD 2.68