1-22 입자분류를 위한 볼츠만, Bose-Einstein, Fermi-Dirac의 확률분포와 머신러닝 classification 과의 공통점

in #kr6 years ago (edited)

noname01.png
볼츠만으로부터 시작되었다고도 볼 수 있는 통계 물리학은 볼츠만 분포로 끝나는 것은 아닌 듯하다. 즉 볼츠만 확률 분포와 땔려야 땔 수 없는 관계에 있는 유명 물리학자들이 게재된 확률 분포들이 있다는 점이다. 물론 볼츠만 분포가 머신 러닝의 이미지 처리에서 핵심적인 역할을 하는 이유는 무엇이겠는가? 간단히 설명하자면 볼츠만의 시대를 지나 1900년대를 넘어 물리학 분야에서는 현대과학의 중추를 이루는 양자역학이 출현하게 된 시대이다. 양자역학이 발전하게 됨에 따라 물리학자들의 관심은 결국 본질적인 물질의 성격 규명에 나서게 된다. 이미 볼츠만 분포에서도 입자의 동일성(identical)이라든지 구별(distinguishable) 가능성 문제가 다루어졌지만 물리학자들이 찾아 나서 맞닥뜨리게 된 일차적 관문의 물질의 궁극은 뜬금없이 분신술을 구사하는 입자들이었다. 분신술을 구사한다는 얘기는 다시 말하면 입자들이 너무 비슷해서 도대체 구분이 안된다(indistinguishable)는 점이며 볼츠만 분포로는 설명이 불가능할 뿐 더러 이러한 입자들을 묘사할 수 있는 새로운 확률분포가 필요하게 된다.

볼츠만 분포와는 다른 새로운 확률분포가 머신 러닝과 어떤 관계를 맺고 있을지는 당장 짐작하기는 어려우나 볼츠만 분포를 거론할 때면 항상 패키지로 함께 따라 다닌다는 점에서 Bose-Einstein 분포와 Fermi-Dirac 분포를 집고 넘어가기로 한다.

방글라데시 출신의 뛰어난 이론 물리학자였던 Bose는 1920년경에 켈커타 대학에서 자신이 플랑크의 앙자역학적 복사법칙에 대한 논문을 작성하게 되는데 그 내용이 주로 동일한 입자들의 macrostate 또는 microstate 수를 세는 나름대로 고상한 방법에 근거한 것이었다. 6개의 입자를 9단계로 분류하여 표를 작성하는 작업과 유사성이 있을 것이다. 그런데 그가 쓴 논문이 국제학회지 출판에 어려움을 겪게 되자 독일의 아인슈타인에게 자신의 논문을 직접 독일어로 번역해서 보내어 인정을 받아 독일 학회지에 게재하게 됨과 동시에 독일에 체류하게 되면서 입자와 파동의 이중성을 드브로이파로 밝힌 드브로이, 누구나 다 아는 세계 최초의 노벨상 수상에 빛나는 여성 화학자 큐리 및 아이슈타인과 함께 실험실에서 연구를 하게 된다. Bose의 논문은 훗날 볼츠만 보다 한술 더 떠 양자 통계학(Quantum Statistics)의 원조 논문이 되었다. 본인은 잘 몰랐을 수도 있겠지만 아인슈타인이 그와의 대화에서 “자네(Bose)가 새로운 통계를 시작했다는 사실을 알고 있는가?“라고 지적을 해주었다는 일화가 있다.

Bose 는 독일 체류 전에 작성한 논문에서 하이젠베르크의 불확정성 원리가 적용되는 아주 작은 공간으로 미시적으로 들어갈수록 입자들이 서로 구별이 안되는 분신술을 씀으로 인해 이미 볼츠만의 확률분포가 제대로 맞지 않는다는 점을 밝히고 볼츠만 분포에서 입자들을 구별하는 핵심 요인인 위치와 운동량의 상이성을 폐기함과 아울러 적합한 확률분포를 찾아 나서게 된다.
Bose가 관심을 가졌던 대표적인 입자가 바로 광량자(Photon) 인데 얘는 속도가 다 빛의 속도로 같기 때문에 두개의 광량자가 있다고 해도 같은 방향으로 운동하면 어느 놈이 어느 놈인지 알 수가 없다는 점에 주목했다.

Bose 가 제시한 확률분포 문제를 간단히 리뷰 해보자. 두 개의 서로 구별이 가능한 동전1과 동전2를 던지는 문제이다. 이때에 나올 수 있는 결과물(outcome)은 다음 3가지 이다.

⓵둘 다 앞면(Head) ⓶둘 다 뒷면(Tail) ⓷ 앞면(Head) 또는 뒷면(Tail)

동전이 구별 가능하므로 얻어질 수 있는 이벤트를 표로서 나타내 보자. 동전이 구별이 된다면 분명 HT 와 TH는 구별이 되므로 각각 하나씩의 이벤트가 된다. 그렇다면 동전 1 과 동전 2 가 구별이 안된다면 HT 와 TH를 각각의 서로 다른 이벤트로 볼 수 있을까? 서로 다른 이벤트로 구별이 안되므로 결국 결과물(outcome) 3가지가 이벤트의 집합이 되며 확률 분포가 (1/3) 이 될 수도 있다는 점이다.
noname02.png

Bose 의 확률분포는 현재 Bose-Einstein 확률분포로 널리 알려져 있는데, 아인슈타인이 후속연구를 통해 1925년에 Bose-Einstein condensate 연구에 사용하였고 무려 70년이 지나 1994년에 실험적으로 확인이 되었다.

6개의 입자 표로부터 Bose-Einstein 확률 분포를 적용하여 입자 수 분포를 계산해 보자. Bose-Einstein 확률 분포에서는 입자들의 구별 가능성에 근거한 볼츠만의 microstate 수가 있을 수 없으며 오직 지정된 에너지 레벨에 포함되어 있는 macrostate 만이 카운팅 된다.

![noname03.png]
()

Fermi-Dirac 확률 분포 역시 양자역학의 발전에 영향을 받아 1926년에 제안되었는데 하나의 에너지 레벨에 2개 이상 수용이 불가능하다는 점이다. 원자 구조에서 가장 낮은 에너지 레벨인 첫번째 궤도에 전자가 2개가 수용될 수 있는데 파울리의 배타원리에 의하면 그 2개의 전자를 구별할 수 있는 스핀이 서로 반대라야 한다.

noname04.png

이 양자역학적 원리는 전자뿐만 아니라 그 적용 범위가 넓긴 하지만 여기에서는 앞서 제시된 표의 데이터에 한해서만 고려하도록 하자. 표의 macrostate를 조사해 보면 각 에너지 레벨에 2개 이상의 입자를 포함하는 경우를 제외해 버리면 macrostate 12, 13, 14 만이 해당되며 평균 입자 수는 아래와 같이 계산할 수 있다.

noname05.png

커버 그림에서처럼 Bose-Einstein 및 Fermi-Dirac 확률 분포가 적용될 수 있는 상황으로는 원자 번호 6번인 탄소 원자 즉 입자 수가 6인 예를 들어 보자. 에너지 레벨이 가장 낮은 궤도에 2개의 전자가 들어갈 수 있는데 Fermi-Dirac 확률 분포를 사용해야 하는 공간이 될 것이다. 파울리의 배타원리에 물리법칙에 따르면 반드시 스핀이 반대 방향이라야 한다. 그 다음으로 에너지 레벨이 높은 궤도는 4개의 전자가 들어가는데 여기서는 배타원리 적용이 필요 없다. 즉 구분이 안되도 좋으며 그냥 전자면 된다. 이 궤도는 최외곽이므로 최대 전자 수용 수가 8이기 때문에 다른 원자들과 전자를 공유하므로서 공유결합이 가능해진다. 메탄가스 예를 들면 CH4 이다. 수소 원자의 가장 낮은 에너지 레벨에 1개의 전자가 들어 있으며 이 전자를 탄소원자의 외곽 궤도와 공유해도 아무런 문제가 없을 것이다.

탄소원자의 예에서 사용하는 에너지 레벨은 단 2개이다. 반면에 볼츠만 분포를 유도과정에 사용한 6개의 입자 9단계 에너지 레벨 모델에서 0∼8⧍E 즉 9단계 모델을 사용하여 표를 작성하였는데 입자 수가 증가한다면 주기율표상의 대부분의 원자 구조가 포함될 수 있을 것이다.

통계 물리학에서 기원한 볼츠만, Bose-Einstein 분포, Fermi-Dirac 분포가 머신 러닝과 뭔가 밀접한 관계를 가지게 된 이유가 무엇일까? 과연 밀접한 관계가 있기는 있는 것일까?
있다고 볼 수 있다. 통계 역학에서 입자의 구별이 가능한지 여부가 왜 중요한지 곰곰히 생각해 보아야 할 문제이다. 간단히 말해 입자 또는 소립자 연구의 역사를 돌이켜 보면 줄줄이 사탕 꿰듯이 물질 입자의 근원을 찾아 분류(classification)해 나가는 과정이란 점에서 머신러닝의 classification 과 연관성이 무척 높아 보인다. 이 입자는 전자, 양성자, 저 입자는 중성미자 .... 그와 같은 입자를 분류해 냄에 있어서 볼츠만 방법처럼 고전 물리학으로는 전혀 안되고 오로지 확률분포함수를 찾아내는 것이 핵심과정이었을 가능성이 높다. 머신 러닝도 특히 classification을 다루는 영역은 다루는 대상은 물리학과 차이가 있고 좀 다를지 몰라도 어느 정도 궤를 같이하는 것으로 볼 수 있을 것이다.

볼츠만 분포는 머신 러닝 softmax에서 직접 사용이 이루어지기 떄문에 유도 과정을 검토하였으나 Bose-einstein 분포와 Fermi-Dirac분포는 그 함수 모양이 neural network에서 자주 사용하는 sigmoid 함수와 유사하기는 하지만 아직 응용의 필요성을 모르는 단계이기 때문에 유도과정은 유보해 두기로 한다.

Coin Marketplace

STEEM 0.27
TRX 0.11
JST 0.030
BTC 69262.56
ETH 3778.41
USDT 1.00
SBD 3.51