[Python] Mediteam.us 개발 - 관련글 찾기 (TF-IDF, konlpy)

junn (61)in #kr • 8 years ago

이번 작업은 '관련있는 글 찾기'에 대한 테마로 진행하였다.
머신러닝과는 직접적인 관련이 없지만, Vector화에 대한 개념을 잡기위해서는 좋은 시작점일 듯 해서 시도해보았다.

내가 컴퓨터공학도가 아닌이상 알고리즘에 대해 깊숙하게 들어갈 필요는 없다고 보았고, 또한 word2vec, doc2vec 등의 이미 알려진 라이브러리를 바로 사용하기 전에 개념을 파악해보기 위한 목적 이었다.

역시 이 글을 남기는 것은 추후에 내가 다시 보기 위함이 크다.
아직 소스가 완전하지 않기 때문에 완성된 버전은, 이 시스템을 서버로 이식하는 과정과 함께 다음편에 github에 올려놓으려고 한다.

관련글을 검색한다는 것은 즉 문서간의 유사도를 검색하는 방법이다. 가장 관련있는 글 5개라면 당연히 가장 유사한 글 5개를 찾는 것과 같은 이야기이다.

두 글의 유사성을 찾기 위한 알고리즘은 다양한 것 같았다, 검색해보니 가장 기초적인 작업이 TF-IDF 및 Cosine similarity라는 것이 있다.

TF: Term frequency - 한 문서에서 어떤 단어나 나온 횟수 / 전체 단어의 수
그 문서에서의 그 단어가 얼마나 중요한지에 대한 지표로 쓸 수 있다.

IDF: Inverse Document Frequency - Document frequency는 어떤 단어가 나온 문서의 수 / 총 문서의 수다. 이를 역으로 취해서 log를 씌워버리면 IDF가 된다.

그럼 어떤 문서의 벡터값은 TF * IDF로 구해지게 된다.

무슨이야기 인지 예를 들어보면 다음과 같다. (약간 과장된 예시다)

나는 사과가 좋아한다.
나는 배가 좋아한다.
그는 컴퓨터가 좋아한다. 너무 좋아한다. 진짜 좋아한다.
그는 사과를 좋아하지 않는다.

위 4개의 문장에서 '좋아한다'라는 단어는 모든 문장에 한번 등장한다. 따라서 어떤 문장에 좋아한다가 3번 등장한다 하더라도, 문서의 특성을 구분짓는 역할은 하지 못할 것이다.
따라서 '좋아한다' 라는 단어가 나온 문장은 총 4개, 그러나 전체 문장은 4개이기 때문에 log값을 구하면 0이 나온다. 즉 TF값이 높아도 '좋아한다'라는 벡터 성분의 값은 0이 된다. => "문서의 특성을 구분짓지 못한다"
그래서 TF*IDF를 계산해주는 것이다.

문장 '벡터'는 예를 들면 아래와 같다.(예를 들자면)
문장1 {나:0.01},{그:0.0},{사과:0.01},{배:0.0},{컴퓨터:0.0},{좋아한다:0.0}

문장1에 등장하지 않았던 단어들도 일단 벡터를 구성하는 요소가 될 수 있다. (물론 코딩할때 꼭 들어갈 필요는 없다. 다만 numpy를 통해 행렬 계산을 용이하게 하기 위해선 필요할 수 있다)

이제 이렇게 백터를 구해놓은 여러개의 문서들을 서로 Cosine similarity를 통해 구한다.

벡터의 내적과 같다. TF-IDF를 통해 구한 벡터의 요소들은 모두 양수이기 때문에, 2차원으로 가정한다면 모두 1사분면에만 존재하는 값들이다. 따라서 90도 이상으로 벌어지지 않는 것이고, 90도라면 similarity는 0이 나오게 된다. 0도라면 1이 나올 것이고. 즉, 문서를 벡터화 시키고, 그 벡터들의 위치관계를 파악함으로써 유사성을 파악하게 된다.

이론을 말로 풀으려니 조금 복잡하다.

아무튼 그래서 나는 다음과 같은 라이브러리를 사용했다.

한글 문서 Tokenization : konlpy (http://konlpy-ko.readthedocs.io/ko/v0.4.3/) 의 Twitter Class 를 사용했고, 단어 중 명사(noun) 만 빼내었다. 그냥 모든 성분 분석을 그대로 사용해버리면 아래와 같은 단어들도 포함된다.