ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 텍스트마이닝_pLSA란 무엇일까?
    Text Mining 2019. 11. 21. 13:42

    pLSA

     

    pLSA는 probabilistic Latent Semantic Analysis의 준말이다. 그냥 딱 보면 LSA에 확률을 적용시킨 모델 같아 보인다. 그러나 pLSA는 LSA와는 연관이 없다. 아예 다른 algorithm이라 보면 된다.

    •  pLSA는 단어와 문서 사이를 잇는, 우리 눈에 보이지 않는 잠재구조가 있다는 가정 하에 단어와 문서 출현 확률을 모델링한 확률모형이다.

     

     

    위 그림에서 d는 Document를 의미하고 z는 특정 주제,토픽(Latent Concepts)을 의미한다. w는 특정 단어를 의미한다.

    P(z|d)는 문서에서 특정 토픽이 나타날 확률이고, P(w|z)는 특정 토픽에서 특정 단어가 나타날 확률이다.

     

    Documents에서 위에서 네번째 문서는 TRADE라는 특정 토픽으로 나타낼 수 있고 economic, imports, trade라는 Terms들을 도출하게 된다.

     

     

     

    위 그림에서 (a)처럼 순서대로 문서를 뽑고 -> 토픽을 뽑고 -> 단어를 뽑을 수 있다.

    그런데 pLSA방식은 토픽을 뽑은 다음에 이 토픽에 해당하는 문서와 단어를 뽑는 형식을 따른다.

     

     

     

     

    LSA와 pLSA의 비교

    LSA와 pLSA는 다른 모델이지만 비슷한 부분이 있다.

     

     

    LSA가 SVD를 사용해 행렬을 분해하는 개념이 pLSA에서도 사용되는데, U_k부분이 P(d|z)로 보면 되고 V_k^T부분이 P(w|z)을 나타낸다. 그리고 시그마k의 대각성분이 P(z)에 대응된다고 보면 된다.

     

     

     

     

    pLSA의 목적식과 학습방법

    목적식은 우도함수를 최대하는 것을 목표로 한다.

     

    학습방법은 EM 알고리즘이다. 우도함수를 최대하는 방법 중 하나이다.

     

     

     

     

     

     

    * 이 글은 이기창님의 ratsgo 블로그와 서울 과기대 이영훈 교수님의 수업을 참고했음을 밝힙니다.

    댓글

Designed by Tistory.