Text Mining
-
텍스트마이닝_LDA란 무엇일까?Text Mining 2019. 12. 18. 18:20
LDA (Latent Dirichlet Allocation)를 그대로 해석해보자면, 잠재, 디리클레, 책정이다. 디리클레는 디리클레 분포에서 따온 말이다. 디리클레 분포는 뒤에서 자세히 설명하도록 하겠다. 그럼 어떤 목적에서 쓰이는 것일까? : 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지에 대한 확률 모형이다. 또한, 토픽별 단의 분포, 문서별 토픽의 분포를 모두 추정한다. 위 그림을 보면 색깔별로 토픽이 나눠져 있다. 노란색 토픽 안에 gene, dna, genetic 등이 있으니까 유전과 관련된 토픽이라고 볼 수 있다. 초록색은 뇌와 관련된 토픽일 것이다. 그리고 단어별로 값이 쓰여져 있는데 이 값들은 토픽에서 등장할 확률을 나타낸다. 그리고 Documents를 살펴보면 확실히 노란색으로..
-
텍스트마이닝_GloVeText Mining 2019. 12. 18. 15:11
GloVe GloVe에 대해 알아보기 전에 GloVe보다 더 상위의 개념인 Embedding에 대해서 알아보고자 한다. Embedding이란 말은 어디서 온 것일까? Embed의 뜻은 끼워 넣다. 박아 넣다. 이런 뜻이다. 벡터의 공간 안에 단어를 벡터로 변환시켜 끼워 넣는 다라고 생각하면 될 것이다. 수학적으로 표현하자면 X라는 공간의 데이터에서 원하는 정보를 잘 저장하여, Y라는 새로운 공간으로 보내는 과정이다. 그런데 X라는 공간의 데이터들은 각 단어별로 높은 차원을 이루고 있다. Y라는 새로운 공간으로 보낼 때는 차원을 축소하게 된다. 차원축소, Dimensionality Reduction는 크게 1) Freature subset selection과 2) Feature extraction으로 나눌..
-
텍스트마이닝_Word2Vec, Doc2VecText Mining 2019. 12. 17. 14:10
Word2Vec Word2Vec에 대해서 알아본다. 이 포스팅은 이영훈 교수님의 비정형데이터분석 수업을 토대로 정리한 글이다. What is Word2Vec? : '단어를 벡터로'라고 해석 할 수 있다. 그리고 텍스트마이닝에서의 정의는 Soft Regression을 사용하여 각 단어의 벡터를 학습시키는 Classifier라고 할 수 있다. 어떤 공식을 사용하여 벡터들을 분류시키고 우리가 원하는 결과를 도출시키는 것이다. Word2Vec은 총 두가지의 분류법이 있다. 1. CBOW : Continuous Bag of Words, 주변 단어들의 벡터를 가지고 빈칸에 있는 단어의 벡터를 도출시키는 방법 2. Skip-Gram : 중심 단어의 벡터를 가지고 주변 단어들의 벡터를 예측하는 법 Word2Vec에서는..
-
텍스트마이닝_pLSA란 무엇일까?Text Mining 2019. 11. 21. 13:42
pLSA pLSA는 probabilistic Latent Semantic Analysis의 준말이다. 그냥 딱 보면 LSA에 확률을 적용시킨 모델 같아 보인다. 그러나 pLSA는 LSA와는 연관이 없다. 아예 다른 algorithm이라 보면 된다. pLSA는 단어와 문서 사이를 잇는, 우리 눈에 보이지 않는 잠재구조가 있다는 가정 하에 단어와 문서 출현 확률을 모델링한 확률모형이다. 위 그림에서 d는 Document를 의미하고 z는 특정 주제,토픽(Latent Concepts)을 의미한다. w는 특정 단어를 의미한다. P(z|d)는 문서에서 특정 토픽이 나타날 확률이고, P(w|z)는 특정 토픽에서 특정 단어가 나타날 확률이다. Documents에서 위에서 네번째 문서는 TRADE라는 특정 토픽으로 나타..
-
텍스트마이닝_LSA란 무엇일까?Text Mining 2019. 11. 20. 21:49
LSA LSA는 Latent Semantic Analysis의 준말이다. 한글로 그대로 번역하면 잠재, 의미, 분석이다. 잠재되어 있는 의미를 찾아내 분석한다는 말인 것 같다. 잠재되어 있는 의미를 찾기 위해 LSA는 SVD를 사용한다. SVD는 따로 설명하지 않으므로 SVD 포스트를 먼저 읽고 이 글을 읽는 것이 좋을 것이다. SVD를 하게 되면 Singular Values가 생긴다. 이 특이 값의 크기에 따라 원래 행렬의 정보량이 결정된다. 그래서 값이 큰 몇 개의 특이 값들을 가지고도 유용한 정보를 만들 수 있다. 위 그림을 보면, A행렬은 n개의 행과 d개의 열이 있다. n은 단어들을 나타내고 d는 문서를 나타낸다. A행렬은 각 d_n문서에서 n개의 단어들의 빈도를 나타낸다고 볼 수 있다. A행렬..
-
텍스트마이닝_TF-IDF란 무엇일까?Text Mining 2019. 11. 20. 17:08
TF_IDF TF는 Term Frequency의 준말이다. 어떤 단어가 특정 문서에 얼마나 많이 쓰였는지를 말한다. 우리가 어떤 문서를 볼 때 많이 등장하는 단어는 자연스레 중요하다고 생각한다. 텍스트 마이닝에서 TF는 아주 기초적으로 단어에 대한 가중치를 할당하는 방법이다. BOW(Bag Of Words)란 무엇일까? TF의 개념과도 비슷한데 단순히 문서 안에서 단어가 존재하는지에 대한 여부를 binary value로 부여하는 것을 의미한다. 그리고 개수를 세는 것이다. 예를 들어, I have a pen, I have a apple pen. 이란 문장이 있으면 I : 2, have : 2, a : 2, apple : 1, pen : 2 이렇게 표현 할 수 있다. 그렇다면 IDF는 무엇일까? IDF는 ..