텍스트마이닝_TF-IDF란 무엇일까?

Text Mining 2019. 11. 20. 17:08

TF_IDF

TF는 Term Frequency의 준말이다. 어떤 단어가 특정 문서에 얼마나 많이 쓰였는지를 말한다. 우리가 어떤 문서를 볼 때 많이 등장하는 단어는 자연스레 중요하다고 생각한다. 텍스트 마이닝에서 TF는 아주 기초적으로 단어에 대한 가중치를 할당하는 방법이다.

BOW(Bag Of Words)란 무엇일까?

TF의 개념과도 비슷한데 단순히 문서 안에서 단어가 존재하는지에 대한 여부를 binary value로 부여하는 것을 의미한다. 그리고 개수를 세는 것이다. 예를 들어, I have a pen, I have a apple pen. 이란 문장이 있으면 I : 2, have : 2, a : 2, apple : 1, pen : 2 이렇게 표현 할 수 있다.

그렇다면 IDF는 무엇일까? IDF는 Inverse Document Frequency의 준말이다. DF가 특정 단어가 문서에 등장한 횟수인데, 전체 단어수를 해당 단어의 DF로 나누고 로그를 취한 값이 IDF가 된다.

$$ \log(\frac{전체 단어 수}{특정 단어의 DF}) $$

TF-IDF는 TF와 IDF를 곱해주면 된다.

$$ TF-IDF(w)=tf(w)*\log(\frac{N}{df(w)}) $$

그래서 TF-IDF값이 높다는 의미는 다른 문서에 많지 않고 해당 문서에 자주 등장한다는 것이다.

* 이 글은 이기창님의 ratsgo 블로그와 서울 과기대 이영훈 교수님의 수업을 참고했음을 밝힙니다.

저작자표시

'Text Mining' 카테고리의 다른 글

텍스트마이닝_LDA란 무엇일까? (0)	2019.12.18
텍스트마이닝_GloVe (0)	2019.12.18
텍스트마이닝_Word2Vec, Doc2Vec (0)	2019.12.17
텍스트마이닝_pLSA란 무엇일까? (0)	2019.11.21
텍스트마이닝_LSA란 무엇일까? (2)	2019.11.20

ABOUT ME

Insighting Data Insighting Data

TF_IDF

'Text Mining' 카테고리의 다른 글

티스토리툴바

ABOUT ME

TF_IDF

'Text Mining' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바