TF(단어 빈도)는 특정 문장에서 해당 단어가 몇 번 등장하는지를 나타냅니다.
값이 클수록 해당 문장에서 자주 사용된 단어입니다.
DF(문장 빈도)는 해당 단어가 전체 문장 중 몇 개의 문장에 등장하는지를 나타냅니다.
모든 문장에 등장하는 단어는 DF가 높고, 특정 문장에만 있는 단어는 DF가 낮습니다.
IDF(역문장 빈도)는 DF의 역수 개념으로, 희귀한 단어일수록 값이 커집니다.
많은 문장에 등장하는 흔한 단어는 IDF가 낮고, 특정 문장에만 있는 단어는 IDF가 높습니다.
TF-IDF는 TF와 IDF를 곱한 값입니다.
특정 문장에서 자주 등장하면서(TF 높음) 다른 문장에는 잘 없는(IDF 높음) 단어가 높은 값을 갖습니다.
이런 단어가 해당 문장을 대표하는 핵심 키워드입니다.
TF 기반 핵심어