TF-IDF(文本相关性)

名词解释

TF-IDF(Term frequency–Inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。TF-IDF 是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

LeanCloud 解读

“词频”(Term Frequency), 简写为TF,用来表示搜索关键词在文档中出现的次数,TF越大,通常相关性越高。

“逆文档频率指数”(Inverse Dcument Frequency),简写为 IDF,意为关键词在文档中出现的频率,如果一个关键词在很多的文本中出现,那么它的 IDF 值就低。而反过来如果关键词在比较少的文档中出现,那么它的 IDF 值就高。

词频(TF)与逆文档频率(IDF)相乘,就能得到一个词的 TF-IDF 值。某个词在文章中的 TF-IDF 越大,那么一般而言这个词在这篇文章的重要性会越高,所以通过计算文章中各个词的 TF-IDF,由大到小排序,排在最前面的几个词,就是该文章的关键词。

关键词云图

参考链接:

机器学习:生动理解TF-IDF算法

评论

正在加载评论