TF-IDF (от англ. term frequency и inverse document frequency — частота слова и обратная частота документа) — это показатель, который используется для оценки важности слова в документе.
TF (частота слов) характеризует отношение числа вхождений конкретного слова к общему набору слов в документе. Чем выше TF, тем весомее конкретное слово в рамках документа.
IDF (обратная частота документа) характеризует инверсию частотности, с которой конкретное слово используется в тексте. С помощью этой метрики можно снизить важность слов — например, союзов или предлогов.
Где используется TF-IDF?
Метрика TF-IDF используется в алгоритмах поисковых систем для проверки текстов. В частности, данный показатель включен в алгоритм проверки релевантности контента пользовательскому поисковому запросу.
Также этот параметр применяется для определения степени сходства нескольких документов.