Наверх

TF-IDF

20.10.2020

TF-IDF (от англ. term frequency и inverse document frequency — частота слова и обратная частота документа) — это показатель, который используется для оценки важности слова в документе.

TF (частота слов) характеризует отношение числа вхождений конкретного слова к общему набору слов в документе. Чем выше TF, тем весомее конкретное слово в рамках документа.

IDF (обратная частота документа) характеризует инверсию частотности, с которой конкретное слово используется в тексте. С помощью этой метрики можно снизить важность слов — например, союзов или предлогов.

Где используется TF-IDF?

Метрика TF-IDF используется в алгоритмах поисковых систем для проверки текстов. В частности, данный показатель включен в алгоритм проверки релевантности контента пользовательскому поисковому запросу.

Также этот параметр применяется для определения степени сходства нескольких документов.


Еще на эту тему

Статьи из нашего блога

Пусть другие тоже знают!


Оставить заявку Оставить заявку