Шингл (от англ. shingle — ячейка, кирпичик) — это фрагмент канонизированного текста, состоящий из заданного количества слов (обычно от 3 до 8).
Канонизированным называется текст, в котором удалены все слова, не несущие смысловой нагрузки: союзы, предлоги, знаки препинания и другие нетекстовые фрагменты.
Для чего используется шингл?
Шинглы нужны поисковым системам, чтобы определять уникальность контента сайтов. Сайты с высокой уникальностью материалов ранжируются выше.
Как составляется шингл?
Канонизация «облегчает» текст. Например, возьмем вот такую фразу:
«Москва — столица России, многонациональный город на Москве-реке в западной части страны».
После канонизации она будет выглядеть так:
москва столица россии многонациональный город москве реке западной части страны
После канонизации алгоритм шинглов сравнивает фрагменты текстов и определяет, насколько они похожи друг на друга.