Наверх
Open Nav
/
/
Масштабная утечка внутренних документов Google: что стало известно о работе алгоритма ранжирования
В тренде

Масштабная утечка внутренних документов Google: что стало известно о работе алгоритма ранжирования

29.05.2024 Время прочтения: 3 минуты

Дата обновления: 29.05.2024

Тысячи внутренних документов Google, раскрывающих работу алгоритма поисковой выдачи, попали в открытый доступ. В этих документах содержится более 2500 страниц документации API с описанием 14 014 атрибутов – функций API, которые используются во внутреннем Content API Архива Google.

Вот так они выглядят:

Утечка внутренних документов Google атрибуты api Google

Что произошло?

13 марта 2024 года бот yoshi-code-bot выложил на Github тысячи документов, предположительно из внутренней Content API Warehouse Google. Эти документы ранее были переданы сооснователю SparkToro Рэнду Фишкину, известному специалисту в области SEO и маркетинга. 

Судя по истории коммитов, код был загружен на GitHub 27 марта 2024 года и удален только 7 мая 2024 года. За это время конфиденциальные инсайды успели распространиться в SEO-сообществе.

Можно ли считать эти документы подлинными?

По мнению экспертов, есть веские основания считать утекшие документы подлинными:

  • Во-первых, многие детали из документов совпадают со свидетельскими показаниями, прозвучавшими в ходе недавнего антимонопольного расследования против Google. Это указывает на то, что информация отражает реальное внутреннее устройство поисковых алгоритмов компании.
  • Во-вторых, описанные в документах системы и сигналы согласуются с общими представлениями о принципах работы современных поисковых систем, основанных на машинном обучении. Упоминаются концепции, типичные для подобных разработок: векторные представления контента, оценка оригинальности текстов, сбор поведенческих данных и так далее.
  • В-третьих, уровень технических деталей и специализированной терминологии в утечке настолько высок, что маловероятно, чтобы подобные материалы могли быть сфабрикованы посторонним лицом.

Разумеется, окончательно подтвердить или опровергнуть это сможет только сама компания Google.

Что внутри?

Эксперты, Рэнд Фишкин, соучредитель SparkToro, и Майкл Кинг, CEO iPullRank, проанализировали утечку и выяснили следующее:

  1. SiteAuthority. У Google действительно существует общий авторитет домена, функция под названием «siteAuthority». Точные методы расчета этого авторитета неизвестны.

  2. NavBoost и кликовые сигналы. В NavBoost есть модуль, полностью ориентированный на сигналы кликов. Система учитывает поведенческие факторы badClicks и goodClicks, для корректировки ранжирования.

  3. Песочница (Sandbox). Атрибут hostAge в модуле PerDocData используется для сортировки страниц, что подтверждает наличие песочницы для изоляции свежего спама.

  4. Данные из Chrome. Два модуля используют данные из браузера Chrome. Один из них измеряет просмотры на уровне сайта, а другой учитывает сгенерированные дополнительные ссылки.

  5. История изменений страниц. Google хранит копии всех версий каждой проиндексированной страницы, но для анализа ссылок учитываются только последние 20 изменений URL.

  6. Индексация и ранжирование. Используются сложные системы индексации и ранжирования:

    • Траулер — система сканирования.
    • Александрия — основная система индексации.
    • SegIndexer — система уровней индекса.
    • TeraGoogle — вторичная система индексирования.
    • Mustang — основная система ранжирования.
    • Ascorer — основной алгоритм ранжирования.
  7. Авторство контента. Google определяет авторов контента и связанные с документом сущности, что влияет на ранжирование.

  8. Контент и ссылки. Релевантность и разнообразие ссылок на сайт остаются важными сигналами. PageRank домашней страницы влияет на ранжирование всех документов с этого сайта.

  9. Понижения в ранжировании. Контент может быть понижен в выдаче по нескольким причинам:

    • Несоответствие ссылки и целевого сайта — понижение при нерелевантных исходящих ссылках.
    • Понижение по сигналам результатов поиска — вероятно, связано с признаками неудовлетворенности пользователей, например, быстрым возвратом с сайта.
    • Понижение за плохую навигацию и юзабилити.
    • Понижение доменов с точным соответствием запросу.
    • Понижение низкокачественных обзоров продуктов.
    • Понижение «глобальных» страниц, не привязанных к локации, для локальных запросов.
    • Понижение контента 18+ в обычной выдаче.
  10. Белые списки. Существуют белые списки для таких тем: выборы, COVID-19 и личные блоги. На них не распространяются некоторые алгоритмы.

  11. Шаблоны намерений пользователей. Google использует шаблоны намерений пользователей, такие как повторные поиски и клики, для корректировки ранжирования.

  12. Платформа EWOK. Google использует платформу оценки качества, на которой оценку сайтам дают люди. Эти оценки могут напрямую влиять на ранжирование.

Более детально — в обзоре Майка Кинга и в статье Рэнда Фишкина.

Реакция Google

На момент публикации этой новости Google не дал официального комментария по поводу утечки. Ожидаем, что компания усилит охрану своих внутренних данных и, возможно, внесет изменения в алгоритмы, чтобы сократить последствия утечки. 

А пока SEO-специалисты могут сравнить свои знания и гипотезы с информацией из утечек и начать использовать эти данные в своей работе.

Ранее Google подтверждил, что в 2024 году уже ссылки не так важны.

Давно читаете нас, но до сих пор заходите в новостной раздел, чтобы проверить новые материалы? Не напрягайтесь, подпишитесь на наш Телеграм-канал и получайте уведомления о SEO-новостях и полезных статьях в день их выхода.

Пусть другие тоже знают!

Еще на эту тему

Google: не публикуйте лишний текст на страницах коммерческих сайтов
Google: не публикуйте лишний текст на страницах коммерческих сайтов
Search Engine Journal рассказывает о Твиттер-дискуссии заруб...
22.03.2019 2301
В Турбо-страницах интернет-магазинов стали доступны списки товаров
В Турбо-страницах интернет-магазинов стали доступны списки товаров
Команда Яндекса рассказала о расширении функциональности Тур...
02.12.2019 3048
Страницы 404 не индексируются Google
Страницы 404 не индексируются Google
Во время онлайн-конференции для вебмастеров Джон Мюллер, пре...
27.02.2017 4219

Другие интересные статьи

Оставить заявку Оставить заявку