Новости трендов

Как повысить оптимизацию сканирования

Не гарантируется, что робот Googlebot просканирует все доступные URL на вашем сайте. Наоборот, на подавляющем большинстве сайтов отсутствует значительная часть страниц.

Реальность такова, что у Google нет ресурсов для сканирования каждой найденной страницы. Все URL-адреса, обнаруженные роботом Googlebot, но еще не просканированные, а также URL-адреса, которые он намерен повторно просканировать, имеют приоритет в очереди сканирования.

Это означает, что робот Googlebot сканирует только те из них, которым присвоен достаточно высокий приоритет. А поскольку очередь сканирования является динамической, она постоянно меняется по мере того, как Google обрабатывает новые URL-адреса. И не все URL-адреса присоединяются в конце очереди.

Так как же убедиться, что URL-адреса вашего сайта являются VIP-адресами, и не попасть в очередь?

Сканирование критически важно для SEO

Контент не может быть отобран Google без сканирования.

Чтобы контент стал видимым, робот Googlebot должен сначала его просканировать.

Но преимущества более тонкие, потому что чем быстрее сканируется страница, когда она:



  • Создан , тем скорее новый контент появится в Google. Это особенно важно для стратегий с ограниченным по времени контентом или контентом, выходящим первым на рынок.
  • Обновлено , тем раньше обновленный контент может начать влиять на рейтинг. Это особенно важно как для стратегии повторной публикации контента, так и для технической тактики SEO.

Таким образом, сканирование необходимо для всего вашего органического трафика. Однако слишком часто говорят, что оптимизация сканирования выгодна только для крупных веб-сайтов.

Но дело не в размере вашего веб-сайта, частоте обновления контента или наличии исключений «Обнаружено — в настоящее время не проиндексировано» в Google Search Console.

Оптимизация сканирования полезна для каждого веб-сайта. Неправильное представление о его ценности, кажется, вызвано бессмысленными измерениями, особенно краулинговым бюджетом.

Бюджет сканирования не имеет значения

Оптимизация краулингового бюджета для максимизации количества просканированных URL-адресов является ошибочной.

Слишком часто сканирование оценивается на основе краулингового бюджета. Это количество URL-адресов, которые робот Googlebot просканирует за определенное время на определенном веб-сайте.

Google говорит, что это определяется двумя факторами:

  • Ограничение скорости сканирования (или то, что робот Googlebot может сканировать): скорость, с которой робот Googlebot может получать ресурсы веб-сайта, не влияя на производительность сайта. По сути, отзывчивый сервер приводит к более высокой скорости сканирования.
  • Спрос на сканирование (или то, что робот Googlebot хочет сканировать): количество URL-адресов, которые робот Googlebot посещает во время одного сканирования, исходя из потребности в (повторной) индексации, на которую влияет популярность и устаревшее содержание сайта.

Как только робот Googlebot «исчерпает» свой краулинговый бюджет, он перестает сканировать сайт.

Google не предоставляет данные о краулинговом бюджете. Ближе всего к этому можно показать общее количество запросов на сканирование в отчете о статистике сканирования Google Search Console.

Так много SEO-специалистов, в том числе и я в прошлом, приложили огромные усилия, чтобы попытаться вывести краулинговый бюджет.

Часто представляемые шаги выглядят примерно так:

  • Определите, сколько сканируемых страниц у вас есть на вашем сайте, часто рекомендуя просмотреть количество URL-адресов в карте сайта XML или запустить неограниченный поисковый робот.
  • Рассчитайте среднее количество сканирований в день, экспортировав отчет о статистике сканирования Google Search Console или на основе запросов Googlebot в файлах журналов.
  • Разделите количество страниц на среднее количество сканирований в день. Часто говорят, что если результат выше 10, сосредоточьтесь на оптимизации краулингового бюджета.

Однако этот процесс проблематичен.

Не только потому, что предполагается, что каждый URL-адрес сканируется один раз, хотя на самом деле некоторые из них сканируются несколько раз, а другие — нет.

Не только потому, что предполагается, что один обход равен одной странице. Когда на самом деле одной странице может потребоваться много обходов URL-адресов для получения ресурсов (JS, CSS и т. д.), необходимых для ее загрузки.

Но самое главное, потому что, когда он сводится к вычисляемой метрике, такой как среднее число сканирований в день, краулинговый бюджет оказывается ничем иным, как тщеславной метрикой.

Любая тактика, направленная на «оптимизацию краулингового бюджета» (т. е. постоянное увеличение общего объема краулинга), — дурацкая затея.

Почему вы должны заботиться об увеличении общего числа сканирований, если оно используется для URL-адресов, не имеющих значения, или страниц, которые не изменились с момента последнего сканирования? Такие обходы не помогут производительности SEO.

Кроме того, любой, кто когда-либо просматривал статистику сканирования, знает, что она колеблется, часто довольно сильно, изо дня в день в зависимости от множества факторов. Эти колебания могут коррелировать или не коррелировать с быстрой (пере)индексацией релевантных для SEO страниц.

Увеличение или уменьшение количества просканированных URL-адресов по своей сути не является ни хорошим, ни плохим.

Эффективность сканирования — это SEO KPI

Crawl efficacy optimization to minimize the time between URL (re)publication and crawling is actionable.

Для страниц, которые вы хотите проиндексировать, внимание должно быть сосредоточено не на том, была ли она просканирована, а на том, как быстро она была просканирована после публикации или значительного изменения.

По сути, цель состоит в том, чтобы свести к минимуму время между созданием или обновлением релевантной для SEO страницы и следующим сканированием Googlebot. Я называю эту временную задержку эффективностью сканирования.

Идеальный способ измерить эффективность сканирования — вычислить разницу между датой и временем создания или обновления базы данных и следующим сканированием URL-адреса роботом Googlebot из файлов журнала сервера.

Если сложно получить доступ к этим точкам данных, вы также можете использовать в качестве прокси-сервера дату последнего изменения XML-карты сайта и URL-адреса запроса в API проверки URL-адресов Google Search Console для его последнего статуса сканирования (до 2000 запросов в день).

Кроме того, с помощью API проверки URL-адресов вы также можете отслеживать, когда изменяется статус индексации, чтобы рассчитать эффективность индексации для вновь созданных URL-адресов, которая представляет собой разницу между публикацией и успешным индексированием.

Потому что сканирование без влияния на статус индексации или обработки обновления содержимого страницы — это пустая трата времени.

Эффективность сканирования — важный показатель, потому что по мере его снижения ваша аудитория может увидеть больше важного для SEO контента в Google.

Вы также можете использовать его для диагностики проблем SEO. Детализируйте шаблоны URL-адресов, чтобы понять, насколько быстро сканируется контент из различных разделов вашего сайта и сдерживает ли это органическую производительность.

Если вы видите, что роботу Googlebot требуется несколько часов, дней или недель, чтобы просканировать и таким образом проиндексировать ваш недавно созданный или недавно обновленный контент, что вы можете с этим поделать?

7 шагов для оптимизации сканирования

Оптимизация сканирования заключается в том, чтобы помочь роботу Googlebot быстро сканировать важные URL-адреса, когда они (повторно) публикуются. Выполните семь шагов ниже.

1. Обеспечьте быстрый и правильный ответ сервера

ответ

Высокопроизводительный сервер имеет решающее значение. Googlebot замедлит или перестанет сканировать, когда:

  • Сканирование вашего сайта влияет на производительность. Например, чем больше они сканируют, тем медленнее время отклика сервера.
  • Сервер отвечает заметным количеством ошибок или тайм-аутов соединения.

С другой стороны, повышение скорости загрузки страниц, позволяющее обслуживать больше страниц, может привести к тому, что робот Googlebot просканирует больше URL-адресов за то же время. Это дополнительное преимущество, помимо скорости страницы, является фактором пользовательского опыта и ранжирования.

Если вы еще этого не сделали, рассмотрите возможность поддержки HTTP/2, так как это позволяет запрашивать больше URL-адресов с аналогичной нагрузкой на серверы.

Однако корреляция между производительностью и объемом обхода невелика . Как только вы преодолеете этот порог, который варьируется от сайта к сайту, любое дополнительное повышение производительности сервера вряд ли будет коррелировать с увеличением скорости сканирования.

Как проверить работоспособность сервера

Отчет статистики сканирования Google Search Console:

  • Состояние хоста: Показывает зеленые галочки.
  • Ошибки 5xx: составляют менее 1%.
  • График времени отклика сервера: тенденция ниже 300 миллисекунд.

2. Очистите малоценный контент

Если значительный объем контента сайта устарел, дублируется или имеет низкое качество, это вызывает конкуренцию за активность сканирования, что может привести к задержке индексации свежего контента или повторного индексирования обновленного контента.

Добавьте к этому, что регулярная очистка малоценного контента также уменьшает раздувание индекса и каннибализацию ключевых слов, и это полезно для пользователей, это не составляет труда для SEO.

Слияние контента с переадресацией 301, когда у вас есть другая страница, которую можно рассматривать как явную замену; понимание этого будет стоить вам двойного сканирования для обработки, но это достойная жертва ради ссылочного веса.

Если нет эквивалентного контента, использование 301 приведет только к мягкому 404. Удалите такой контент, используя код состояния 410 (лучший) или 404 (ближайший второй), чтобы дать сильный сигнал не сканировать URL-адрес снова.

Как проверить малоценный контент

Количество URL-адресов на страницах Google Search Console сообщает об исключениях «просканировано — в настоящее время не проиндексировано». Если это высокое значение, просмотрите предоставленные образцы шаблонов папок или других индикаторов проблем.

3. Просмотрите элементы управления индексацией

Ссылки Rel=canonical — это хороший совет, чтобы избежать проблем с индексацией, но на них часто чрезмерно полагаются, и в конечном итоге они вызывают проблемы со сканированием, поскольку каждый канонический URL-адрес требует как минимум двух сканирований, одного для себя и одного для своего партнера.

Точно так же директивы noindex для роботов полезны для уменьшения раздувания индекса, но большое количество может негативно сказаться на сканировании, поэтому используйте их только при необходимости.

В обоих случаях спросите себя:

  • Являются ли эти директивы по индексации оптимальным способом решения проблемы SEO?
  • Можно ли объединить, удалить или заблокировать некоторые URL-маршруты в файле robots.txt?

Если вы его используете, серьезно пересмотрите AMP как долгосрочное техническое решение.

Благодаря обновлению интерфейса страницы, ориентированному на основные веб-жизненные показатели, и включению страниц без AMP во все возможности Google, если вы соответствуете требованиям скорости сайта, внимательно посмотрите, стоит ли AMP двойного сканирования.

Как проверить чрезмерную зависимость от элементов управления индексацией

Количество URL-адресов в отчете о покрытии Google Search Console, попавших в категорию исключений без явной причины:

  • Альтернативная страница с правильным каноническим тегом.
  • Исключено тегом noindex.
  • Дубликат, Google выбрал другой канонический, чем пользователь.
  • Повторяющийся отправленный URL не выбран в качестве канонического.

4. Сообщите поисковым роботам, что и когда сканировать

Важным инструментом, помогающим роботу Googlebot определять приоритеты важных URL-адресов сайтов и сообщать об обновлении таких страниц, является карта сайта в формате XML.

Для эффективного управления поисковым роботом убедитесь, что:

  • Включайте только те URL-адреса, которые являются одновременно индексируемыми и ценными для SEO — как правило, код состояния 200, канонические страницы с оригинальным контентом с тегом роботов «индексируйте, следите», для которых вы заботитесь об их видимости в поисковой выдаче.
  • Включите точные теги временной метки <lastmod> в отдельные URL-адреса и саму карту сайта как можно ближе к реальному времени.

Google не проверяет карту сайта каждый раз, когда сайт сканируется. Поэтому всякий раз, когда он обновляется, лучше всего сообщить об этом Google. Для этого отправьте запрос GET в браузере или в командной строке по адресу:

Как пропинговать Google после обновления карты сайта

Дополнительно укажите пути к карте сайта в файле robots.txt и отправьте его в Google Search Console с помощью отчета по картам сайта.

Как правило, Google сканирует URL-адреса в картах сайта чаще, чем другие. Но даже если небольшой процент URL-адресов в вашей карте сайта имеет низкое качество, это может отговорить робота Googlebot использовать его для предложений по сканированию.

XML-карты сайта и ссылки добавляют URL-адреса в обычную очередь сканирования. Существует также очередь сканирования с приоритетом, для которой существует два метода входа.

Во-первых, для тех, у кого есть объявления о вакансиях или живые видео, вы можете отправить URL-адреса в API индексирования Google.

Или, если вы хотите привлечь внимание Microsoft Bing или Яндекса, вы можете использовать API IndexNow для любого URL-адреса. Однако в моем собственном тестировании это оказало ограниченное влияние на сканирование URL-адресов. Поэтому, если вы используете IndexNow, обязательно отслеживайте эффективность сканирования для Bingbot.

Инструмент

Во-вторых, вы можете вручную запросить индексацию после проверки URL-адреса в Search Console. Хотя имейте в виду, что существует дневная квота в 10 URL-адресов, и сканирование может занять несколько часов. Лучше всего рассматривать это как временное исправление, пока вы копаетесь, чтобы обнаружить корень вашей проблемы со сканированием.

Как проверить важные инструкции по сканированию Googlebot

В Google Search Console ваша XML-карта сайта показывает статус «Успешно» и недавно была прочитана.

5. Скажите поисковым роботам, что не сканировать

Некоторые страницы могут быть важны для пользователей или функциональности сайта, но вы не хотите, чтобы они отображались в результатах поиска. Не позволяйте таким URL-маршрутам отвлекать поисковых роботов с помощью запрета в файле robots.txt. Это может включать:

  • API и CDN . Например, если вы являетесь клиентом Cloudflare, обязательно запретите папку /cdn-cgi/, добавленную на ваш сайт.
  • Неважные изображения, скрипты или файлы стилей , если страницы, загруженные без этих ресурсов, существенно не пострадали от потери.
  • Функциональная страница , например, корзина.
  • Бесконечные пробелы , например созданные страницами календаря.
  • Страницы параметров . Особенно те из фасетной навигации, которые фильтруют (например, ?price-range=20-50), переупорядочивают (например, ?sort=) или выполняют поиск (например, ?q=), так как каждая отдельная комбинация считается сканерами как отдельная страница.

Будьте внимательны, чтобы не полностью заблокировать параметр пагинации. Сканируемая разбивка на страницы до определенного момента часто необходима роботу Googlebot для обнаружения контента и обработки внутренних ссылок.

Параметры URL для отслеживания

И когда дело доходит до отслеживания, вместо использования тегов UTM с параметрами (также известных как «?») используйте якоря (также известные как «#»). Он предлагает те же преимущества отчетности в Google Analytics, но не может быть просканирован.

Как проверить, не сканирует ли робот Googlebot руководство

Просмотрите пример URL-адресов «Проиндексированы, не отправлены в карту сайта» в Google Search Console. Игнорируя первые несколько страниц нумерации страниц, какие еще пути вы найдете? Должны ли они быть включены в карту сайта XML, заблокированы от сканирования или разрешены?

Кроме того, просмотрите список «Обнаружено — в настоящее время не проиндексировано» — блокировка в robots.txt любых URL-адресов, которые не представляют ценности для Google.

Чтобы перейти на следующий уровень, просмотрите все обходы Googlebot смартфонов в файлах журнала сервера на предмет бесполезных путей.

Обратные ссылки на страницу важны для многих аспектов SEO, и сканирование не является исключением. Но получить внешние ссылки для определенных типов страниц может быть непросто. Например, глубокие страницы, такие как продукты, категории на нижних уровнях архитектуры сайта или даже статьи.

С другой стороны, соответствующие внутренние ссылки:

  • Технически масштабируемый.
  • Мощные сигналы для Googlebot, чтобы определить приоритет страницы для сканирования.
  • Особенно эффективно для глубокого сканирования страниц.

Хлебные крошки, блоки связанного контента, быстрые фильтры и использование хорошо подобранных тегов — все это значительно повышает эффективность сканирования. Поскольку это критически важный для SEO контент, убедитесь, что такие внутренние ссылки не зависят от JavaScript, а вместо этого используйте стандартную ссылку <a> для сканирования.

Принимая во внимание, что такие внутренние ссылки также должны иметь реальную ценность для пользователя.

Как проверить релевантные ссылки

Запустите сканирование всего сайта вручную с помощью такого инструмента, как SEO-паук ScreamingFrog, в поисках:

  • Бесхозные URL-адреса.
  • Внутренние ссылки заблокированы robots.txt.
  • Внутренние ссылки на любой код состояния, отличный от 200.
  • Процент неиндексируемых URL-адресов с внутренними ссылками.

7. Аудит оставшихся проблем со сканированием

Если все вышеперечисленные оптимизации завершены, а эффективность сканирования остается неоптимальной, проведите тщательный аудит.

Начните с просмотра образцов любых оставшихся исключений Google Search Console, чтобы выявить проблемы со сканированием.

Как только они будут решены, углубитесь, используя инструмент ручного сканирования, чтобы просканировать все страницы в структуре сайта, как это сделал бы Googlebot. Сопоставьте это с файлами журналов, сузив их до IP-адресов роботов Google, чтобы понять, какие из этих страниц сканируются, а какие нет.

Наконец, запустите анализ файла журнала, сузив его до IP-адреса робота Googlebot, по крайней мере, за четыре недели данных, в идеале — больше.

Если вы не знакомы с форматом файлов журналов, воспользуйтесь инструментом анализа журналов. В конечном счете, это лучший источник информации о том, как Google сканирует ваш сайт.

Когда аудит завершен и у вас есть список выявленных проблем со сканированием, ранжируйте каждую проблему по ожидаемому уровню усилий и влиянию на производительность.

Примечание . Другие эксперты по поисковой оптимизации отмечают, что клики из поисковой выдачи увеличивают сканирование URL-адреса целевой страницы. Тем не менее, я еще не смог подтвердить это тестированием.

Приоритет эффективности сканирования над краулинговым бюджетом

Целью сканирования является не максимальное количество сканирований и не многократное сканирование каждой страницы веб-сайта, а побуждение к сканированию релевантного для SEO контента как можно ближе к моменту создания или обновления страницы.

В общем, бюджет не имеет значения. Важно то, во что вы инвестируете.


Мнения, выраженные в этой статье, принадлежат приглашенному автору, а не обязательно поисковой системе. Штатные авторы перечислены здесь.


Новое в поисковой системе

Об авторе

Джес Шольц

Джес Шольц возглавляет команду, ответственную за внедрение передового опыта в области маркетинга и распространение знаний по всему миру через разнообразный портфель брендов швейцарского медиа-гиганта Ringier. Джес проводит большую часть своего времени, тестируя теории о будущем поиска, руководя проектами в области чат-ботов, компьютерного зрения, виртуальной реальности, искусственного интеллекта для автоматизации и всего остального, что может защитить бренды в будущем. Твердо веря в маркетинг, основанный на данных, и гибкие методологии, она всегда тестирует новые тактики с помощью своей команды.


Подборка статей о ИТ компаниях. Обмен опытом. Обучение востребованным профессиям в сфере IT. Маркетинг. Анализ рынка. Полезная информация. Подпишитесь на нас в социальных сетях, что бы не пропустить важное.

Информация для Вас была полезна?
0
0
0
0
0
0
0

Похожие статьи

Кнопка «Наверх»