14 полезных советов по сканированию миллионов веб-страниц

Сканирование корпоративных сайтов сопряжено со всеми сложностями любого обычного сканирования, а также несколькими дополнительными факторами, которые необходимо учитывать перед началом сканирования.

Следующие подходы показывают, как выполнить крупномасштабное сканирование и достичь заданных целей, будь то часть текущей проверки или аудита сайта.

1. Подготовьте сайт для сканирования

Важная вещь, которую следует учитывать перед сканированием, — это сам веб-сайт.

Полезно исправить проблемы, которые могут замедлить сканирование, до его запуска.

Это может показаться нелогичным исправлять что-то до того, как это исправить, но когда дело доходит до действительно больших сайтов, небольшая проблема, умноженная на пять миллионов, становится серьезной проблемой.

Адам Хамфрис, основатель агентства цифрового маркетинга Making 8 Inc., поделился умным решением, которое он использует для определения причин медленного TTFB (время до первого байта) — показателя, который измеряет скорость отклика веб-сервера.

Байт — это единица данных. Таким образом, TTFB — это измерение того, сколько времени требуется для доставки одного байта данных в браузер.

TTFB измеряет количество времени между получением сервером запроса на файл и временем, когда первый байт доставляется в браузер, таким образом обеспечивая измерение того, насколько быстро работает сервер.

Чтобы измерить TTFB, введите URL-адрес в инструмент Google PageSpeed Insights, основанный на технологии измерения Google Lighthouse.

Оценка TTFB в инструменте PageSpeed Insights

Снимок экрана из инструмента PageSpeed Insights, июль 2022 г.

Адам поделился: «Поэтому много раз Core Web Vitals помечает медленный TTFB для страниц, которые проходят аудит. Чтобы получить действительно точное значение TTFB, можно сравнить необработанный текстовый файл, простой текстовый файл без HTML, загружаемый на сервер, с реальным веб-сайтом.

Скиньте какой-нибудь Lorem ipsum или что-то в текстовый файл и загрузите его, а затем измерьте TTFB. Идея состоит в том, чтобы увидеть время отклика сервера в TTFB, а затем определить, какие ресурсы на сайте вызывают задержку.

Чаще всего люди любят излишние плагины. Я обновляю Lighthouse в режиме инкогнито и web.dev/measure для усреднения измерений. Когда я вижу 30–50 плагинов или тонны JavaScript в исходном коде, это почти немедленная проблема еще до того, как я начну сканирование».

Когда Адам говорит, что обновляет баллы Lighthouse, он имеет в виду, что он тестирует URL-адрес несколько раз, потому что каждый тест дает несколько разные баллы (это связано с тем, что скорость, с которой данные передаются через Интернет, постоянно меняется, точно так же, как скорость движения постоянно меняется).

Итак, что делает Адам, так это собирает несколько оценок TTFB и усредняет их, чтобы получить окончательный результат, который затем говорит ему, насколько отзывчив веб-сервер.

Если сервер не отвечает, инструмент PageSpeed Insights может дать представление о том, почему сервер не отвечает и что нужно исправить.

2. Обеспечьте полный доступ к серверу: добавьте IP-адрес сканера в белый список.

Брандмауэры и CDN (сети доставки контента) могут блокировать или замедлять IP-адрес при сканировании веб-сайта.

Поэтому важно определить все подключаемые модули безопасности, программное обеспечение для предотвращения вторжений на уровне сервера и CDN, которые могут препятствовать сканированию сайта.

Типичными плагинами WordPress для добавления IP-адреса в белый список являются Sucuri Web Application Firewall (WAF) и Wordfence.

3. Сканирование в нерабочее время

Сканирование сайта в идеале должно быть ненавязчивым.

В лучшем случае сервер должен справляться с агрессивным сканированием, а также обслуживать веб-страницы для реальных посетителей сайта.

Но с другой стороны, было бы полезно проверить, насколько хорошо сервер отвечает под нагрузкой.

Именно здесь будет полезна аналитика в реальном времени или доступ к журналу сервера, потому что вы можете сразу увидеть, как сканирование сервера может повлиять на посетителей сайта, хотя скорость сканирования и ответы сервера 503 также являются признаком того, что сервер находится под нагрузкой.

Если сервер действительно старается не отставать, запишите этот ответ и просканируйте сайт в нерабочее время.

В любом случае CDN должна смягчать последствия агрессивного сканирования.

4. Есть ли ошибки сервера?

Отчет Google Search Console Crawl Stats должен быть первым местом, где можно выяснить, возникают ли у сервера проблемы с обслуживанием страниц роботом Googlebot.

Все проблемы в отчете «Статистика сканирования» должны быть определены и устранены до сканирования корпоративного веб-сайта.

Журналы ошибок сервера — это кладезь данных, которые могут выявить широкий спектр ошибок, которые могут повлиять на качество сканирования сайта. Особое значение имеет возможность отлаживать невидимые ошибки PHP.

5. Память сервера

Возможно, что-то, что обычно не учитывается для SEO, — это объем ОЗУ (оперативной памяти), который есть у сервера.

Оперативная память похожа на кратковременную память, место, где сервер хранит информацию, которую он использует для обслуживания веб-страниц посетителями сайта.

Сервер с недостаточным объемом оперативной памяти будет работать медленно.

Поэтому, если сервер замедляется во время сканирования или кажется, что он не справляется со сканированием, это может быть проблемой SEO, которая влияет на то, насколько хорошо Google может сканировать и индексировать веб-страницы.

Посмотрите, сколько оперативной памяти у сервера.

Для VPS (виртуального частного сервера) может потребоваться минимум 1 ГБ ОЗУ.

Тем не менее, от 2 ГБ до 4 ГБ ОЗУ может быть рекомендовано, если веб-сайт представляет собой интернет-магазин с высокой посещаемостью.

Больше оперативной памяти, как правило, лучше.

Если на сервере достаточно оперативной памяти, но сервер тормозит, проблема может заключаться в чем-то другом, например, в программном обеспечении (или плагине), которое неэффективно и вызывает чрезмерные требования к памяти.

6. Периодически проверяйте данные сканирования

Следите за аномалиями сканирования во время сканирования веб-сайта.

Иногда сканер может сообщить, что сервер не смог ответить на запрос веб-страницы, создавая что-то вроде ответного сообщения сервера 503 Service Unavailable.

Поэтому полезно приостановить сканирование и проверить, что происходит, что может потребовать исправления, чтобы продолжить сканирование, которое предоставит больше полезной информации.

Иногда цель заключается не в том, чтобы дойти до конца сканирования.

Сканирование само по себе является важной точкой данных, поэтому не расстраивайтесь из-за того, что сканирование необходимо приостановить, чтобы что-то исправить, потому что обнаружение — это хорошо.

7. Настройте свой краулер для масштабирования

По умолчанию сканер, такой как Screaming Frog, может быть настроен на скорость, которая, вероятно, подойдет большинству пользователей. Но его необходимо настроить, чтобы он мог сканировать большой веб-сайт с миллионами страниц.

Screaming Frog использует оперативную память для сканирования, что отлично подходит для обычного сайта, но становится менее подходящим для корпоративного веб-сайта.

Преодолеть этот недостаток легко, изменив настройки хранилища в Screaming Frog.

Это путь меню для настройки параметров хранения:

Конфигурация > Система > Хранилище > Хранилище базы данных

Если возможно, настоятельно рекомендуется (но не обязательно) использовать внутренний жесткий диск SSD (твердотельный накопитель).

В большинстве компьютеров используется стандартный жесткий диск с движущимися частями внутри.

SSD — это самая передовая форма жесткого диска, которая может передавать данные со скоростью от 10 до 100 раз быстрее, чем обычный жесткий диск.

Использование компьютера с результатами SSD поможет достичь удивительно быстрого сканирования, необходимого для эффективной загрузки миллионов веб-страниц.

Для обеспечения оптимального сканирования необходимо выделить 4 ГБ оперативной памяти и не более 4 ГБ для сканирования до 2 миллионов URL-адресов.

Для сканирования до 5 миллионов URL-адресов рекомендуется выделять 8 ГБ ОЗУ.

Адам Хамфрис поделился: «Сканирование сайтов невероятно ресурсоемко и требует много памяти. Выделенный рабочий стол или аренда сервера — гораздо более быстрый способ, чем ноутбук.

Однажды я провел почти две недели в ожидании завершения сканирования. Я извлек уроки из этого и нашел партнеров для создания удаленного программного обеспечения, чтобы я мог проводить аудит в любом месте в любое время».

8. Подключитесь к быстрому Интернету

Если вы сканируете данные из своего офиса, крайне важно использовать максимально быстрое подключение к Интернету.

Использование самого быстрого доступного Интернета может означать разницу между сканированием, которое занимает несколько часов, и сканированием, которое занимает дни.

Как правило, самый быстрый доступ в Интернет осуществляется через соединение Ethernet, а не через соединение Wi-Fi.

Если ваш доступ в Интернет осуществляется через Wi-Fi, по-прежнему можно получить подключение к сети Ethernet, переместив ноутбук или настольный компьютер ближе к маршрутизатору Wi-Fi, который содержит подключения к сети Ethernet сзади.

Это похоже на один из советов, которые само собой разумеется, но его легко упустить из виду, потому что большинство людей используют Wi-Fi по умолчанию, не задумываясь о том, насколько быстрее было бы подключить компьютер напрямую к маршрутизатору с помощью сетевой шнур.

9. Облачное сканирование

Другим вариантом, особенно для чрезвычайно больших и сложных обходов сайтов, содержащих более 5 миллионов веб-страниц, может быть наилучший вариант обхода с сервера.

При использовании облачного сервера все обычные ограничения сканирования рабочего стола отключены.

Эш Наллавалла, специалист по SEO для предприятий и автор, имеет более чем 20-летний опыт работы с некоторыми из крупнейших в мире компаний, занимающихся корпоративными технологиями.

Поэтому я спросил его о сканировании миллионов страниц.

Он ответил, что рекомендует сканировать из облака сайты с более чем 5 миллионами URL-адресов.

Эш поделился: «Сканирование огромных веб-сайтов лучше всего выполнять в облаке. Я делаю до 5 миллионов URI с помощью Screaming Frog на своем ноутбуке в режиме хранения базы данных, но на наших сайтах гораздо больше страниц, поэтому мы запускаем виртуальные машины в облаке для их сканирования.

Наш контент популярен среди парсеров из соображений конкурентного анализа данных, а не из-за копирования статей из-за их текстового содержания.

Мы используем технологию брандмауэра, чтобы никто не собирал слишком много страниц на высокой скорости. Этого достаточно, чтобы обнаруживать парсеры, работающие в так называемом «режиме эмуляции человека». Поэтому мы можем сканировать только с IP-адресов из белого списка и дополнительного уровня аутентификации».

Адам Хамфрис согласился с советом ползти из облака.

Он сказал: «Сканирование сайтов невероятно ресурсоемко и требует много памяти. Выделенный рабочий стол или аренда сервера — гораздо более быстрый способ, чем ноутбук. Однажды я провел почти две недели в ожидании завершения сканирования.

Я извлек уроки из этого и нашел партнеров для создания удаленного программного обеспечения, чтобы я мог проводить аудит в любом месте в любое время из облака».

10. Частичное сканирование

Техника сканирования больших веб-сайтов заключается в том, чтобы разделить сайт на части и сканировать каждую часть в соответствии с последовательностью, чтобы результатом было представление веб-сайта в разрезе.

Другой способ выполнить частичное сканирование — разделить сайт на части и выполнять сканирование на постоянной основе, чтобы моментальный снимок каждого раздела не только обновлялся, но и можно было мгновенно просмотреть любые изменения, внесенные в сайт.

Таким образом, вместо последовательного обхода всего сайта выполняйте частичный обход всего сайта в зависимости от времени.

Это подход, который Эш настоятельно рекомендует.

Эш объяснил: «Я постоянно ползаю. Я запускаю один прямо сейчас на одном бренде продукта. Он настроен на остановку сканирования при ограничении по умолчанию в 5 миллионов URL-адресов».

Когда я спросил его о причине постоянного сканирования, он сказал, что это связано с проблемами, не зависящими от него, которые могут возникнуть с предприятиями такого размера, в которые вовлечено много заинтересованных сторон.

Эш сказал: «В моей ситуации у меня есть постоянное сканирование для решения известных проблем в определенной области».

11. Общий снимок: ограниченное сканирование

Чтобы получить общее представление о том, как выглядит веб-сайт, можно ограничить сканирование только его образцом.

Это также полезно для сканирования конкурентной разведки.

Например, в проекте «Ваши деньги или ваша жизнь», над которым я работал, я просканировал около 50 000 страниц с веб-сайта конкурента, чтобы увидеть, на какие сайты они ссылаются.

Я использовал эти данные, чтобы убедить клиента в том, что его шаблоны исходящих ссылок плохие, и показал ему высококачественные сайты, на которые ссылались их высокопоставленные конкуренты.

Поэтому иногда ограниченное сканирование может дать достаточно данных определенного типа, чтобы получить общее представление о состоянии всего сайта.

12. Сканирование для обзора структуры сайта

Иногда нужно только понять структуру сайта.

Чтобы сделать это быстрее, можно настроить сканер так, чтобы он не сканировал внешние ссылки и внутренние изображения.

Существуют и другие настройки сканера, которые можно снять, чтобы обеспечить более быстрое сканирование, так что единственное, на чем фокусируется сканер, — это загрузка URL-адреса и структуры ссылок.

13. Как обращаться с дубликатами страниц и канониками

Если нет причин индексировать повторяющиеся страницы, может быть полезно настроить сканер на игнорирование параметров URL и других URL-адресов, которые являются дубликатами канонического URL-адреса.

Можно настроить сканер так, чтобы он сканировал только канонические страницы. Но если кто-то настроил разбивку на страницы для канонизации первой страницы в последовательности, вы никогда не обнаружите эту ошибку.

По той же причине, по крайней мере, при начальном сканировании, может потребоваться не подчиняться тегам noindex, чтобы идентифицировать экземпляры директивы noindex на страницах, которые должны быть проиндексированы.

14. Посмотрите, что видит Google

Как вы, несомненно, заметили, существует множество различных способов сканирования веб-сайта, состоящего из миллионов веб-страниц.

Бюджет сканирования — это количество ресурсов, которые Google выделяет на сканирование веб-сайта для его индексации.

Чем больше веб-страниц успешно проиндексировано, тем больше страниц имеют возможность ранжироваться.

Небольшим сайтам не нужно беспокоиться о краулинговом бюджете Google.

Но максимизация краулингового бюджета Google является приоритетом для корпоративных веб-сайтов.

В предыдущем сценарии, показанном выше, я рекомендовал не соблюдать теги noindex.

Что ж, при таком сканировании вы действительно захотите соблюдать директивы noindex, потому что цель такого сканирования — получить снимок веб-сайта, который расскажет вам, как Google видит весь веб-сайт.

Консоль поиска Google предоставляет много информации, но самостоятельное сканирование веб-сайта с помощью пользовательского агента, замаскированного под Google, может дать полезную информацию, которая может помочь улучшить индексирование большего количества правильных страниц при обнаружении страниц, на которые Google может тратить краулинговый бюджет.

Для такого рода сканирования важно настроить агент пользователя сканера на Googlebot, настроить сканер на выполнение robots.txt и настроить сканер на выполнение директивы noindex.

Таким образом, если сайт настроен так, чтобы определенные элементы страницы не отображались для робота Googlebot, вы сможете увидеть карту сайта так, как ее видит Google.

Это отличный способ диагностировать потенциальные проблемы, такие как обнаружение страниц, которые должны быть просканированы, но пропущены.

Что касается других сайтов, Google может находить страницы, которые полезны для пользователей, но могут восприниматься Google как низкокачественные, например страницы с регистрационными формами.

Сканирование с помощью пользовательского агента Google полезно, чтобы понять, как Google видит сайт, и помочь максимизировать бюджет сканирования.

Преодолеть кривую обучения

Можно сканировать корпоративные веб-сайты и научиться их сканировать трудным путем. Мы надеемся, что эти четырнадцать советов сократят время обучения и сделают вас более подготовленными к работе с клиентами корпоративного уровня с гигантскими веб-сайтами.

Дополнительные ресурсы:

Рекомендуемое изображение: СветаЗи/Shutterstock

Парсинг сайтов. Продвижение сайта в Яндекс, Google и социальных сетях. Обучение востребованным профессиям в сфере IT. Настройка рекламных компаний в интернет. Маркетинг. Анализ рынка. Полезные секреты проведения рекламных компаний. Все для PR-менеджера.

Информация для Вас была полезна?

Время чтения: 9 мин.

14 полезных советов по сканированию миллионов веб-страниц

1. Подготовьте сайт для сканирования

2. Обеспечьте полный доступ к серверу: добавьте IP-адрес сканера в белый список.

3. Сканирование в нерабочее время

4. Есть ли ошибки сервера?

5. Память сервера

6. Периодически проверяйте данные сканирования

7. Настройте свой краулер для масштабирования

8. Подключитесь к быстрому Интернету

9. Облачное сканирование

10. Частичное сканирование

11. Общий снимок: ограниченное сканирование

12. Сканирование для обзора структуры сайта

13. Как обращаться с дубликатами страниц и канониками

14. Посмотрите, что видит Google

Преодолеть кривую обучения

Специальная подборка для Вас

Базовая SEO-аналитика: что это такое, зачем нужна, как делать

Как интернет-магазины могут привлечь дополнительный трафик в Поиске. Дело Ламода

Визуальный мерчандайзинг как элемент маркетинга и почему это важно | Статьи

Все о регулировании криптовалют в Аргентине

Как мы помогли Synergetic привлечь клиентов с помощью WhatsApp и добиться рентабельности инвестиций в 600 %. Случай

Итоги Парижской недели блокчейна: халвинг ближе – больше оптимизма

Пенсионные фонды не могут игнорировать потенциал Биткойна

BingX открыто поддерживает иранских пользователей, несмотря на санкции

Как создать сообщество ВКонтакте в 2024 году: практические советы

Сбер и СберМаркетинг запустили HR-кампанию с использованием AI-симулятора | Новости компании

Centra помогает: компания объединила представителей рынка цифровой рекламы в помощь Фонду «Подарок ангелу» | Новости компании

Рекламная сеть Яндекса представила Yandex Mobile Ads SDK 7

Лучшее время для публикаций в социальных сетях в 2024 году

11 лучших пулов для майнинга биткоинов в 2024 году

ТОП-10 самых цитируемых СМИ Пензенской области за 2022 год | Рейтинги

Специальная подборка для Вас

1. Подготовьте сайт для сканирования

2. Обеспечьте полный доступ к серверу: добавьте IP-адрес сканера в белый список.

3. Сканирование в нерабочее время

4. Есть ли ошибки сервера?

5. Память сервера

6. Периодически проверяйте данные сканирования

7. Настройте свой краулер для масштабирования

8. Подключитесь к быстрому Интернету

9. Облачное сканирование

10. Частичное сканирование

11. Общий снимок: ограниченное сканирование

12. Сканирование для обзора структуры сайта

13. Как обращаться с дубликатами страниц и канониками

14. Посмотрите, что видит Google

Преодолеть кривую обучения

Как зарабатывать нано-инфлюенсером с менее чем 10 000 подписчиков

11 лучших поисковых систем для изображений

Похожие статьи

Как провести SEO-аудит, который действительно поможет вам завоевать клиентов

Как написать мета-описание, которое будет получать клики

4 способа использовать ИИ прямо сейчас в вашей маркетинговой программе

Как изменить поиск видео (и почему это полезно)

Специальная подборка для Вас