Google на проценте, который представляет дублирующийся контент

Джон Мюллер из Google недавно ответил на вопрос о том, существует ли процентный порог дублирования контента, который Google использует для выявления и фильтрации дублированного контента.

Какой процент соответствует дублированному контенту?

На самом деле разговор начался на Facebook, когда Дуэйн Форрестер (@DuaneForrester) спросил, знает ли кто-нибудь, публикует ли какая-либо поисковая система процент перекрытия контента, при котором контент считается дублированным.

Билл Хартцер (англ.бхарцер) обратился к Твиттеру, чтобы задать вопрос Джону Мюллеру, и получил почти немедленный ответ.

Билл твитнул:

«Эй, @johnmu, есть ли процент дублированного контента?

Например, должны ли мы стремиться к тому, чтобы страницы были уникальными как минимум на 72,6% по сравнению с другими страницами на нашем сайте?

Google вообще это измеряет?»

Джон Мюллер из Google ответил:

Нет никакого числа (к тому же, как вы все равно его измеряете?)

— ?〈ссылка href=//johnmu.com rel=canonical 〉? (@JohnMu) 23 сентября 2022 г.

Как Google обнаруживает дублированный контент?

Методология Google для обнаружения дублированного контента остается удивительно похожей на протяжении многих лет.

Еще в 2013 году Мэтт Каттс (@mattcutts), в то время инженер-программист из Google опубликовал официальное видео Google, описывающее, как Google обнаруживает дублированный контент.

Он начал видео, заявив, что большая часть интернет-контента дублируется и что это нормально.

«Важно понимать, что если вы посмотрите на контент в Интернете, примерно 25% или 30% всего контента в Интернете является дублирующимся контентом.

…Люди будут цитировать абзац из блога, а затем ссылаться на блог и тому подобное».

Далее он сказал, что, поскольку так много дублированного контента невиновно и не содержит намерений спама, Google не будет наказывать этот контент.

По его словам, наказание веб-страниц за дублированный контент отрицательно скажется на качестве результатов поиска.

Что делает Google, когда находит повторяющийся контент:

«…попробуйте сгруппировать все это вместе и относиться к этому как к одному фрагменту контента».

Мэтт продолжил:

«Это просто рассматривается как нечто, что нам нужно соответствующим образом сгруппировать. И нам нужно убедиться, что он ранжируется правильно».

Он объяснил, что затем Google выбирает, какую страницу показывать в результатах поиска, и отфильтровывает повторяющиеся страницы, чтобы улучшить взаимодействие с пользователем.

Как Google обрабатывает дублированный контент — версия 2020 г.

Перенесемся в 2020 год, и Google опубликовал эпизод подкаста Search Off the Record, в котором та же тема описана удивительно похожим языком.

Вот соответствующий раздел этого подкаста с 06:44 минуты до начала эпизода:

«Гэри Иллиес: И теперь мы подошли к следующему шагу, который на самом деле является канонизацией и обнаружением дубликатов.

Мартин Сплитт: Разве это не то же самое, что и обнаружение дубликатов и канонизация?

Гэри Иллиес: [00:06:56] Ну, это не так, верно? Потому что сначала вы должны обнаружить дубликаты, по сути сгруппировать их вместе, говоря, что все эти страницы являются дубликатами друг друга,
а затем вам нужно найти главную страницу для всех из них.

…И это канонизация.

Итак, у вас есть дублирование, которое является целым термином, но внутри него у вас есть построение кластера, как создание дублирующего кластера, и канонизация. “

Затем Гэри объясняет в технических терминах, как именно они это делают. По сути, Google на самом деле не смотрит на проценты точно, а скорее сравнивает контрольные суммы.

Можно сказать, что контрольная сумма представляет собой представление содержимого в виде последовательности цифр или букв. Таким образом, если содержимое дублируется, то последовательность чисел контрольной суммы будет аналогичной.

Вот как Гэри объяснил это:

«Итак, для обнаружения обмана мы пытаемся обнаружить обман.

И то, как мы делаем это, возможно, то же, что и большинство людей в других поисковых системах, то есть, в основном, сокращает содержимое до хэша или контрольной суммы, а затем сравнивает контрольные суммы».

Гэри сказал, что Google делает это так, потому что это проще (и, очевидно, точнее).

Google обнаруживает дублированный контент с помощью контрольных сумм

Таким образом, когда речь идет о дублирующемся контенте, это, вероятно, не вопрос процентного порога, где есть число, при котором контент считается дублированным.

Вместо этого дублированный контент обнаруживается с представлением контента в виде контрольной суммы, а затем эти контрольные суммы сравниваются.

Дополнительный вывод заключается в том, что, по-видимому, существует различие между дублированием части контента и дублированием всего контента.

Избранное изображение Shutterstock/Ezume Images

Подборка статей по SEO оптимизации сайта. Выбора стратегии продвижения. Продвижение сайта в поисковых системах и социальных сетях. Обучение востребованным профессиям в сфере IT. Настройка рекламных кампаний в интернет. Маркетинг. Анализ рынка. Полезные секреты проведения рекламных кампаний. Все для PR — менеджера.

Информация для Вас была полезна?

Время чтения: 3 мин.

Google на проценте, который представляет дублирующийся контент

Какой процент соответствует дублированному контенту?

Как Google обнаруживает дублированный контент?

Как Google обрабатывает дублированный контент — версия 2020 г.

Google обнаруживает дублированный контент с помощью контрольных сумм

Специальная подборка для Вас

Приоритизация получения информации = переосмысление того, как мы создаем контент

Ожидается, что в Австралии появятся новые криптоединороги

Как работает контент-маркетинг: виды контента, активности и целевые действия

Как быстро перепрыгнуть через песочницу поисковой системы и начать эффективно продвигать свой сайт

Демократия терпит неудачу без криптовалюты

ТОП-10 отраслевых СМИ ТЭК за I квартал 2024 года | Рейтинги

BTL в сфере продаж электроники и бытовой техники | Статьи

Как мы пересобрали рекламные кампании и увеличили количество лидов на 30%, снизив стоимость в 2 раза. Случай

Биткойн вдвое сократится в 2024 году: пять ключевых особенностей

Бренд офисной бумаги SvetoCopy представляет Азамата Мусагалиева как руководителя одного офиса | Новости компании

Потенциал объединения блокчейна, Интернета вещей и искусственного интеллекта

Apple обеспечивает веб-распространение для разработчиков iOS, ориентированных на пользователей из ЕС

Funky Monkey запускает новую серию вкусов на рынке газированных напитков | Новости компании

Сбер и СберМаркетинг запустили HR-кампанию с использованием AI-симулятора | Новости компании

IDC ожидает, что Android будет расти «вдвое быстрее iOS»

Специальная подборка для Вас

Какой процент соответствует дублированному контенту?

Как Google обнаруживает дублированный контент?

Как Google обрабатывает дублированный контент — версия 2020 г.

Google обнаруживает дублированный контент с помощью контрольных сумм

Продажи 60% FMCG-товаров с российским Знаком качества опережают рост своей категории

Михаил Шакин: 6 методик продвижения в англоязычном SEO

Похожие статьи

Ключевые идеи для информирования вашей стратегии на 2023 год

10 лучших генераторов Sitemap для более быстрого и продуктивного сканирования

Проведение сделок и скидок на Amazon: полное руководство

Сканирует ли Google URL-адреса в структурированных данных?

Специальная подборка для Вас