Новости трендов

Глубокое погружение в поиск на основе сущностей

С 2013 года Google постепенно превращается в 100% семантическую поисковую систему.

Что такое семантический поиск? Вы можете найти множество объяснений, когда будете искать в Google ответ на этот вопрос, но большинство из них неточны и вызывают недопонимание.

Эта статья поможет вам всесторонне понять, что такое семантический поиск.

Путь Google к тому, чтобы стать семантической поисковой системой

Усилия Google по разработке системы семантического поиска восходят к 1999 году (как видно из этого поста покойного Билла Славски). Это стало более конкретным с введением Графа знаний в 2012 году и фундаментальным изменением его алгоритма ранжирования в 2013 году (широко известного как Колибри).

Все другие основные инновации, такие как RankBrain, EAT, BERT и MUM, прямо или косвенно поддерживают цель стать полностью семантической поисковой системой.

Внедряя обработку естественного языка (NLP) в поиск, Google движется к этой цели с экспоненциальной скоростью.



Путь Google к семантической поисковой системе.
Путь Google к семантической поисковой системе

Колибри: «Не струны, а вещи» = сущности

Hummingbird — это стартовый сигнал эволюции Google в семантический поисковик.

Это было крупнейшее изменение в обработке поисковых запросов и ранжировании, когда-либо сделанное Google, которое затронуло более 90% всех поисковых запросов еще в 2013 году. Hummingbird в корне заменил большую часть существующих алгоритмов ранжирования.

С помощью Hummingbird Google сразу же смог включить сущности, записанные в Knowledge Graph, для обработки запросов, ранжирования и вывода результатов поисковой выдачи.

Сущность описывает сущность или идентичность конкретного или абстрактного объекта бытия. Сущности однозначно идентифицируемы и, следовательно, имеют уникальное значение.

По сути, можно провести различие между именованными сущностями и абстрактными понятиями.

  • Именованные объекты — это объекты реального мира, такие как люди, места, организации, продукты и события.
  • Абстрактные понятия носят физический, психологический или социальный характер, например расстояние, количество, эмоции, права человека, мир и т. д.

До Hummingbird Google в основном выполнял сопоставление документов по ключевым словам для ранжирования и не мог распознавать значение поискового запроса или контента.

Что такое семантическая поисковая система?

Семантическая поисковая система учитывает семантический контекст поисковых запросов и контента, чтобы лучше понять смысл. Семантические поисковые системы также учитывают отношения между сущностями для возврата результатов поиска.

Напротив, системы поиска, основанные исключительно на ключевых словах, работают только на основе совпадения ключевого слова и текста.

Многие определения семантического поиска сосредоточены на интерпретации намерения поиска как его сути. Но прежде всего семантический поиск заключается в распознавании значения поисковых запросов и контента на основе встречающихся сущностей.

Семантика = теория значения.

Но «смысл» — это не то же самое, что «намерение». Цель поиска описывает, что пользователь ожидает от результатов поиска. Смысл в другом.

Определение значения может помочь распознать цель поиска, но это скорее дополнительное преимущество семантического поиска.

Ранжирование на основе сущностей также требует индексации на основе сущностей. График знаний — это индекс объектов Google, который учитывает отношения между объектами.

Классические индексы организованы в табличной форме и, следовательно, не позволяют отображать отношения между наборами данных.

График знаний — это семантическая база данных, в которой информация структурирована таким образом, что знания создаются из информации. Здесь сущности (узлы) связаны друг с другом через ребра, снабжены атрибутами и другой информацией и помещены в тематический контекст или онтологии.

Сущности являются центральным организационным элементом в семантических базах данных, таких как График знаний Google.

В дополнение к отношениям между сущностями Google использует интеллектуальный анализ данных для сбора атрибутов и другой информации о сущностях и упорядочивания их вокруг сущностей.

Entities and their attributes.
Примеры сущностей и их атрибутов: «Джо Элвин» и «Тейлор Свифт».

Вы получаете представление о том, какие источники и информацию Google рассматривает для объекта при его поиске.

Тейлор Свифт как объект в поиске Google
«Тейлор Свифт» как сущность в поиске Google

Предпочтительные источники, атрибуты и информация зависят от типа объекта. Источники объекта-человека отличаются от источника объекта-события или организационного объекта. Это влияет на информацию, отображаемую на панели знаний.

Структура индекса на основе сущностей позволяет отвечать на вопросы, которые ищут тему или сущность, не упомянутую в вопросе.

Глубокое погружение в поиск на основе объектов
«Канберра» — это организация, связанная с «Австралией».

В этом примере «Австралия» и «Канберра» являются сущностями, а значение «столица» описывает характер отношений. Поисковая система, основанная на ключевых словах, не смогла бы дать такой ответ.

В основе Графа знаний лежат три уровня:

  • Каталог сущностей : здесь хранятся все сущности, которые были идентифицированы с течением времени.
  • Хранилище знаний : Сущности объединяются в хранилище знаний с информацией или атрибутами из различных источников. В первую очередь речь идет о слиянии и хранении описаний и создании семантических классов или групп в виде типов сущностей. Google генерирует данные через Хранилище знаний, где он осуществляет интеллектуальный анализ данных из неструктурированных источников.
  • График знаний : сущности связаны с атрибутами, и между сущностями устанавливаются отношения.

Google может использовать различные источники для идентификации объектов и связанной с ними информации.

Google Knowledge Graph: источники информации.

Не все объекты, захваченные в хранилище знаний, включены в сеть знаний. Следующие критерии могут повлиять на включение в Сеть знаний:

  • Устойчивая социальная значимость.
  • Достаточное количество поисковых запросов для объекта в индексе Google.
  • Устойчивое общественное мнение.
  • Записи в общепризнанном словаре или энциклопедии или в специализированном справочнике.

Можно предположить, что Google записал значительно больше длиннохвостовых сущностей в хранилище знаний, такое как Хранилище знаний, чем в График знаний, и использует его для семантического поиска.

Просматривая открытый Интернет и обрабатывая естественный язык, Google может выполнять масштабируемый анализ сущностей и данных независимо от структурированных и полуструктурированных баз данных. Это предоставляет хранилище знаний все больше и больше информации, в том числе о сущностях с длинным хвостом. Подробнее об этом можно узнать здесь.

Google осуществляет интеллектуальный анализ сущностей и данных.

Как Google работает как семантическая поисковая система?

Google использует семантический поиск в следующих областях:

  • Понимание поисковых запросов или сущностей в обработке поисковых запросов.
  • Понимание контента о сущностях для ранжирования.
  • Понимание содержимого и сущностей для интеллектуального анализа данных.
  • Контекстная классификация сущностей для последующей оценки EAT.

Поиск Google теперь основан на процессоре поисковых запросов для интерпретации поисковых запросов и составления корпусов из документов, соответствующих поисковому запросу. Здесь могут вступить в игру BERT, MUM и RankBrain.

При обработке поисковых запросов условия поиска сравниваются с объектами, записанными в семантических базах данных, и при необходимости уточняются или переписываются.

На следующем этапе определяется цель поиска и определяется подходящий корпус контента X.

Google использует классический поисковый индекс, а также собственную семантическую базу данных в виде Knowledge Graph. Вероятно, что между этими двумя базами данных происходит обмен через интерфейс.

Существует механизм подсчета очков, состоящий из различных алгоритмов, основанных на основном алгоритме Hummingbird. Он отвечает за оценку контента, а затем упорядочивает его на основе оценки. Оценка касается релевантности контента по отношению к поисковому запросу или поисковому намерению.

Поскольку Google также хочет оценивать качество контента в дополнение к релевантности, необходимо также провести оценку по критериям EAT. Вы можете узнать, какие это могут быть критерии, по 14 способам, которыми Google может оценивать EAT.

Для этой оценки EAT Google должен оценить опыт, авторитет и надежность домена, издателя и/или автора. Основой для этого могут быть базы данных семантических сущностей.

Затем результаты поиска освобождаются от дубликатов с помощью механизма очистки, и любые штрафы учитываются.

Обработка запросов

Что это означает для семантического SEO?

Я много читал о структурированных данных, семантической оптимизации контента и структуре семантических тематических миров, когда речь идет о семантическом SEO.

Да, имеет смысл показать Google, что вы полностью освещаете определенные темы своим контентом и, следовательно, проявляете экспертность.

Некоторые патенты касаются сравнения внутренних графиков знаний документов с графиком знаний Google. Теория здесь заключается в том, что высокий уровень соответствия между объектами, используемыми в тексте, и структурами отношений основного объекта в семантической базе данных Google приводит к лучшему ранжированию.

Это звучит логично. Но давайте будем честными, в конце концов, оптимизация на основе ключевых слов существенно не отличается от оптимизации контента на основе сущностей.

Структура тематических миров также имеет смысл, хотя нужно сказать, что при ранжировании времени прохождения следует учитывать следующее:

  • До какой степени тема разбита на различные подтемы?
  • Создается ли отдельный контент для каждой подтемы?
  • Создан ли только целостный актив контента?

И структурированные данные…

Да, структурированные данные могут помочь Google понять семантические отношения, но только до тех пор, пока они им больше не понадобятся. И это будет скоро.

На мой взгляд, Google настолько хорош в машинном обучении, что использует структурированные данные для более быстрого обучения алгоритмов.

В качестве примера возьмем разметку для профилей в социальных сетях. Прошло всего около года с момента, когда Google рекомендовал его использовать, до того, как они объявили, что могут автоматически просматривать социальные профили без структурированных данных.

Это всего лишь вопрос времени, когда Google больше не будет нуждаться в структурированных данных.

Структурированные данные также не являются хорошей основой для оценки. Они у вас либо есть, либо их нет.

Все это можно причислить к семантическому SEO. Однако чего мне часто не хватает, так это глобального взгляда на сущности как на издателей и авторов. Здесь большую роль играют сигналы вне страницы, чем сигналы на странице. Основываясь на отношениях между авторитетными и заслуживающими доверия объектами, Google хочет определить, какие домены и авторы являются источниками наилучшего качества для темы согласно EAT.

  • Кто с кем связан?
  • Кто кого рекомендует?
  • Кто с кем тусуется?

Ссылки и совпадения из Google могут быть использованы в качестве факторов для этой близости между авторитетными лицами. И под семантическим SEO я также подразумеваю их оптимизацию.

Пока мы говорим о совместном появлении, вы также должны учитывать, как работает НЛП при оптимизации контента. Google использует НЛП для идентификации сущностей и их контекста. Это работает через грамматические структуры предложений, тройки и кортежи, состоящие из существительных и глаголов.

Вот почему мы также должны обратить внимание на грамматически простую структуру предложения в семантическом SEO. Используйте короткие предложения без личных местоимений и вложений. Вот как мы обслуживаем пользователей с точки зрения удобочитаемости и поисковых систем.

Будущее семантического поиска: когда можно будет реализовать поиск Google, основанный на 100% сущностях?

Я думаю, что в будущем обмен между классическим поисковым индексом Google и Knowledge Graph будет происходить через интерфейс.

Чем больше сущностей записано в Графе знаний, тем больше их влияние на поисковую выдачу. Тем не менее, Google по-прежнему сталкивается с серьезными проблемами, связанными с согласованием полноты и точности.

Для реальной оценки Hummingbird сущности уровня документа не играют большой роли. Скорее, они являются важным организационным элементом для создания невзвешенных корпусов документов на стороне поискового индекса.

Фактическая оценка документов производится Hummingbird в соответствии с классическими правилами поиска информации. Однако на уровне домена я вижу гораздо большее влияние сущностей на ранжирование. Введите ЕАТ.

В ближайшие годы мы, скорее всего, увидим растущее влияние сущностей в поиске Google. Новый вид поиска на основе сущностей ясно показывает, как Google постепенно организует индексацию информации и контента вокруг сущности. Это указывает на то, насколько сильно такие инновации, как MUM, следуют идее семантического поиска.


Мнения, выраженные в этой статье, принадлежат приглашенному автору, а не обязательно поисковой системе. Штатные авторы перечислены здесь.


Новое в поисковой системе

Об авторе

Olaf Kopp CK2 — подробное изучение поиска на основе сущностей

Олаф Копп — специалист по интернет-маркетингу с более чем 15-летним опытом работы в Google Ads, SEO и контент-маркетинге. Он является соучредителем, директором по развитию бизнеса и руководителем SEO в немецком агентстве интернет-маркетинга Aufgesang GmbH. Олаф Копп — автор, подкастер и всемирно признанный отраслевой эксперт в области семантического SEO, EAT, стратегий контент-маркетинга, управления путешествием клиентов и создания цифрового бренда. Он является соорганизатором PPC-Event SEAcamp и ведущим подкастов OM Cafe и Content-Kompass (на немецком языке).


Подборка статей о ИТ компаниях. Обмен опытом. Обучение востребованным профессиям в сфере IT. Маркетинг. Анализ рынка. Полезная информация. Подпишитесь на нас в социальных сетях, что бы не пропустить важное.

Информация для Вас была полезна?
0
0
0
0
0
0
0

Похожие статьи

Кнопка «Наверх»