Новости трендов

Как Google использует NLP для лучшего понимания поисковых запросов, контента

Обработка естественного языка открыла двери для семантического поиска в Google.

SEO-специалисты должны понимать переход на поиск на основе сущностей, потому что это будущее поиска Google.

В этой статье мы подробно рассмотрим обработку естественного языка и то, как Google использует ее для интерпретации поисковых запросов и контента, интеллектуального анализа сущностей и многого другого.

Что такое обработка естественного языка?

Обработка естественного языка, или НЛП, позволяет понять значение слов, предложений и текстов для создания информации, знаний или нового текста.

Он состоит из понимания естественного языка (NLU), которое позволяет семантическую интерпретацию текста и естественного языка, и генерации естественного языка (NLG).

НЛП можно использовать для:



  • Распознавание речи (преобразование текста в речь и речь в текст).
  • Разделение ранее захваченной речи на отдельные слова, предложения и фразы.
  • Распознавание основных форм слов и приобретение грамматической информации.
  • Распознавание функций отдельных слов в предложении (подлежащее, глагол, дополнение, артикль и др.)
  • Извлечение значения предложений и частей предложений или фраз, таких как прилагательные (например, «слишком долго»), предложные фразы (например, «к реке») или именные фразы (например, «длинная вечеринка»).
  • Распознавание контекстов предложений, отношений предложений и сущностей.
  • Лингвистический анализ текста, анализ настроений, переводы (в том числе для голосовых помощников), чат-боты и базовые системы вопросов и ответов.

Ниже приведены основные компоненты НЛП:

API обработки естественного языка Google.
Взгляд на API обработки естественного языка Google
  • Токенизация : разделяет предложение на разные термины.
  • Маркировка типов слов : классифицирует слова по объектам, подлежащим, сказуемым, прилагательным и т. д.
  • Зависимости слов : определяет отношения между словами на основе правил грамматики.
  • Лемматизация : определяет, имеет ли слово разные формы, и нормализует варианты базовой формы. Например, основной формой слова «автомобили» является «автомобиль».
  • Разбор меток : маркирует слова на основе отношения между двумя словами, связанными зависимостью.
  • Анализ и извлечение именованных сущностей : Идентифицирует слова с «известным» значением и присваивает их классам типов сущностей. В общем, именованные объекты — это организации, люди, продукты, места и вещи (существительные). В предложении субъект и объект должны быть идентифицированы как сущности.
Анализ сущностей с использованием Google Natural Processing API.
Анализ сущностей с использованием Google Natural Processing API.
  • Оценка значимости : определяет, насколько сильно текст связан с темой. Заметность обычно определяется совместным цитированием слов в Интернете и отношениями между объектами в таких базах данных, как Википедия и Freebase. Опытные оптимизаторы знают аналогичный метод из анализа TF-IDF.
  • Анализ настроений : определяет мнение (точку зрения или отношение), выраженное в тексте о сущностях или темах.
  • Категоризация текста : на макроуровне НЛП классифицирует текст по категориям контента. Категоризация текста помогает определить в целом, о чем текст.
  • Классификация и функция текста : НЛП может пойти дальше и определить предполагаемую функцию или цель контента. Очень интересно сопоставить намерение поиска с документом.
  • Извлечение типа контента : на основе структурных шаблонов или контекста поисковая система может определить тип контента текста без структурированных данных. HTML-код текста, форматирование и тип данных (дата, местоположение, URL-адрес и т. д.) позволяют определить, является ли это рецептом, продуктом, событием или другим типом контента без использования разметки.
  • Определите скрытое значение на основе структуры : форматирование текста может изменить его скрытое значение. Заголовки, переносы строк, списки и близость передают вторичное понимание текста. Например, когда текст отображается в списке, отсортированном в формате HTML, или в серии заголовков с числами перед ними, скорее всего, это список или ранжирование. Структура определяется не только тегами HTML, но также визуальным размером/толщиной шрифта и близостью во время рендеринга.

Использование НЛП в поиске

В течение многих лет Google обучал языковые модели, такие как BERT или MUM, интерпретировать текст, поисковые запросы и даже видео- и аудиоконтент. Эти модели загружаются посредством обработки естественного языка.

Поиск Google в основном использует обработку естественного языка в следующих областях:

  • Интерпретация поисковых запросов.
  • Классификация предмета и назначения документов.
  • Анализ сущностей в документах, поисковых запросах и постах в социальных сетях.
  • Для создания избранных сниппетов и ответов в голосовом поиске.
  • Интерпретация видео и аудио контента.
  • Расширение и улучшение Графа Знаний.

Google подчеркнул важность понимания естественного языка при поиске, когда выпустил обновление BERT в октябре 2019 года.

«По своей сути Поиск — это понимание языка. Наша работа заключается в том, чтобы выяснить, что вы ищете, и найти полезную информацию из Интернета, независимо от того, как вы пишете или комбинируете слова в своем запросе. Хотя мы продолжали улучшать наши возможности понимания языка на протяжении многих лет, иногда мы все еще не совсем правильно понимаем, особенно со сложными или диалоговыми запросами. На самом деле, это одна из причин, почему люди часто используют «ключевое слово», набирая строки слов, которые, как они думают, мы поймем, но на самом деле они не так, как обычно задают вопрос».

BERT & MUM: НЛП для интерпретации поисковых запросов и документов

Говорят, что BERT является самым важным достижением в поиске Google за несколько лет после RankBrain. Основанное на NLP, обновление было разработано для улучшения интерпретации поисковых запросов и первоначально затронуло 10% всех поисковых запросов.

BERT играет роль не только в интерпретации запросов, но также в ранжировании и составлении избранных фрагментов, а также в интерпретации текстовых анкет в документах.

«Что ж, применяя модели BERT как к ранжированию, так и к избранным фрагментам в поиске, мы можем значительно улучшить работу, помогая вам находить полезную информацию. На самом деле, когда дело доходит до результатов ранжирования, BERT поможет Поиску лучше понимать каждый десятый поисковый запрос в США на английском языке, и со временем мы доведем это до большего количества языков и регионов».

О выпуске обновления MUM было объявлено на Search On ’21. MUM, также основанный на NLP, является многоязычным, отвечает на сложные поисковые запросы мультимодальными данными и обрабатывает информацию из различных медиаформатов. Помимо текста, MUM также понимает изображения, видео- и аудиофайлы.

MUM сочетает в себе несколько технологий, чтобы сделать поиск Google еще более семантическим и контекстно-ориентированным, чтобы улучшить взаимодействие с пользователем.

С MUM Google хочет отвечать на сложные поисковые запросы в различных медиаформатах, чтобы присоединиться к пользователю на пути к покупке.

Как используется для BERT и MUM, НЛП является важным шагом к лучшему пониманию семантики и более ориентированной на пользователя поисковой системе.

Понимание поисковых запросов и контента через сущности знаменует собой переход от «строк» ​​к «вещам». Цель Google — развить семантическое понимание поисковых запросов и контента.

Идентифицируя объекты в поисковых запросах, смысл и цель поиска становятся более ясными. Отдельные слова поискового запроса больше не стоят отдельно друг от друга, а рассматриваются в контексте всего поискового запроса.

Волшебство интерпретации условий поиска происходит при обработке запросов. Здесь важны следующие шаги:

  • Определение тематической онтологии, в которой находится поисковый запрос. Если тематический контекст ясен, Google может выбрать корпус текстовых документов, видео и изображений в качестве потенциально подходящих результатов поиска. Это особенно сложно с неоднозначными условиями поиска.
  • Идентификация сущностей и их значения в поисковом запросе (распознавание именованных сущностей).
  • Понимание семантического значения поискового запроса.
  • Определение цели поиска.
  • Семантическая аннотация поискового запроса.
  • Уточнение поискового запроса.

 

Получайте ежедневный информационный бюллетень, на который полагаются поисковые маркетологи.

 


НЛП — наиболее важная методология интеллектуального анализа сущностей.

Обработка естественного языка будет играть для Google наиболее важную роль в идентификации сущностей и их значений, позволяя извлекать знания из неструктурированных данных.

На этой основе могут быть созданы отношения между сущностями и Графом знаний. Речевые теги частично помогают в этом.

Существительные являются потенциальными сущностями, а глаголы часто представляют отношение сущностей друг к другу. Прилагательные описывают сущность, а наречия описывают отношения.

До сих пор Google лишь минимально использовал неструктурированную информацию для загрузки Сети знаний.

Можно предположить, что:

  • Сущности, зарегистрированные до сих пор в Графике знаний, являются лишь верхушкой айсберга.
  • Google дополнительно пополняет еще один репозиторий знаний информацией о сущностях с длинным хвостом.

НЛП играет центральную роль в подпитке этого хранилища знаний.

Google уже достаточно хорош в НЛП, но пока не достигает удовлетворительных результатов в оценке точности автоматически извлекаемой информации.

Интеллектуальный анализ данных для базы данных знаний, такой как График знаний, из неструктурированных данных, таких как веб-сайты, сложен.

Помимо полноты информации, важна ее корректность. В настоящее время Google гарантирует полноту в масштабе с помощью НЛП, но доказать правильность и точность сложно.

Вероятно, поэтому Google по-прежнему осторожно относится к прямому размещению информации о длинных хвостах в поисковой выдаче.

Индекс на основе сущностей по сравнению с классическим индексом на основе содержимого

Внедрение обновления Hummingbird проложило путь для семантического поиска. Это также привлекло внимание к Графику знаний — и, следовательно, к сущностям.

График знаний — это индекс сущностей Google. Все атрибуты, документы и цифровые изображения, такие как профили и домены, организованы вокруг объекта в индексе на основе объекта.

Пример того, как могут работать индекс сущностей Google и классический индекс.

Граф знаний в настоящее время используется параллельно с классическим индексом Google для ранжирования.

Предположим, Google распознает в поисковом запросе, что речь идет о сущности, записанной в сети знаний. В этом случае осуществляется доступ к информации в обоих индексах, при этом объект находится в центре внимания, а также принимается во внимание вся информация и документы, связанные с объектом.

Между классическим Google Index и Knowledge Graph или хранилищем знаний другого типа требуется интерфейс или API для обмена информацией между двумя индексами.

Этот интерфейс сущности-контента предназначен для выяснения:

  • Есть ли объекты в части контента.
  • Существует ли основной объект, о котором идет речь в контенте.
  • К какой онтологии или онтологиям можно отнести основную сущность.
  • Какому автору или какой организации назначено содержание.
  • Как объекты в контенте связаны друг с другом.
  • Какие свойства или атрибуты должны быть назначены объектам.

Это может выглядеть так:

Пример интерфейса сущность-контент.

Мы только начинаем ощущать влияние поиска на основе сущностей в поисковой выдаче, поскольку Google медленно понимает значение отдельных сущностей.

Сущности понимаются сверху вниз по социальной релевантности. Наиболее актуальные из них зафиксированы в Викиданных и Википедии соответственно.

Большой задачей будет выявление и проверка объектов с длинным хвостом. Также неясно, какие критерии Google проверяет для включения объекта в сеть знаний.

На немецком веб-мастере в январе 2019 года Джон Мюллер из Google сказал, что они работают над более простым способом создания объектов для всех.

«Я не думаю, что у нас есть четкий ответ. Я думаю, что у нас есть разные алгоритмы, которые проверяют что-то подобное, а затем мы используем разные критерии, чтобы собрать все воедино, разделить на части и распознать, какие вещи на самом деле являются отдельными объектами, а какие просто вариантами или менее отдельными объектами… поскольку я обеспокоен, я видел это, это то, над чем мы работаем, чтобы немного расширить это, и я полагаю, что это также облегчит попадание в График знаний. Но я не знаю, каковы именно планы».

НЛП играет жизненно важную роль в решении этой задачи.

Примеры из демонстрации diffbot показывают, насколько хорошо NLP можно использовать для анализа сущностей и построения графа знаний.

Примеры из демонстрации diffbot.

НЛП в поиске Google никуда не денется

RankBrain был введен для интерпретации поисковых запросов и терминов с помощью анализа векторного пространства, который ранее не использовался таким образом.

BERT и MUM используют обработку естественного языка для интерпретации поисковых запросов и документов.

В дополнение к интерпретации поисковых запросов и контента, MUM и BERT открыли дверь, позволяющую масштабировать базу данных знаний, такую ​​как Knowledge Graph, тем самым продвигая семантический поиск в Google.

Изменения в поиске Google посредством основных обновлений также тесно связаны с MUM и BERT и, в конечном счете, с НЛП и семантическим поиском.

В будущем мы увидим все больше и больше результатов поиска Google на основе сущностей, заменяющих классическое индексирование и ранжирование на основе фраз.


Мнения, выраженные в этой статье, принадлежат приглашенному автору, а не обязательно поисковой системе. Штатные авторы перечислены здесь.


Новое в поисковой системе

Об авторе

Olaf Kopp CK2 - Как Google использует НЛП для лучшего понимания поисковых запросов и контента

Олаф Копп — специалист по интернет-маркетингу с более чем 15-летним опытом работы в Google Ads, SEO и контент-маркетинге. Он является соучредителем, директором по развитию бизнеса и руководителем SEO в немецком агентстве интернет-маркетинга Aufgesang GmbH. Олаф Копп — автор, подкастер и всемирно признанный отраслевой эксперт в области семантического SEO, EAT, стратегий контент-маркетинга, управления путешествием клиентов и создания цифрового бренда. Он является соорганизатором PPC-Event SEAcamp и ведущим подкастов OM Cafe и Content-Kompass (на немецком языке)


Подборка статей о ИТ компаниях. Обмен опытом. Обучение востребованным профессиям в сфере IT. Маркетинг. Анализ рынка. Полезная информация. Подпишитесь на нас в социальных сетях, что бы не пропустить важное.

Информация для Вас была полезна?
0
0
0
0
0
0
0

Похожие статьи

Кнопка «Наверх»