Стратегия SEO

Релаксация запросов и область видимости как часть семантического поиска

Правильный поисковый запрос — это попытка в стиле Златовласки: не слишком конкретный, чтобы не получить результатов, и не слишком широкий, чтобы получить слишком много.

Семантический поиск, тем временем, заключается в понимании того, что искатели вводят в окно поиска.

Другими словами, при семантическом поиске мы встречаем искателей там, где они есть, вместо того, чтобы требовать, чтобы они встречали нас там, где находимся мы.

Введите смягчение запроса и область запроса.

Поисковые системы сразу же направляют пользователей к нужному контенту с помощью таких методов, как синонимы, удаление слов из запроса и определение области запроса.

Мы избегаем пропуска релевантной информации, которая в противном случае не появилась бы, и пропускаем информацию, которая не имеет отношения к делу.

Ослабление запросов и область видимости очень тесно связаны с концепцией точности и отзыва.

Точность измеряет, являются ли возвращаемые результаты релевантными, а полнота — возвращаются ли релевантные результаты.

Одним из конкретных способов увеличения отзыва является расширение запроса.

Query Expansion

Расширение запроса — это расширение того, чему будет соответствовать запрос, в надежде на получение лучших результатов.

Основная причина, по которой поисковая система может применять расширение запроса, связана с некоторыми признаками того, что «базовые» результаты поиска без расширения запроса не будут удовлетворительными для искателя.

В этой серии мы уже видели некоторые способы расширения запросов.

Допуск к опечаткам, игнорирование множественного числа, выделение корней и лемматизация — все это способы повысить запоминаемость результатов поиска.

Мы уже видели эти методы расширения запросов среди основ поиска, но другие методы расширения запросов также являются фундаментальными.

Статья в журнале Search Engine за 2008 год рассказывает о том, как Google выполняет расширение запроса!

В статье обсуждаются не только коррекция корней и опечаток, но и переводы, удаление слов и синонимы.

Synonyms And Alternatives

Есть причина, по которой Джордж Оруэлл ввел новояз в свой роман «1984» и почему он нашел отклик в рассказе о жизни, полностью контролируемой до пресности.

Лингвистическое богатство обусловлено способностью говорить одно и то же или почти одно и то же разными словами и фразами. «Отличный» может быть «потрясающим», а «недорогой» почти соседствует с «дешевым».

Между тем, эти разные слова могут помочь нам точнее относиться к предметам, сходным во всех отношениях, кроме самых незначительных.

Эти различия иногда настолько малы, что эта точность вместо этого порождает путаницу и снижает вероятность того, что мы найдем то, что хотим.

Клиент, которому нужно кресло-качалка, может не знать, следует ли искать «качалки», «кресла-качалки» или просто «кресла».

Именно здесь синонимы и альтернативы представляют ценность.

Они помогают нам увеличить запоминаемость в результатах поиска.

Синонимы и альтернативы похожи, но это не одно и то же.

(Можно сказать, что это не синонимы.)

Синонимы относятся к двум словам или фразам, которые означают одно и то же.

Вместо этого альтернативы относятся к похожим словам или фразам, но имеют некоторые различия.

Synonyms

Часто синонимы попадают в поисковую систему через списки синонимов.

Эти списки могут быть получены из предопределенных списков, таких как общие термины электронной торговли.

Проблема с предопределенными списками заключается в том, что синонимы для поисковой системы одной компании не обязательно будут работать для другой.

Быстро: что такое консоль? Вы можете сразу подумать о видеоиграх, но кто-то другой может подумать о машине или музыке.

По этой причине многие списки синонимов создаются собственными силами.

В начале процесса реализации поиска внутренние эксперты в предметной области обдумывают все слова, которые могут быть синонимами для других слов, и добавляют их в конфигурацию поисковой системы.

(На самом деле это часто идеализированное представление о том, что происходит. Часто человек, создающий список синонимов, является не экспертом в предметной области, а человеком, внедряющим поисковую систему.)

Как правило, этот первоначальный список является хорошей отправной точкой, но в нем обязательно будут отсутствовать синонимы.

Единственный реальный способ узнать, какие термины будут использовать ваши пользователи, — это позволить им искать.

Использование аналитики для поиска синонимов

Вы очень быстро увидите в своих аналитических запросах, которые могут использовать новые синонимы.

Эти запросы возвращают нулевые результаты и являются признаком того, что искатели ищут что-то, чего не могут найти.

Теперь не все эти запросы дадут вам новый синоним.

Иногда поисковики ищут предметы, которых у вас просто нет.

Тем не менее, вы увидите запросы, по которым вы сразу же подумаете: «О, у нас есть такой» и «Я не знал, что люди так просили об этом».

Также будут случаи, когда запрос возвращает результаты, но не то, что хочет искатель.

Эти запросы также могут дать вам идеи для синонимов, если вы отслеживаете «уточнения поиска».

Уточнения поиска представляют, когда искатели выполняют поиск, а затем снова выполняют поиск.

Это означает, что искатели не нашли то, что хотели в первый раз, и попытались снова найти что-то лучшее.

Кто-то ищет «ноутбук Dell», а затем «ноутбук Dell» говорит, что «ноутбук» и «ноутбук» связаны, но результатов поиска по слову «ноутбук» недостаточно.

Хотя нет ничего плохого в том, чтобы искать эти тенденции в вашей аналитике вручную (это может быть хорошим занятием, чтобы постепенно облегчить рабочую неделю), вы будете намного более продуктивны, если у вас есть система, которая проактивно находит их для вас.

Некоторые системы могут даже применять синонимы от вашего имени, но это не всегда полезно.

Человек может обнаружить уточнения, которые не показывают действительных синонимов, или может увидеть, что система предлагает неправильный тип синонима.

Типы синонимов

Правильно: существуют разные типы синонимов.

Поначалу эта концепция может показаться странной, но, вероятно, она не далека от того, что думает о них большинство людей.

«Двусторонний» — синоним первого типа. Эти синонимы являются прямыми заменами друг друга.

«Маленький» и «мини» — двусторонние синонимы друг друга.

Слова не обязательно должны быть идеальной заменой, но могут быть достаточно близки, чтобы люди могли использовать одно вместо другого.

Например, «веревка» и «веревка» не описывают одно и то же, но они достаточно близки, чтобы быть достойными двусторонними синонимами.

Может быть полезно подумать о запросе, созданном с использованием синонимов.

Если мы возьмем запрос «маленькая пицца с сыром» и расширим его, то теперь вы можете думать о запросе как «(маленькая или мини), сыр и пицца».

«Односторонний» — следующий тип синонима.

Этот тип часто используется для слов, которые относятся к объекту, принадлежащему к более крупной категории.

«PlayStation» — это тип «консоли» видеоигры, но «консоль» не является типом «PlayStation».

Если вы добавите односторонний синоним в конфигурацию поиска, вы можете отображать PlayStation каждый раз, когда кто-то ищет «консоль».

Почему бы не двусторонний синоним между этими двумя терминами?

Потому что двусторонние синонимы транзитивны.

Если термин один и термин два являются двусторонними синонимами, а термины два и три являются двусторонними синонимами, то термины один и три являются двусторонними.

В более прямом примере «PlayStation» и «консоль» и «Xbox» и «консоль» как две группы двусторонних синонимов будут означать, что «PlayStation» и «Xbox» являются синонимами, и пользователи, выполняющие поиск, увидят Playstation при поиске. Xbox и наоборот.

«Альтернативные исправления» — последний тип.

Они используются, когда слова не являются точной заменой друг друга, и вы хотите, чтобы точное совпадение отображалось выше, чем альтернатива.

Например, вы можете сказать, что «брюки» — это альтернатива слову «шорты», но когда кто-то ищет слово «шорты», все шорты должны отображаться выше, чем брюки в целом.

Все типы синонимов по своей природе расширяют память.

Однако точность должна быть минимальной, потому что эти синонимы являются «указателями» на похожие понятия.

Вы ожидаете лучшего поиска для конечного пользователя.

Query Word Removal

Иногда поисковики будут использовать запрос, который ничего не возвращает, потому что запрос был слишком конкретным или использовал слово, которого не было ни в одной из записей.

Удалите из запроса одно или два слова, и вы получите вполне приличные результаты.

Это прекрасное время, чтобы использовать удаление слова запроса.

Стоп-слова

Возможно, наиболее распространенным этапом удаления слова запроса является удаление «стоп-слов».

Стоп-слова — это очень распространенные слова, которые придают значение для общения, но не помогают при поиске. Такие слова, как «the» или «an», могут удалить хорошие совпадения.

Это чаще встречается в запросах, ориентированных на естественный язык, таких как запросы голосового поиска.

Примером этого может быть поиск «оранжевой рубашки» в поисковой системе.

Если поисковая система ищет по заголовку, цвету и категории, может быть много записей, в которых «рубашка» является категорией, а «оранжевый» — цветом, но ни одна из них не включает слово «ан».

Действительно, дает ли здесь слово «an» какую-либо полезную информацию?

Нет, это не так, и поисковая система может безопасно удалить его без потери точности.

В отличие от синонимов, вы обычно не хотите создавать свои собственные списки стоп-слов, и большинство поисковых систем имеют встроенные списки для каждого языка.

Однако бывают случаи, когда вы захотите расширить встроенный список, например, если у вас есть отраслевой термин, который настолько распространен, что не дает никакой ценности для запроса.

Удаление слов, если нет результатов

Затем есть запросы, в которых все слова имеют значение, но поиск вместе не дает результатов.

Часто поисковики довольствуются менее точными результатами в обмен на увеличение отзыва. В этих ситуациях мы хотим удалить слова, чтобы результаты были видны пользователю.

Есть два основных способа сделать это: сделать все слова запроса необязательными или удалить слова из запроса.

Если вы сделаете все слова запроса необязательными при отсутствии результатов, вы предполагаете, что записи, соответствующие большему количеству слов, более релевантны, при прочих равных условиях.

В качестве альтернативы можно удалять слова запроса одно за другим, пока не будут найдены совпадающие записи или пока в запросе не останется слов.

Вы можете начать с удаления первых или последних слов. Удаление последнего слова встречается чаще.

Делать все слова запроса необязательными, а затем сортировать по количеству совпадающих слов, как правило, лучший подход, особенно в сочетании с удалением стоп-слов.

Однако это менее идеальный подход, когда важна точность, и вы хотите показать, что действительно не было результатов, соответствующих всем словам запроса.

Одному человеку может быть удобно увидеть свитера с v-образным вырезом Uniqlo по запросу «свитера с v-образным вырезом Gucci», в то время как другой считает эти результаты совершенно неуместными.

Конечно, другой сценарий заключается в том, чтобы узнать, какие слова на самом деле представляют наибольшую ценность для запроса, и пометить их как необязательные.

Обычно это не наблюдается в поисковых системах на основе ключевых слов, но есть некоторые поисковые системы, которые применяют аналогичный подход к стоп-словам.

Например, некоторые поисковые системы экспериментировали с автоматическим обесцениванием общих слов без списков стоп-слов, используя обратную частоту документов.

Как и в случае с синонимами, удаление слова из запроса расширит память, обычно без ущерба для точности. Поскольку стоп-слова не имеют большого значения для результата, вы не потеряете хорошие результаты, не включив их.

Точно так же удаление слов, когда нет результатов, не снижает точности, потому что нет результатов, которые могли бы быть точными.

В первую очередь мы рассмотрели ситуации, когда искатель слишком точен, и поисковой системе необходимо расширить запрос, чтобы улучшить отзыв.

Точно так же бывают случаи, когда поисковая система может понять намерения пользователя, а область запроса может повысить точность.

Эксперт по поиску Даниэль Тункеланг называет область запроса «одним из самых эффективных способов уловить намерение запроса».

Он выделяет два основных этапа определения области запроса. Во-первых, это пометка запроса, за которой следует сама область видимости.

Тегирование запроса идентифицирует части запроса с атрибутами, которым они, вероятно, принадлежат.

Например, «Марсия», скорее всего, будет соответствовать атрибуту «имя», а «Семейка Брейди» — атрибуту «заголовок шоу».

Область действия запроса использует это сопоставление и ограничивает поиск атрибутов для этих частей запроса.

Поисковая система не ищет «Брэйди» внутри атрибута «имя» или «Марсия» в атрибуте «показать заголовок».

Такой вид области видимости запроса уменьшает отзыв, так как мы не увидим результатов, которые содержат этот текст в других атрибутах.

Однако в результате у нас должна быть более высокая точность, потому что мы не ищем нерелевантные атрибуты.

Мы могли бы еще больше повысить точность, отфильтровав результаты по известным значениям атрибутов.

Для этого даже не требуется машинное обучение, поскольку поисковая система может просто сопоставить значения фасетов и текст в запросе.

Это сильно снижает отзыв, поэтому мы также можем найти хороший баланс, в котором мы вместо этого повышаем результаты с помощью сопоставления значений, а не фильтрации.

Увеличенные результаты будут, как правило, наиболее подходящими, потому что соответствие запроса и фильтра дает вам сигнал о том, что это то, что нужно искателю.

Благодаря вашей аналитике или практическому опыту, если вы обнаружите, что в вашем поиске отсутствует намерение пользователя и требуется, чтобы поиск был «правильным», тогда расширение запроса и область запроса — это два способа откалибровать вашу точность и полноту.

Эти подходы позволят получить результаты, которые должны быть, и пропустить те, которые не должны быть.

Дополнительные ресурсы:


Featured Image: penguiin/Shutterstock

Похожие статьи

Кнопка «Наверх»