Стратегия SEO

Семантический поиск с векторами

Если вы следите за последними новостями в области поиска, вы, вероятно, слышали о векторном поиске.

И, возможно, вы даже начали копаться в теме, чтобы попытаться узнать о ней больше, только чтобы выйти с другой стороны в замешательстве. Разве ты не бросил эту математику еще в колледже?

Построение векторного поиска затруднено. Понимание этого быть не должно.

И понимание того, что векторный поиск — это не будущее, а гибридный поиск, — это не менее важно.

Что такое векторы?

Когда мы говорим о векторах в контексте машинного обучения, мы имеем в виду следующее: векторы — это группы чисел, которые что-то представляют.

Это может быть изображение, слово или почти что угодно.



Вопросы, конечно, заключаются в том, почему эти векторы полезны и как они создаются.

Давайте сначала посмотрим, откуда берутся эти векторы. Короткий ответ: машинное обучение.

У Джея Аламмара, возможно, лучший пост в блоге, когда-либо написанный на какие векторы.

Подводя итог, можно сказать, что машинное обучение моделирует входные данные (с этого момента будем считать только слова) и пытается найти наилучшие формулы для предсказания чего-то еще.

Например, у вас может быть модель, которая принимает слово «пчела» и пытается найти лучшие формулы, которые будут точно предсказывать, что «пчела» рассматривается в тех же контекстах, что и «насекомые» и «осы».

Как только эта модель получит наилучшую формулу, она сможет преобразовать слово «пчела» в группу чисел, которые по случайности будут похожи на группу чисел для «насекомых» и «ос».

Почему векторы сильны

Векторы действительно сильны по этой причине: Большие языковые модели, такие как Generative Pre-trained Transformer 3 (GPT-3) или модели Google, учитывают миллиарды слов и предложений, поэтому они могут начать устанавливать эти связи и стать по-настоящему умными.

Легко понять, почему люди так рады применить этот интеллект для поиска.

Некоторые даже говорят, что векторный поиск заменит поиск по ключевым словам мы знаем и любим на протяжении десятилетий.

Однако дело в том, что векторный поиск не заменяет поиск по ключевым словам. Мысль о том, что поиск по ключевым словам не сохранит огромную ценность, слишком оптимистична в отношении нового и блестящего.

Векторный поиск и поиск по ключевым словам имеют свои сильные стороны, и они работают лучше всего, когда работают вместе.

Векторный поиск запросов с длинным хвостом

Если вы работаете в сфере поиска, вы, вероятно, хорошо знакомы с длинным хвостом запросов.

Эта концепция, популяризирован Крисом Андерсоном для описания цифрового контентаговорит, что есть некоторые элементы (по поисковым запросам), которые намного популярнее всего остального, но есть множество отдельных элементов, которые все еще кому-то нужны.

Так и с поиском.

Несколько запросов (также называемых «головными» запросами) обрабатываются много раз, но подавляющее большинство запросов обрабатываются очень мало — может быть, даже один раз.

Цифры будут отличаться от сайта к сайту, но на среднем сайте около трети общего количества поисковых запросов может быть получено всего за несколько десятков запросов, в то время как почти половина объема поиска приходится на запросы, которые не входят в 1000 самых популярных.

Запросы с длинным хвостом, как правило, длиннее, и они могут быть даже запросами на естественном языке.

Исследование моей компании Algolia показало, что 75% запросов состоят из двух или менее слов. 90% запросов состоят из четырех или менее слов. Затем, чтобы получить 99% запросов, вам нужно 13 слов!

Однако они не всегда длинные, они могут быть просто неясными. Для веб-сайта, посвященного женской моде, «лиловое платье» может быть длинным запросом, потому что люди не часто спрашивают этот цвет. «Браслет» также может быть редко встречающимся запросом, даже если на веб-сайте есть браслеты для продажи.

Векторный поиск обычно отлично работает для запросов с длинным хвостом. Он может понимать, что браслеты похожи на браслеты, и отображать браслеты даже без настройки синонимов. Он может показывать розовые или фиолетовые платья, когда кто-то ищет что-то лилового цвета.

Векторный поиск может хорошо работать даже для длинных запросов или запросов на естественном языке. «Что-нибудь, чтобы мои напитки оставались холодными» выведет холодильники в хорошо настроенном векторном поиске, тогда как при поиске по ключевым словам вам лучше надеяться, что текст находится где-то в описании продукта.

Другими словами, векторный поиск увеличивает отзыв результатов поиска или количество найденных результатов.

Как работает векторный поиск

Векторный поиск делает это, беря те группы чисел, которые мы описали выше, и задавая векторному поисковику вопрос: «Если бы я изобразил эти группы чисел в виде линий, какие из них были бы ближе всего друг к другу?»

Простой способ осмыслить это — подумать о группах, которые имеют только два числа. Группа [1,2] будет ближе к группе [2,2] чем это было бы для группы [2,500].

(Конечно, поскольку внутри векторов находятся десятки чисел, они «графируются» в десятках измерений, что не так просто визуализировать.)

Этот подход к определению подобия является мощным, потому что векторы, представляющие такие слова, как «доктор» и «медицина», будут «нарисованы на графике» гораздо более похожими, чем слова «доктор» и «рок».

Недостатки векторного поиска

Однако у векторного поиска есть и недостатки.

Во-первых, это стоимость. Все то машинное обучение, о котором мы говорили выше? У него есть затраты.

С одной стороны, хранение векторов обходится дороже, чем хранение поискового индекса на основе ключевых слов. Поиск по этим векторам также в большинстве случаев медленнее, чем поиск по ключевым словам.

Теперь хеширование может смягчить обе эти проблемы.

Да, мы вводим больше технических концепций, но это еще одна довольно простая для понимания основ.

Хеширование выполняет ряд шагов для преобразования некоторой части информации (например, строки или числа) в число, которое занимает меньше памяти, чем исходная информация.

Оказывается, мы также можем использовать хеширование для уменьшения размеров векторов сохраняя при этом то, что делает векторы полезными: их способность сопоставлять концептуально похожие элементы.

Используя хеширование, мы можем сделать поиск векторов намного быстрее, и в целом векторы будут занимать меньше места.

Детали очень технические, но важно понимать, что это возможно.

Постоянная полезность поиска по ключевым словам

Это не означает, что поиск по ключевым словам бесполезен! Поиск по ключевым словам, как правило, быстрее векторного поиска.

Кроме того, легче понять, почему результаты ранжируются таким образом.

Возьмем пример запроса «техас», «теджано» и «штат» в качестве потенциальных совпадений слов. Очевидно, что «tejano» ближе, если мы посмотрим на сравнение с точки зрения чистого поиска по ключевым словам. Однако не так просто сказать, что было бы ближе из подхода векторного поиска.

Поиск на основе ключевых слов понимает «техас» как более похожий на «теджано», потому что он использует текстовый подход к поиску записей.

Если записи содержат слова, точно такие же, как в запросе (или в пределах определенного уровня различий для учета опечаток), то запись считается релевантной и возвращается в наборы результатов.

Другими словами, поиск по ключевым словам фокусируется на точности результатов поиска или обеспечении релевантности возвращаемых записей, даже если их меньше.

Поиск по ключевому слову как полезный для главных запросов

По этой причине поиск по ключевым словам очень хорошо работает для головных запросов: тех запросов, которые являются наиболее популярными.

Головные запросы, как правило, короче, и их также легче оптимизировать. Это означает, что если по какой-либо причине ключевое слово не соответствует правильному тексту в записи, оно часто обнаруживается с помощью аналитики и можно добавить синоним.

Поскольку поиск по ключевым словам лучше всего подходит для головных запросов, а векторный поиск лучше всего работает для длинных хвостовых запросов, они лучше всего работают вместе.

Это известно как гибридный поиск.

Гибридный поиск — это когда поисковая система использует как поиск по ключевым словам, так и векторный поиск для одного запроса и правильно ранжирует записи, независимо от того, какой подход к поиску их вызвал.

Рекорды рейтинга в поисковых источниках

Ранжировать записи, полученные из двух разных источников, непросто.

Эти два подхода по самой своей природе имеют разные способы подсчета очков.

Векторный поиск вернет оценку, в то время как некоторые поисковые системы, основанные на ключевых словах, этого не сделают. Даже если механизмы, основанные на ключевых словах, действительно возвращают оценку, нет гарантии, что эти две оценки эквивалентны.

Если оценки не эквивалентны, то вы не можете сказать, что оценка 0,8 от механизма ключевых слов более релевантна, чем оценка 0,79 от векторного механизма.

Другой альтернативой может быть обработка всех результатов с помощью векторного механизма или механизма ключевых слов.

Преимущество этого заключается в получении дополнительного отзыва от векторного движка, но есть и некоторые недостатки. Эти дополнительные вызванные результаты, полученные векторным движком, не будут оценены как релевантные на основе оценки ключевого слова, иначе они уже появились бы в наборе результатов.

В качестве альтернативы вы можете запустить все результаты — ключевые слова или что-то другое — через векторную оценку, но это медленно и дорого.

Векторный поиск как запасной вариант

Вот почему некоторые поисковые системы даже не пытаются смешивать эти два метода, а вместо этого всегда сначала отображают результаты ключевых слов, а затем векторные результаты.

Мысль здесь заключается в том, что если поиск возвращает ноль или мало результатов, вы можете вернуться к векторным результатам.

Помните, что векторный поиск направлен на улучшение отзыва или поиск большего количества результатов, поэтому он может найти релевантные результаты, которых нет при поиске по ключевым словам.

Это достойная временная мера, но это не будущее настоящего гибридного поиска.

Настоящий гибридный поиск ранжирует несколько разных источников поиска в одном и том же наборе результатов, создавая оценку, сопоставимую для разных источников.

Сегодня проводится много исследований этого подхода, но немногие делают это хорошо и публикуют свой движок.

Итак, что это значит для вас?

Прямо сейчас лучшее, что вы можете сделать, это, вероятно, сидеть сложа руки и быть в курсе того, что происходит в отрасли.

Гибридный поиск на основе векторов и ключевых слов появится в ближайшие годы, и он будет доступен для людей, не имеющих групп специалистов по обработке и анализу данных.

Тем временем поиск по ключевым словам по-прежнему ценен и будет улучшен только тогда, когда позже будет введен векторный поиск.

Дополнительные ресурсы:


Рекомендуемое изображение: pluie_r/Shutterstock


Подборка статей по SEO оптимизации сайта. Выбора стратегии продвижения. Продвижение сайта в поисковых системах и социальных сетях. Обучение востребованным профессиям в сфере IT. Настройка рекламных кампаний в интернет. Маркетинг. Анализ рынка. Полезные секреты проведения рекламных кампаний. Все для PR — менеджера.

Информация для Вас была полезна?
0
0
0
0
0
0
0

Похожие статьи

Кнопка «Наверх»