Информационный поиск: введение для SEO-специалистов

Когда мы говорим о поиске информации, как SEO-специалисты, мы, как правило, уделяем большое внимание этапу сбора информации — сканированию.

На этом этапе поисковая система будет обнаруживать и сканировать URL-адреса, к которым у нее есть доступ (объем и широта зависят от других факторов, которые мы в просторечии называем краулинговым бюджетом).

Этап обхода — это не то, на чем мы собираемся сосредоточиться в этой статье, и я не собираюсь подробно рассказывать о том, как работает индексация.

Если вы хотите узнать больше о сканировании и индексировании, вы можете сделать это здесь.

В этой статье я расскажу о некоторых основах поиска информации, понимание которых может помочь вам лучше оптимизировать веб-страницы для ранжирования.

Это также может помочь вам лучше анализировать изменения алгоритмов и обновления страницы результатов поисковой системы (SERP).

Чтобы понять и оценить, как современные поисковые системы обрабатывают практический поиск информации, нам необходимо понять историю поиска информации в Интернете, особенно то, как она связана с процессами поисковых систем.

Что касается поиска цифровой информации и базовых технологий, принятых поисковыми системами, мы можем вернуться к 1960-м годам и Корнелльскому университету, где Джерард Солтон возглавлял группу, разработавшую систему информационного поиска SMART.

Солтону приписывают разработку и использование моделирования векторного пространства для поиска информации.

Векторные космические модели

Модели векторного пространства приняты в сообществе специалистов по данным как ключевой механизм в том, как поисковые системы «ищут» и такие платформы, как Amazon, предоставляют рекомендации.

Этот метод позволяет процессору, такому как Google, сравнивать различные документы с запросами, когда запросы представлены в виде векторов.

Google называет это в своих документах поиском по сходству векторов или «поиском ближайшего соседа», определенным Дональдом Кнутом в 1973 году.

При традиционном поиске по ключевым словам процессор будет использовать ключевые слова, теги, метки и т. д. в базе данных для поиска релевантного контента.

Это весьма ограничено, поскольку сужает поле поиска в базе данных, поскольку ответ представляет собой бинарный вариант «да» или «нет». Этот метод также может быть ограничен при обработке синонимов и связанных сущностей.

Чем ближе два объекта с точки зрения близости, тем меньше расстояние между векторами и тем выше их сходство/точность.

Чтобы бороться с этим и предоставлять результаты для запросов с несколькими распространенными интерпретациями, Google использует сходство векторов, чтобы связать вместе различные значения, синонимы и сущности.

Хороший пример — когда вы гуглите мое имя.

Загуглить, [dan taylor] может быть:

Я, SEO человек.
Британский спортивный журналист.
Репортер местных новостей.
Лейтенант Дэн Тейлор из «Форреста Гампа».
Фотограф.
Создатель моделей.

Используя традиционный поиск по ключевым словам с бинарными критериями «да/нет», вы не получите такой разброс результатов на первой странице.

При векторном поиске процессор может создать страницу результатов поиска на основе сходства и взаимосвязей между различными объектами и векторами в базе данных.

Вы можете прочитать блог компании здесь, чтобы узнать больше о том, как Google использует это в нескольких продуктах.

Сопоставление подобия

При таком сравнении документов поисковые системы, скорее всего, используют комбинацию взвешивания терминов запроса (QTW) и коэффициента сходства.

QTW применяет взвешивание к определенным терминам в запросе, которое затем используется для вычисления коэффициента сходства с использованием модели векторного пространства и рассчитывается с использованием коэффициента косинуса.

Косинусное сходство измеряет сходство между двумя векторами и при анализе текста используется для измерения сходства документов.

Это вероятный механизм, с помощью которого поисковые системы определяют дублирующийся контент и ценностные предложения на веб-сайте.

Косинус измеряется между -1 и 1.

Традиционно на косинусном графике подобия оно будет измеряться между 0 и 1, где 0 означает максимальное несходство или ортогональность, а 1 — максимальное сходство.

Роль индекса

В SEO мы много говорим об индексе, индексировании и проблемах с индексированием, но не говорим активно о роли индекса в поисковых системах.

Цель индекса состоит в том, чтобы хранить информацию, которую Google делает с помощью многоуровневых систем индексации и осколков, чтобы действовать как резервуар данных.

Это связано с тем, что удаленный доступ (сканирование) веб-страниц, анализ их содержимого, его оценка, а затем представление SERP в режиме реального времени нереалистичны, убыточны и неудобны для конечного пользователя.

Как правило, индекс современной поисковой системы не содержит полной копии каждого документа, а скорее представляет собой базу данных ключевых моментов и данных, которые были токенизированы. Сам документ будет жить в другом кэше.

Хотя мы точно не знаем процессы, через которые будут проходить поисковые системы, такие как Google, как часть своей системы поиска информации, они, вероятно, будут иметь следующие этапы:

Структурный анализ – Формат и структура текста, списки, таблицы, изображения и т. д.
Стемминг — Приведение вариантов слова к его корню. Например, «поиск» и «поиск» будут сокращены до «искать».
Лексический анализ – Преобразование документа в список слов с последующим синтаксическим анализом для определения важных факторов, таких как даты, авторы и частотность терминов. Обратите внимание, что это не то же самое, что TF*IDF.

Мы также ожидаем, что на этом этапе будут учитываться другие соображения и точки данных, такие как обратные ссылки, тип источника, соответствует ли документ порогу качества, внутренние ссылки, основной контент/вспомогательный контент и т. д.

Точность и пост-поиск

В 2016 году Пол Хаар подробно рассказал, как Google измеряет «успех» своего процесса, а также как он применяет корректировки после поиска.

Посмотреть его презентацию можно здесь.

В большинстве информационно-поисковых систем есть две основные меры того, насколько успешно система возвращает хороший набор результатов.

Это точность и отзыв.

Точность

Количество возвращенных релевантных документов по сравнению с общим количеством возвращенных документов.

Многие веб-сайты столкнулись с падением общего количества ключевых слов, по которым они ранжируются за последние месяцы (например, странные ключевые слова, по которым они, вероятно, не имели права ранжироваться). Можно предположить, что поисковые системы совершенствуют систему поиска информации для большей точности.

Отзывать

Количество релевантных документов по сравнению с общим количеством возвращенных релевантных документов.

Поисковые системы больше ориентируются на точность, чем на полноту, поскольку точность приводит к лучшим страницам результатов поиска и большей удовлетворенности пользователей. Он также менее требователен к системе, так как возвращает больше документов и обрабатывает больше данных, чем требуется.

Вывод

Практика поиска информации может быть сложной из-за различных используемых формул и механизмов.

Например:

Поскольку мы не полностью знаем или не понимаем, как этот процесс работает в поисковых системах, нам следует больше сосредоточиться на предоставленных основах и рекомендациях, а не пытаться играть с такими показателями, как TF*IDF, которые могут использоваться или не использоваться (и различаться по тому, как они оцениваются). в общем итоге).

Дополнительные ресурсы:

Рекомендуемое изображение: BRO.vector/Shutterstock

Подборка статей по SEO оптимизации сайта. Выбора стратегии продвижения. Продвижение сайта в поисковых системах и социальных сетях. Обучение востребованным профессиям в сфере IT. Настройка рекламных кампаний в интернет. Маркетинг. Анализ рынка. Полезные секреты проведения рекламных кампаний. Все для PR — менеджера.

Информация для Вас была полезна?

Время чтения: 4 мин.

Информационный поиск: введение для SEO-специалистов