Статьи

Оптимизация 2023: анализ текста в 2024 году и методы повышения релевантности страниц

На «Оптимизации 2023» в рамках секции «Жесткое SEO» независимый SEO-эксперт Андрей Джилавдаров выступил с докладом «Анализ текста в 2024 году».

Андрей сказал:



  • Как нейронные сети помогают улучшить качество поиска.
  • Как прочитать намерение, определенное нейронной сетью, и как идентифицировать запросы маркеров для анализа.
  • Показаны практические методы повышения релевантности страниц в конкурентных нишах, чтобы не быть «как все».

Ищите все отзывы по тегу «Оптимизация 2023».

Ранжирование текста

Задача поиска – оценить и дать ответ. Для этого у него есть инструменты (ML-машинное обучение, факторы ранжирования, нейронные сети), экспертные рейтинги и метрики качества поиска, то есть того, что поиск считает хорошим ответом.

История качества поиска

  • Если посмотреть историю качества поиска, то до 2016 года работали простые вещи (TF-IDF, VM-25, BCLM) — всё, что связано с вхождением ключевых слов, количеством вхождений, порядком слов.
  • С 2016 года были запущены первые нейронные сети Палеха и Королева (DSSM), а также цели обучения — поведенческие факторы.
  • В 2019 году состоялось первое обучение нейронных сетей с использованием экспертных оценок. Тогда можно было бы поставить одно слово в Заголовок и попасть в ТОП. Это были первые нейронные сети, обучавшиеся с помощью экспертной оценки.
  • В 2020 году появилась новая архитектура для анализа текста — преобразователь YATI.
  • В 2021-2022 годах дополнительное обучение проходило практически по всем экспертным нишам, важным для оценки. Сначала были лекарства, но потом привезли и остальные.

Коротко о ЯТИ

YATI — это просто еще один трансформер с улучшениями.

Схема работы ЯТИ

Схема работы ЯТИ

Это модель или архитектура, которая рассматривает текст как последовательность токенов. Слово — это один токен. А поскольку эта модель видит текст целиком, она превращает каждое слово в тексте в семантический вектор, передающий значение слова в этом предложении.

Трансформеры имеют механизм самовнимания, поэтому он получает информацию от окружающих слов, то есть от всего текста в целом. Таким образом, мы получаем контекстно-зависимое значение слова во всем большом тексте.

При обучении YATI мы использовали ту же модель обучения, что и в BERT, Masked Language Model, когда половина слов в текстах была покрыта и модели предлагалось предсказать эти слова. Если она их правильно восстановила, то они считали, что обучили ее. Но параллельно с этим ей еще и предлагали угадать, был ли кликнут документ по данному запросу.

Далее нейронную сеть необходимо обучить для более сложных целей. Он использует накопленные данные Яндекса, такие как наценки качества хостинга, наценки релевантности страниц и многоаспектные рейтинги экспертов.

Как улучшить качество поиска по сложным темам?

Сложные темы – медицина, технологии, финансы, право, программное обеспечение, программирование и другие. Суть общая: обычный человек, а не эксперт, вряд ли сможет понять, что релевантно в результатах поиска, а что нет.

В чем может быть проблема?

  1. Проблемы с метриками. Допустим, люди-оценщики не знают сложной темы и могут формально поставить соответствующую оценку не тому сайту.
  2. Проблемы с моделями. Например, когда модели не видят какие-то слова, сленг или какое-то содержимое части документа.
  3. Проблемы с количеством соответствующих хостов или документов в индексе. Например, когда Google запустил BERT, оказалось, что Google показывает в результатах поиска большой пласт медицинских сайтов региональных клиник, а в Яндексе эти сайты даже не берутся в первичную обработку по медицинским запросам.

В 2021-2022 годах Яндекс усовершенствовал нейросеть:

  • добавлены актуальные предложения;
  • в часть документа добавлены заголовки, начало текста документа (60 символов) и описание документа. То есть описание документа, которое сеошники никогда не заполняли, теперь тоже попадает в нейросеть, в презентацию документа.

Что такое актуальное предложение?

Когда человек ищет текст, поиск выбирает нужное вхождение на подходящем сайте и подбирает релевантный текст вокруг. Этот текст попадает в представление расширения документа.

Еще один важный момент — теперь, когда пользователь задает запрос, сразу определяется его тематика. Затем из индекса выбирается группа сайтов по нужной тематике и ранжируется среди них.

Качества, которыми должен обладать ответ

  1. Релевантность страницы. Ответ должен соответствовать потребностям пользователя (содержать необходимые вхождения).
  2. Заполненность страницы. Ответ должен быть полным с учетом всех возможных намерений пользователя. Это значит, что на многие темы, например, медицинские, есть стандартные ответы.
  3. Регион пользователя. Если содержание ответа зависит от региона, хорошей будет только та страница, которая соответствует региону пользователя.
  4. Актуальность информации. Если содержание ответа со временем меняется, хорошим сайтом будет тот, который содержит самую актуальную на данный момент информацию.
  5. Соответствие ОС. Мобильная или настольная версия для разных пользователей.
  6. Запросить язык. Ответ на языке пользователя лучше, чем ответ на любом другом языке.
  7. Исходное доверие (EAT). Ресурс, дающий ответ, должен быть авторитетным. Нейронная сеть прекрасно понимает, какой перед ней ресурс и какого он качества.

Намерения

На скриншоте представлен список намерений, существующих в медицине.

Намерения в запросах на медицинскую тему

Намерения в запросах на медицинскую тему

Но что делать, когда в запросе нет умысла?

Давайте посмотрим, что сейчас передается в ЯТИ для подачи документов:

Пример представления документа в YATI

Пример представления документа в YATI

Есть Заголовок, субтитры, начало контента, разбивка URL, то есть виден хост, ЧПУ и описание и соответствующие предложения. Поэтому, когда вы анализируете запросы, вы можете взять, например, ТОП-30 результатов поиска и просмотреть все эти зоны сайтов и построить частотный словарь.

Нейронная сеть выводит в топ те документы, где прописаны четкие намерения.

По словам Андрея, сейчас один из самых продуктивных подходов — просто взять свои топовые кластеры, посмотреть, какие намерения они содержат, и составить из них четкое, детальное техническое задание, где будут прописаны все пункты текста.

То есть мы не исходим из того, что у нас есть какие-то ключевые слова, мы исходим из того, что у нас есть намерения, каждое намерение имеет свою семантику, его нужно просто встроить в статью.

Структура статьи, где каждая часть раскрывает свою цель.

Структура статьи, где каждая часть раскрывает свою цель.

Но специалисты по SEO хотят оптимизировать.

Как повысить релевантность страницы?

Что еще можно сделать:

1. Используем длинные вхождения ключевых слов (3 и более слов) в заголовке и подзаголовках.

2. Ключевые события:

  • из семантики составляем частотный словарь униграмм, биграмм и триграмм;
  • Проверяем покрытие текста ключами из словаря.

3. В генераторе акварели just-magic.org. Мы используем одно или несколько ключевых слов по частоте:

  • Проверяем покрытие текста биграммами из сервиса.

4. Делаем релевантные предложения = тексты для нулевых сниппетов.

Эти простые вещи помогают повысить релевантность текста.

Оценка запросов по весу Seo-excel

Из ключей с частотой можно построить скоринг или другими словами «Частота Климова».

Оценка запросов по весу Seo-excel

Оценка запросов по весу Seo-excel

На скриншоте в самом верху два запроса. Единственное отличие – это концовка. Дело в том, что вверху располагаются все запросы, охватывающие менее частые запросы с правильным порядком слов. Поэтому вы можете сделать подобную разбивку и понять, что вы поместите в заголовок, а что в подзаголовки.

О семантике. Частотный словарь SemTools.guru

Частотный словарь SemTools.guru

Частотный словарь SemTools.guru

Если у вас много запросов, то не нужно вставлять их все в текст. Достаточно просто разрезать их на униграммы и биграммы, то есть разбить на мелкие дроби и проверить вхождения. Для разбивки можно воспользоваться любым сервисом, например SemTools.guru.

Тематические слова JustMagic

Тематические слова в Just-magic.org

Тематические слова в Just-magic.org

Принцип аналогичен предыдущему пункту. Андрей советует использовать биграммы запросов, потому что у Яндекса много рейтингов и таргетов на основе биграмм. А если мы построим частотный словарь, то увидим, что основные намерения у некоторых наших слов присутствуют рядом. Это означает, что все сошлось правильно.

Далее берем все наши униграммы, биграммы, тематические слова и просто проверяем текст:

Тематические слова в Just-magic.org

Если мы видим что-то подобное, значит, текст условно релевантный. То есть в нем есть все подзаголовки, вхождения запросов и это работает.

Актуальные предложения в Сеолемме

Сервис Seolemma имеет соответствующую проходную функцию. То есть в нем вы можете увидеть вхождение ключа у себя и у конкурентов. Просто сравните.

Если, например, у вас есть все вхождения ключевых слов с некоторыми словами, несущими значение «с водой», то сервис покажет, что IDF небольшой. А если с какими-то запросами, имеющими смысл, то IDF большой.

Сервис не от Яндекса, но у него есть собственная база данных примерно из 30 миллионов URL-адресов, поэтому вы можете сосредоточиться на нем.

Как выглядят актуальные предложения:

актуальные предложения

В тексте можно сделать несколько подобных включений. Берем любой запрос, проверяем нулевой фрагмент в Яндексе или Гугле и пытаемся внести такое же пояснение в наш текст.


Подборка статей о продвижении сайта в интернет. Обучение востребованным профессиям в сфере IT. Маркетинг. Анализ рынка. Полезные секреты проведения рекламных кампаний. Подпишитесь на нас в социальных сетях, что бы не пропустить важное.

Информация для Вас была полезна?
0
0
0
0
0
0
0

Похожие статьи

Кнопка «Наверх»