Содержание страницы, анализ гиперссылок и данные об использовании

Предсказание будущего, основанное на знании прошлого, имеет фундаментальное значение. Я всегда внимательно слежу за технологическим прогрессом, но никогда не забываю прошлое.

Прошлые достижения и прорывы в области информационного поиска (IR) вызывают в воображении возможности «куда двигаться дальше» в технологии поиска.

Это подводит меня к тому, какое влияние это окажет на методы и методологии поисковой оптимизации (SEO) в будущем.

В предыдущем выпуске моей серии SEO «Назад в будущее» я вновь рассмотрел методы индексирования и ранжирования ключевых слов: 20 лет спустя я закончил, показав графику, объясняющую нечто, известное как «проблема изобилия». Это часто мешает методам чистого ранжирования по ключевым словам (на странице) размещать более авторитетные страницы в верхней части результатов. Актуально — да. Но авторитетный?

Для оценщиков качества Google EAT может существовать всего несколько лет. Но в области IR это всегда было в основе того, как и что делают поисковые системы.

В этой статье я рассмотрю, как далеко уходят опыт, авторитетность и надежность (EAT) и на чем они на самом деле основаны.

«ЕА-Т» 20 лет назад

В отрасли все еще существует много неясностей относительно того, что на самом деле означает «авторитетность» в смысле SEO. Как сайт/страница становится авторитетной?

Возможно, глядя на то, как «авторитет», а также термины «эксперт» и «доверие» вошли в лексикон IR и SEO, вы сможете лучше понять.

Вот график, который я создал еще в 2002 году, но в этой версии есть соответствующее улучшение, чтобы связать все это воедино.

Три основные категории поиска информации и веб-поиска, связанные с EAT.

Я буду использовать эту классическую графику интеллектуального анализа данных в Интернете, теперь с тремя буквами EAT, чтобы помочь лучше понять ее происхождение.

EAT сам по себе не алгоритм, а:

Экспертиза напрямую связана с содержанием страницы .
Полномочия подключаются непосредственно к анализу гиперссылок .
Доверие зависит от сочетания содержания страницы и анализа гиперссылок, а также данных о доступе конечных пользователей .

Все три аспекта интеллектуального анализа данных должны быть объединены в мета-поиске (или федеративном поиске), чтобы предоставить наиболее авторитетные страницы для удовлетворения информационных потребностей конечного пользователя. По сути, это взаимодополняющий ряд конвергентных алгоритмических механизмов ранжирования.

Как давний профессиональный член Ассоциации вычислительной техники, крупнейшего в мире компьютерного общества, я горжусь тем, что принадлежу к группе особых интересов по поиску информации (SIGIR). Моя основная область деятельности в этой группе — анализ гиперссылок и наука о ранжировании в поисковых системах.

Для меня это самая увлекательная область IR и SEO. Как я неоднократно говорил на многих конференциях на протяжении многих лет: «Не все ссылки одинаковы. Некоторые бесконечно равнее других».

И это хорошая отправная точка для следующего эпического чтения для товарищей по SEO Bravehearts.

Эволюция от текстовых методов ранжирования к алгоритмам ранжирования на основе гиперссылок

Давайте быстро рассмотрим основную причину того, что ссылки важны для всех поисковых систем, а не только для Google.

Во-первых, анализ социальных сетей имеет выдающуюся историю. За последние два десятилетия в научном сообществе резко возрос интерес и увлеченность идеей сетей и сетевой теорией. В качестве базового обзора это просто означает образец взаимосвязей между набором вещей.

Социальные сети — не новое явление для таких компаний, как Meta. Социальные связи среди друзей широко изучаются уже много лет. Существуют экономические сети, производственные сети, медиа-сети и многие другие сети.

Один эксперимент в этой области, получивший широкую известность за пределами научного сообщества, известен как «Шесть степеней разделения», о котором вы, возможно, хорошо знаете.

Интернет — это сеть сетей. А в 1998 году гиперссылочная структура Сети вызвала большой интерес у молодого ученого по имени Джон Клейнберг (теперь признанного одним из ведущих мировых ученых-компьютерщиков) и у пары студентов из Стэнфордского университета, в том числе у Google Ларри Пейджа и Сергея Брина. . В течение этого года эти трое разработали два самых влиятельных алгоритма ранжирования для анализа гиперссылок — HITS (или «Тематический поиск по гиперссылкам») и PageRank.

Чтобы было ясно, сеть не имеет предпочтения по той или иной ссылке. Ссылка есть ссылка.

Но для тех, кто работал в зарождающейся индустрии SEO в 1998 году, эта точка зрения полностью изменилась, когда Пейдж и Брин в статье, которую они представили на конференции в Австралии, сделали следующее заявление:

«Интуитивно стоит обратить внимание на страницы, которые хорошо цитируются во многих местах в Интернете».

А затем они дали раннюю подсказку, подтверждающую тот факт, что я подчеркнул, что «не все ссылки одинаковы», добавив следующее:

«Кроме того, страницы, которые имеют, возможно, только одну ссылку с чего-то вроде домашней страницы Yahoo, также обычно заслуживают внимания».

Это последнее утверждение задело меня по-настоящему и, как практика, заставило меня сконцентрироваться на разработке более элегантного подхода к связыванию методов привлечения и практик на протяжении многих лет.

В заключение этой статьи я собираюсь объяснить кое-что о своем подходе (который оказался чрезвычайно успешным), который, как мне кажется, концептуально изменит ваше представление о том, что называется «линкбилдингом», и изменю его на « построение репутации».

Истоки «авторитета» в поиске

В сообществе SEO слово «авторитет» часто используется, когда речь идет о Google. Но это не то, откуда возник этот термин (подробнее об этом позже).

В документе, который основатели Google представили на конференции в Австралии, примечательно, что, хотя они говорили об алгоритме анализа гиперссылок, они использовали не слово «ссылка», а слово «цитирование». Это потому, что PageRank основан на анализе цитирования.

Грубо говоря, это анализ частоты, шаблонов и графиков цитирования в документах (т. е. ссылок из одного документа в другой). Типичной целью было бы определить наиболее важные документы в коллекции.

Самым ранним примером анализа цитирования было изучение сети научных статей для выявления наиболее авторитетных источников. Его всеобъемлющая наука известна как «библиометрия», которая вписывается в категорию анализа социальных сетей и теории сетей, как я уже упоминал.

Вот как я перенес это 20 лет назад самым простым способом, чтобы показать, как Google просматривает данные о веб-ссылках.

«Некоторые ссылки на веб-страницах — это просто средства навигации для «просмотра» сайта. Другие ссылки могут предоставлять доступ к другим страницам, которые дополняют содержимое страницы, содержащей их. Андрей Бродер [главный научный сотрудник Alta Vista] отметил, что автор веб-страницы, скорее всего, создаст ссылку с одной страницы на другую из-за ее актуальности или важности: «Вы знаете, что очень интересно в Интернете, так это среда гиперссылок, которая несет много информации. Он говорит вам: «Я думаю, что эта страница хороша» — потому что большинство людей обычно перечисляют хорошие ресурсы. Очень немногие люди сказали бы: «Это худшие страницы, которые я когда-либо видел» и разместили бы ссылки на них на своих страницах!

Высококачественные страницы с хорошей, четкой и краткой информацией, скорее всего, будут иметь много ссылок, указывающих на них. В то время как на низкокачественных страницах будет меньше ссылок или их вообще не будет. Анализ гиперссылок может значительно повысить релевантность результатов поиска. Все основные поисковые системы теперь используют алгоритмы анализа ссылок».

Directed Edge 800x495 — содержимое страницы, анализ гиперссылок и данные об использовании

«Используя принцип цитирования/совместного цитирования, используемый в традиционной библиометрии, алгоритмы анализа гиперссылок могут делать одно или оба из этих основных предположений:
• Гиперссылка со страницы «а» на страницу «б» является рекомендацией страницы «б» автором страницы «а».
• Если страница «а» и страница «б» соединены гиперссылкой, то они могут относиться к одной и той же теме.

Алгоритмы на основе гиперссылок также используют неориентированный граф совместного цитирования. A и B соединены ненаправленным ребром тогда и только тогда, когда существует третья страница C, которая связывает и A, и B».

цитата 800x476 - содержание страницы, анализ гиперссылок и данные об использовании

Эта вторая часть имела гораздо более длинное объяснение в книге. Но так как это немного сбивает с толку, я приведу здесь очень упрощенный вариант.

Важно понимать сильные стороны как цитирования, так и совместного цитирования.

На первом рисунке есть прямые ссылки — одна страница использует гиперссылку для перехода к другой. Но если страница «c» ссылается на «a» и «b», а затем страница «d» ссылается на «a» и «b», а затем на страницу «e» и так далее и тому подобное, вы можете предположить, что хотя страница «а» и страница «b» не имеют прямой гиперссылки друг на друга, поскольку они цитируются так много раз, между ними должна быть какая-то связь.

Каким может быть реальный пример этого?

Ну, списки для начала. Страницы с «десяткой» самых продаваемых ноутбуков, «десяткой лучших» спортсменов или рок-звезд — вы можете видеть, насколько важным фактором для таких страниц является совместное цитирование.

Так где же в игру вступает этот алгоритм HITS, о котором вы, возможно, никогда не слышали?

Рассказывают, что в то время, когда Пейдж и Брин работали над своим алгоритмом PageRank, Клейнберг анализировал результаты ведущих поисковых систем того времени, в том числе самой быстрорастущей из них — Alta Vista. Он думал, что все они были довольно плохими и давали очень скудные результаты с точки зрения того, насколько они релевантны запросу.

Он искал термин «японский производитель автомобилей» и был очень разочарован, заметив, что ни одно из крупных имен, таких как Toyota и Nissan, не появилось нигде в результатах, не говоря уже о том, где они должны быть вверху.

Посетив веб-сайты крупнейших производителей, он заметил одну общую черту: ни на одной из страниц сайта в тексте не было слов «японский производитель автомобилей».

На самом деле, он искал слово «поисковая система», и даже Alta Vista не появилась в результатах поиска по той же самой причине. Это заставило его начать и сосредоточиться на подключении веб-страниц, чтобы дать представление о том, насколько они релевантны (и важны) для данного запроса.

Поэтому он разработал алгоритм HITS, который брал первую тысячу или более страниц после поиска по ключевым словам в Alta Vista, а затем ранжировал их в соответствии с их взаимосвязью.

По сути, он использовал структуру ссылок, чтобы сформировать сеть или «сообщество» вокруг темы ключевого слова и в рамках этой сети определить то, что он назвал «центрами и авторитетами».

Вот где слово «авторитет» вошло в лексикон SEO. Название диссертации Клейнберга было «Авторитетные источники в среде с гиперссылками».

Страницы-хаб — это страницы со множеством ссылок на «авторитеты» по заданной теме. Чем больше хабов связаны с данным органом власти, тем больше полномочий он получает. Это также взаимоусиливающее. Хороший центр также может быть хорошим авторитетом и наоборот.

Как обычно, никаких призов за мои навыки создания графики все эти годы назад, но именно так я представлял себе это в 2002 году. Хабы (красные) — это те, которые связаны со многими «авторитетами» (синие) внутри веб-сообществ.

Итак, что такое «веб-сообщество»?

Сообщество данных веб-страницы относится к набору веб-страниц, имеющих собственную логическую и семантическую структуру.

Сообщество веб-страниц рассматривает каждую веб-страницу как целостный объект, а не разбивает веб-страницу на информационные фрагменты и выявляет взаимные отношения между соответствующими веб-данными.

Он гибко отражает характер веб-данных, таких как динамика и неоднородность. На следующем рисунке каждый цвет представляет отдельное сообщество в Интернете.

Я всегда утверждал, что ссылки, привлеченные из вашего собственного веб-сообщества, имеют больший престиж, чем ссылки из-за пределов вашего сообщества.

Я объяснил больше о важности идентификации сообществ таким образом 20 лет назад:

«И что касается данных о связях: страницы, указывающие (ссылающиеся) на другие страницы, могут предоставить огромное количество информации о структуре, сообществах и иерархии (в основном называемой «топологией» сети). Используя эту методологию, поисковые системы могут попытаться идентифицировать интеллектуальную структуру (топологию) и социальные сети (сообщества) Интернета. Однако существует множество проблем с масштабированием с использованием методов анализа цитирования и совместного цитирования для работы с сотнями и сотнями миллионов документов с миллиардами цитирований (гиперссылок).
«Киберпространство» (как и в сети) уже имеет свои сообщества и районы. Хорошо — менее реально в смысле того, где ты живешь и с кем общаешься. Но в Интернете есть «социология». Любители музыки из разных культур и разного происхождения (и часовых поясов) не живут в одном географическом районе, но когда они связаны друг с другом в Интернете, они становятся большим сообществом. Точно так же, как любители искусства и люди из всех слоев общества, которые размещают свою информацию в Интернете и формируют эти сообщества или «связывают районы» в «киберпространстве».

Алгоритмы PageRank и HITS во многом схожи в том, как они анализируют взаимосвязанность веб-страниц для создания механизма ранжирования.

Но есть и существенная разница.

PageRank — это алгоритм ранжирования, не зависящий от ключевых слов, тогда как HITS зависит от ключевых слов.

С помощью PageRank вы получаете свой рейтинг авторитета независимо от сообщества, поскольку изначально это был статический глобальный рейтинг.

Принимая во внимание, что HITS зависит от ключевого слова, что означает, что оценка авторитета строится вокруг ключевого слова / фразы, которая объединяет сообщество. Детальное рассмотрение занимает слишком много времени и выходит за рамки этой статьи, поэтому я не буду здесь слишком углубляться.

Алгоритм, который ввел термин «эксперт»

Этот алгоритм Hilltop чрезвычайно важен, но ему уделяется меньше всего внимания. И это потому, что в профессиональных кругах существует твердое убеждение, что он был объединен с алгоритмическими процессами Google в 2003 году, когда произошло печально известное обновление Флориды.

Алгоритм Hilltop, который меняет правила игры, является гораздо более близкой производной от HITS и был разработан в 1999 году (да, примерно в то же время) Кришной Бхаратом.

В то время он работал в DEC Systems Research Center, которому принадлежала поисковая система AltaVista. Его исследовательская работа называлась «Когда эксперты согласны: использование независимых экспертов для ранжирования популярных тем». И вот как он описал Хиллтоп.

«Мы предлагаем новую схему ранжирования для популярных тем, которая помещает наиболее авторитетные страницы по теме запроса на первое место в рейтинге. Наш алгоритм оперирует специальным индексом «экспертных документов». Это подмножество страниц в Интернете, идентифицированных как каталоги ссылок на неаффилированные источники по определенным темам. Результаты ранжируются на основе соответствия между запросом и соответствующим описательным текстом для гиперссылок на экспертных страницах, указывающих на данную страницу результатов».

Да, именно здесь в SEO-лексикон вошел термин «эксперт». Обратите внимание, как в заголовке статьи, так и в описании процесса ваша страница считается экспертной, когда на нее ссылаются другие. Таким образом, термины «эксперт» и «авторитет» могут использоваться взаимозаменяемо.

Еще один момент, на который следует обратить внимание – это использование термина «неаффилированный» в описании алгоритма. Это может дать ключ к пониманию того, почему многие партнерские маркетологи так сильно пострадали от обновления во Флориде.

Также важно отметить, что в SEO-сообществе люди часто ссылаются на «авторитетные сайты» (или иногда на «авторитеты домена», что даже не имеет значения). Но дело в том, что поисковые системы возвращают в своих результатах по запросу веб-страницы, а не веб-сайты.

Чем больше ссылок вы привлекаете с других «экспертных» страниц, тем больше авторитета вы получаете, и тем больше «престижа» вы можете добавить другой экспертной странице, ссылаясь на нее. В этом вся прелесть построения «репутации» в сообществе, а не просто сбора ссылок.

Всякий раз, когда я объясняю важность признания в качестве эксперта в веб-сообществе, как это было в течение последних двух десятилетий, я знаю, что иногда людям трудно представить, как это будет выглядеть.

К счастью, много лет назад в своей исследовательской работе я наткнулся на другой алгоритм, разработанный двумя японскими учеными, Масаси Тойода и Кентаро Фукути. Их подходом также было веб-сообщество, но они смогли вывести свои результаты визуально.

Пример, который я взял у них, был тем, что они использовали, когда создавали веб-сообщество вокруг производителей компьютеров. Вот небольшая часть результатов, которые я поднял, чтобы использовать на сессиях конференции, чтобы помочь всем получить более реальное представление об этом понятии.

Пример эксперта в веб-сообществе производителей компьютеров.

Обратите внимание, что в веб-сообщество входят не только производители компьютеров, но и производители устройств, кабелей, программного обеспечения и т. д. Это показывает, насколько широким и глубоким может быть веб-сообщество (а также узким и неглубоким).

Как появилось «доверие»

Многое зависит от «экспертизы» и «авторитетности» и не меньше от «доверия».

Даже «доверие» относится к области анализа гиперссылок и структуры сети. Проделана большая работа по использованию контента и подключению «экспертных страниц», которым доверяют для обнаружения и отсеивания спама. С помощью методов искусственного интеллекта и машинного обучения эти шаблоны подключения гораздо легче обнаружить и устранить.

Когда-то был разработан алгоритм, известный как «TrustRank», на котором он и был основан. Конечно, лакмусовая бумажка на «доверие» действительно приходится на конечного пользователя.

Поисковые системы стараются отсеивать спам и предоставлять результаты, которые действительно удовлетворяют информационные потребности пользователей. Таким образом, шаблоны доступа пользователей к страницам предоставляют огромное количество данных о том, какие страницы проходят тест веб-сообщества (подключение), а затем те, которые проходят тест конечного пользователя (данные доступа пользователя).

Как я уже говорил, ссылки с других веб-страниц на ваши страницы можно рассматривать как «голосование» за ваш контент. Но как насчет миллионов и миллионов конечных пользователей, у которых нет веб-страниц, чтобы дать вам ссылку – как они могут голосовать?

Они делают это со своим «доверием», нажимая на одни результаты — или не нажимая на другие.

Все дело в том, потребляют ли конечные пользователи ваш контент, потому что если нет, то какой смысл Google возвращать его в результатах после запроса?

Что означают «эксперт», «авторитет» и «доверие» в поиске

Подводя итог, вы не можете объявлять себя экспертом на своих собственных страницах.

Вы можете «претендовать» на звание эксперта или авторитета в определенной области или мирового лидера в том или ином.

Но философски Google и другие поисковые системы говорят: «Кто еще так думает?»

Это не то, что вы говорите о себе. Это то, что другие люди говорят о вас (текст ссылки). Так вы создаете «репутацию» в своем сообществе.

Более того, оценщики качества Google сами по себе не определяют, является ли ваш контент «экспертным», вы «авторитетный» или нет. Их работа состоит в том, чтобы проверить и определить, выполняют ли алгоритмы Google свою работу.

Это такая захватывающая тема, и есть так много всего, что можно охватить. Но сейчас у нас нет времени и места.

В следующий раз я объясню, насколько важны структурированные данные и «семантическая» связь в вашем веб-сообществе.

А пока наслаждайтесь золотыми красками осени, пока мы переходим в другое время года с большим нетерпением ожидая следующего эпического чтения о внутренней работе поисковых систем.

Мнения, выраженные в этой статье, принадлежат приглашенному автору, а не обязательно поисковой системе. Штатные авторы перечислены здесь.

Новое в поисковой системе

Об авторе

Mike Grehan is an SEO pioneer (online since 1995), author, world-traveler and keynote speaker, Champagne connoisseur and consummate drinking partner to the global digital marketing community. He is former publisher of Search Engine Watch and ClickZ, and producer of the industry’s largest search and social marketing event, SES Conference & Expo. Proud to have been chairman of SEMPO the largest global trade association for search marketers. And equally proud to be SVP of corporate communications, NP Digital. He also is the creator of Search Engine Stuff, a streaming TV show/podcast featuring news and views from industry experts.

Подборка статей о ИТ компаниях. Обмен опытом. Обучение востребованным профессиям в сфере IT. Маркетинг. Анализ рынка. Полезная информация. Подпишитесь на нас в социальных сетях, что бы не пропустить важное.

Информация для Вас была полезна?