Автор: Диксон Джонс (Dixon Jones), директор по маркетингу Majestic SEO.
Еще задолго до появления алгоритма «Пингвин» было понятно: гораздо лучше, когда на ресурс ссылается несколько хороших сайтов, чем бессчетное количество спам-ресурсов. Однако выявить трастовые тематические сайты среди огромного массива не так-то просто. Тем не менее, делать это просто необходимо, поскольку в наши дни, количество и качество входящих ссылок на сайт приобретает критическое значение. Чтобы понять, как это можно сделать, имеет смысл рассмотреть основные этапы эволюции поисковых алгоритмов.
В статье приводятся примеры, основанные на обширных массивах данных сервиса Magestic. Если учесть, что пользователи Twitter’а отправляют в сеть до 500 млн. твитов в день, то алгоритмы Majestic сканируют и анализируют свыше 2 млрд. URL-ов в день, в целом же мощности сервиса позволяют фиксировать до 7 млрд. URL-ов в день. Таким образом, выводы, приведенные в материале, строятся на основе масштабных исследований, которые регулярно проводит команда Magestic на широкой выборке ресурсов.
Сегодня работа информационно-поисковых систем не ограничивается одним лишь сканированием и индексацией контента: важное место занимает классификация и группировка информации, а также предоставление её релевантной аудитории. Группировка контента по категориям позволяет не только классифицировать контент, но и способствует снижению объёмов веб-спама в интернете. Поисковые системы уже умеют распределять контент на основе анализа: IP-адресов; доменов верхнего уровня; содержимого видео; списков коммерческих организаций; карт и т.д. Кроме того, в наши дни поисковые системы научились довольно достоверно определять тип контента и формат ресурсов. Google, к примеру, с высокой четкостью отличает персональный блог от новостного портала, сайта-визитки или продающего ресурса.
Наличие сайта в каталоге DMOZ или содержимого его страниц в директориях становится все менее важным. Гораздо более существенное значение приобретает присутствие сайтов в базах таких ресурсов, как: Yelp и Tripadvisor.
Исследования показывают, что поисковые системы никогда не смогут окончательно отказаться от использования ссылок, поскольку именно анализ ключевых слов и ссылающихся источников позволяет им выявлять тематическую направленность ресурсов, устанавливать взаимосвязи между сайтами. Более того, анализируя контент, поисковые системы учатся устанавливать связи между объектами, реалиями окружающей действительности, персоналиями и сущностями. Наиболее крупные и популярные поисковые системы научились делать это качественно.
Изначальный смысл, заложенный в алгоритм PageRank, сводился к определению взаимосвязей между страницами, выявлению узлов и присвоению каждой странице определенной «ценности», исходя из ее авторитетности. При этом, как известно, учитывается не только количество ссылок, но и тематика ссылающихся ресурсов. Это делается, в том числе, и для того, чтобы алгоритмы поисковой системы могли самостоятельно обучаться и накапливать знания о тематической принадлежности контента; типе ресурсов, на которых он опубликован, пользователях, которые делятся ссылками на этот контент, и т.д.
Информационный поиск на более ранних стадиях развития поисковых систем сводился к следующим операциям:
Особое значение в процессе уделялось группировке данных, поскольку именно структурированная информация позволяет пользователям поиска гораздо быстрее находить интересующий их контент. Следующим этапом развития информационно-поисковых технологий стала категоризация имеющейся в интернете информации. Именно в этом шаге инженеры поисковых систем видели реальный способ борьбы с поисковым спамом.
Не стал исключением и поисковик Google, инженеры которого разработали ряд документов, призванных свести всю информацию, имеющуюся в глобальной сети, к спискам категорий и различных групп данных:
Специальная документация, описывающая особенности тематической классификации содержимого страниц сайта, приводится в следующих документах:
В общем виде принцип распределения информации по категориям сводится к следующему: весь существующий в глобальной сети контент объединяется в группы на основе сходства признаков. Ключевые слова изначально помогали определять эти признаки и относить их к той или иной группе, а количество ссылок, тематическая принадлежность и качество ссылающихся страниц давали возможность алгоритмам поисковых систем присваивать трастовость странице.
На этом этапе были заложены основы следующего принципа индексации: чем большую удаленность с точки зрения ссылочных связей имеет сайт от трастовых ресурсов, тем менее авторитетным считает его поисковик. И, наоборот, чем меньшее число переходов отделяет сайт от авторитетного ресурса, тем выше его трастовость, и тем лучше он будет ранжироваться в результатах поиска впоследствии.
Однако здесь возникали серьёзные проблемы: если учитывать каждый сигнал в отдельности, то вероятность ошибочной оценки страницы возрастает. Учет же всей совокупности сигналов, свидетельствующих о качестве источника, позволяет свести к минимуму вероятность ошибки. Тематическую направленность ресурса и его авторитетность в тематике постепенно стали учитывать все ведущие поисковики.
Классификация ссылающихся страниц и сайтов в зависимости от тематик для Bing.com в упрощённом виде выглядит так:
На следующем этапе развития поиска особое значение приобрёл Trust Flow (TF) – это алгоритм, подобный классическому TrustRank, который определяет качество ссылок по шкале от 0 до 100. Преимущества данного алгоритма в том, что он является более точным, чем PageRank, непрерывно обновляется, позволяет осуществлять количественное измерение показателей, дает возможность отслеживать степень качества страницы и сайта в целом. На сегодняшний день алгоритм различает не менее 800 типов контента. Кроме того, Trust Flow дает возможность анализировать рейтинги всех типов, как то: страницы и профили пользователей в социальных сетях, страницы сайтов, интернет-ресурсы, изображения, плагины и т.п.
Примерами использования Trust Flow могут служить:
В поисковых алгоритмах в упрощённом виде формула реализуется следующим образом:
Пример корреляции запроса «Magestic» с различными тематиками будет выглядеть так:
Аналогичные подходы применяются и по отношению к анализу пользовательских профилей в социальных сетях и сервисах. Так, например, чтобы найти лидеров мнений по определённым темам, достаточно проанализировать упоминания этих персоналий в разрезе различных тематик, выявив при этом смежные тематики, используя Trust Flow:
Таким образом, Trust Flow позволяет довольно точно определить, какой тематике посвящена каждая конкретная страница сайта; контент какого типа на ней содержится; насколько широкий охват и отклик получила тема. Однако самое важное – показатель Trust Flow позволяет анализировать качество входящих и исходящих ссылок, он просто незаменим при анализе ссылочной массы сайта и конкурентов в поисковой выдаче.
Тематический Trust Flow очень быстро обновляется, поскольку количество тематик растет день ото дня. Кроме того, показатель Trust Flow является масштабируемым, а расчёты применимы к любому профилю, ресурсу или же иным типам данных.
И, наконец, все объекты, сущности и в интернете связаны между собой, и эти связи нужно уметь находить и анализировать!
Доклад Диксона Джонса состоялся в рамках международной конференции SMX London 2015.
Комментарии