Доклад, представленный Кириллом Николаевым (Яндекс) 12 марта 2014 года в Минске, в рамках конференции Неделя Байнета, назывался «Ты, робот» и был напрямую посвящен тем, кого затронуло отключение ссылок.
Напомним, ранее в этот же день, состоялось выступление Александра Садовского, руководителя поисковых сервисов Яндекса, во время которого в прямом эфире были отключены ссылки для ряда коммерческих тематик московского региона.
Что делать тем людям, которые теперь не смогут продвигаться с помощью ссылок? Им нужно развивать и улучшать свои сайты, вникать в бизнес своих клиентов, работать над тем, чтобы сделать свой сайт удобным для пользователя и т.д. – делать все, о чем сказано вот в этом тексте. Это единственный легитимный способ.
Однако все-таки есть люди, которые упорно продвигаются черными методами, и которые наверняка подумают: «Наверное, стоит подкрутить какие-то другие факторы, например, поведенческие». Ответ один – не стоит. Ведь что такое – накрутка поведенческих факторов? Это создание ботов, имитирующих поведение пользователей. Все изобретатели подобных сервисов нахваливают их и говорят, что они такие мощные, классные, умные и как легко они обходят различные защиты Яндекса, представляя свои сервисы, как современные и технологичные конструкции, а фильтры Яндекса – как какие-то агрегаты времен гражданской войны:
Однако, все обстоит совершенно не так, и обойти фильтры Яндекса не так легко. У Яндекса есть три степени очистки, которые позволяют ему практически полностью избавляться от роботов.
Первая ступень – это капча, так называемая роботоловилка. Она предназначена для того, чтобы защитить Яндекс от наплыва большого количества ботов, совершенно простых и примитивных. Если не было этой первой преграды, то на сервисы Яндекса очень сильно возросла бы нагрузка, и ему было бы очень сложно отвечать на запросы пользователей.
Роботоловилка состоит из двух частей – классификатора робота и человека, и теста, призванного отличить одного от другого.
Роботов, на которые рассчитана роботоловилка, можно разделить на три класса:
Цифрами указан процент, успешно подающийся классификации.
Тест же выглядит, как всем нам хорошо знакомая капча – тест Тьюринга. На сегодняшний день это русские слова:
Сегодня объем обращений к Яндексу составляет 200 млн. запросов в сутки, и из них где-то 30-40 млн. классифицируются как роботы.
Но ведь люди, которые используют белое SEO, тоже нуждаются в парсинге, им-то как быть? Ответ – можно пойти в Вебмастер и там, через официальный сервис XML, получать возможность парсинга выдачи. Квоты и лимиты, которые там даются, напрямую зависят от сайтов, привязанных к IP вебмастера. Причем свои лимиты можно кому-то передать, а также их можно получить от других людей. Ну а тем людям, которым хочется дополнительно попарсить, или у которых нет качественных сайтов для получения достаточных лимитов, Яндекс предоставляет ночные скидки до 70%. Это значит, что с 1 до 7 часов утра классификатор очень сильно добреет и позволяет парсить в любом объеме и реже встречать капчу.
Данный классификатор использует порядка 3 тыс. факторов, это довольно много – больше, чем в поиске. Его точность составляет более 99,5%. Точность классификатора трудно переоценить, потому что именно от этого зависит появление капчи. Появление капчи, по сравнению с поиском, составляет на сегодняшний день порядка 5-10%, и это довольно много. Туда также входят и показы капчи браузером.
На появление капчи также очень сильно влияет провайдер, который также должен заботиться о безопасности своих пользователей, а также наличие на компьютере пользователя антивируса.
Доля показов капчи на поиске по четырем странам:
Видно, что Беларусь – аутсайдер, по сравнению с остальными странами. Ну и безусловный лидер тут, конечно, Украина.
Наверняка все заметили, что за последние несколько месяцев капча очень сильно менялась. Это было связано с тем, что мы пытались ее сделать более простой и дружественной для пользователя. Да-да, юзабилити капчи – это не фантастика, а реальность. Было проведено несколько экспериментов, когда изменялся вид капчи, и тщательно отслеживалась реакция и поведение людей.
Как оказалось, самая сложная капча – это латинские случайные буквы, а самая простая – русские слова с доброй коннотацией – солнце, валенки и проч. Сейчас Яндекс использует именно этот вид капчи - с добрыми словами.
Вообще-то, капча Яндекса относится к одной из сложных капч, она очень сложно разгадывается автоматическими методами. Наклон букв, толщина линий, их расположение и так далее, приводят к тому, что автоматическими методами ее очень сложно разгадать. Поэтому капча Яндекса разгадывается так называемыми капчефермами. Вот примеры того, что пытались ввести несчастные работники капчеферм, когда Яндекс поменял капчу:
Это привело к тому, что объем разгадывания капчи снизился в два раза, а стоимость капчи возросла в 10 раз. Можно сказать, что Яндекс стоит на страже отечественного работника. Кстати, это один из ответов на вопрос – что же делать молодым людям – сеошникам после отмены ссылочного. Яндекс о них побеспокоился – они могут разгадывать капчу.
Капча - это единственный из антироботных функционалов Яндекса, который к тому же общается с людьми, поэтому существует даже капча-саппорт, и если у пользователей возникают какие-то трудности с капчей, можно обращаться по адресу - feedback2.yandex.ru.
Вторая ступень – быстрая и легкая очистка от роботов, которая в основном используется в персонализированных сервисах:
• Персонализация
• Поисковые подсказки
• …
Для ограничения reverse engineering’а
Третья ступень – глубокая очистка. Это крупный, очень хорошо развитый алгоритм, использующий огромное количество данных, учитывающий большое количество пользовательских распределений.
Алгоритм глубокой очистки это:
• Около 2000 факторов (распределений)
• Около 200 функций очистки
• В основном используется 34 фактора
Вот как выглядит смоделированное пользовательское поведение, и вот почему большая часть распознается алгоритмом глубокой очистки:
Еще примеры. Более сложными роботами являются так называемые «роботы с бородой», это когда их пытаются сделать более менее похожими на человека (аксакалы интернета, 40 лет в сети). Однако, если проследить запросы этого аксакала, то выясняется, что это всего навсего кровельный робот, что следует из географии его запросов:
Кровля металлическая
Кровля мягкая
Кровля одноклассники
Кровля скачать бесплатно
Кровля порно.
Все эти данные отслеживаются Яндексом, накапливаются им и хранятся. Со временем те сайты, которые злоупотребляют накруткой, пользуясь услугами пресловутых сервисов или SEO-организаций, попадают под санкции. Санкции накладываются на довольно длительный период, где-то около года. Перед этим провинившийся получает следующее сообщение от саппорта:
Использование автоматических сервисов накрутки - зло, об этом должен знать каждый, кто собирается прибегнуть к их услугам. Риски - велики, а польза - весьма сомнительна.
Комментарии