27 ноября - 28 ноября 2014 года, в Москве прошла крупнейшая отраслевая конференция для рынков интернет-маркетинга и веб-разработки «Интернет и Бизнес. Россия». Объединяя в себе такие многолетние и известные проекты, как «Сайт» и Optimization, Конференция «IBC Russia» стала ответом на заинтересованность бизнеса в единой экспертной площадке. Мероприятие организовано компанией «Ашманов и партнеры» совместно с Российской ассоциацией электронных коммуникаций
В рамках секции «Поисковые машины» выступили представители компании Яндекс, которые рассказали о новых и хорошо забытых старых точках взаимодействия Яндекса и вебмастеров.
Приветствовал участников Александр Садовский, руководитель поисковых сервисов Яндекса, который традционно участвует каждый год в конференции, и каждый год неизменно поражает слушателей какими-то инновациями и запусками Яндекса. Однако, ничего подобного в этом году не случилось, Александр просто представлял докладчиков.
Екатерина Гладких, аналитик Яндекса, которая отвечает за Капчу на Яндексе, сообщила о том, что 25% запросов, поступающих на Янекс задаются роботами. Примерно такое же количество запросов задается в XML. Из них 13% - это умные роботы, а 12% - неумные роботы. В этом году Яндекс научился детектировать роботов. Алгоритм обрабатывает десятки тысяч запросов в секунду, анализируя более 3 000 факторов для каждого запроса и выдает вердикт в реальном времени.
Янекс.Маркет первым перешел на машинную технологию определения роботов, и доля детектированных роботов в потоке Маркета возросла с 4% до 40% по сравнению с эвристическим антироботом.
Также в Яндекс стало приходить гораздо меньше жалоб на капчу от «живых» пользователей Маркета, которые бывали ошибочно приняты за роботов – с сотен в неделю сократилось до десятка в месяц.
Екатерина также напомнила, что год назад Яндекс перешел на кириллическую капчу. Была проведена большая работа, словари редактировались аналитиками, убирались бранные и обидные для пользователей слова и т.д. Работа оправдала себя – кириллическая капча доказала свою эффективность. В этом году Яндекс запускает новую страницу капчи – с аудиовоспроизведением, островным дизайном и виртуальной клавиатурой.
Такие изменения страницы капчи позволят сделать парсинг выдачи более дорогим, а также будут являться достаточно сложным препятствием для роботов.
Далее выступил Майк Томшинский (Mike Tomshinsky), менеджер по продуктам Яндекса, с рассказом о Менеджере Яндекс-Картинок и Алгоритме Сибирь.
По словам докладчика, Яндексу ежедневно задаются 13 млн запросов, ответы на которые должны содержать изображения. Ежедневная аудитория Яндекс.Картинок – 7 млн. Размер базы – 20 млрд. урлов.
Майк напомнил о запущенном в прошлом году алгоритме «Сибирь», поиске по картинке, при помощи которого можно найти конкретную картинку, можно загрузить фотографию и узнать о ней; поиск товаров; светские события и т.п. По сути, алгоритм поиска по картинкам похож на алгоритм поиска текстов по каждой картинке выделяются «визуальные слова», они распределяются по словарям, а затем сопоставляются с визуальными словами по другим картинкам.
В перспективе алгоритм будет искать не только дубликаты картинок, но и фейковые аккаунты, фейковые объявления. Ведется работа над поиском товара по картинке – поиск скажет пользователю, как называется этот товар, и в каком магазине можно его приобрести.
В поиске похожих изображений, к сожалению, до сих пор случаются фейлы:
В перспективе Яндекс хочет использовать этот сервис для рекомендаций. Яндекс ищет партнёров, которые бы хотели использовать алгоритм Сибирь в своем бизнесе.
О том, как поиск ищет качественное видео, рассказала Нина Сапунова, менеджер сервиса Яндекс-Видео. По ее словам, поиском производится тщательный анализ текстового окружения – оценивается текстовая релевантность. Производится анализ пользовательского поведения – количество успешных просмотров. Производится постоянный анализ видео-потока.
Как это происходит? Робот парсит более 1 млн. видео в сутки: скачивает небольшой фрагмент видео-файла, анализирует свойства видео, кладет полученные признаки в индекс, но сам файл при этом не сохраняет.
Поиск начал парсить видео-контейнер. Основная цель – сделать полностью релевантную выдачу, вплоть до соответствия качества видео. В планах - полная автоматизация подключения новых сайтов к богатому индексированию видео-контента.
Следующий представитель Яндекса - Алексей Сикорский, представил новый сервис - Яндекс.Толока.
Яндекс.Толока - это бета-версия краудсорсинговой платформы для сбора пользовательских оценок. Большинство сервисов Яндекса построено на машинном обучении алгоритмов. Но чтобы алгоритмы обучались, им периодически нужны массивы человеческих оценок. Иногда оценки реальных пользователей важны и для принятия тех или иных решений по развитию продуктов Яндекса. Чтобы получать такие данные, у Яндекса есть асессоры - специальные люди, которые помогают делать выборку для поисковых алгоритмов.
В последнее время количество запросов от сервисов Яндекса к асессорам растет, и поэтому Яндекс решил опробовать краудсорсинговую модель - когда за денежное вознаграждение задания разного формата и содержания выполняют все желающие. Так был создан и запущен сервис Толока, где пользователи занимаются оценкой ресурсов и контента.
Минусы краудсорсинга – люди, которые умеют программировать, могут написать скрипты, но Яндекс будет бороться с этим.
За две недели существования сервиса, без маркетинга пришло 500 человек, которые уже оценили три тысячи урлов.
Вопрос из зала: Люди, которые работают в Толоке, часто пользуются небольшими мониторами, а сайт может быт неадаптирован. Что будете делать?
Алексей Сикорский: Мы просим оценить релевантность контента, а не отображение сайта. Если он не помещается на экран, попросим открыть в отдельной вкладке.
Вопрос из зала: Как будут эти оценки влиять на ранжирование?
Алексей Сикорский: Оценки напрямую не будут использоваться при ранжировании, также как и ранее не использовались асессорские оценки в результатах выдачи.
Станислав Ставский: Будет ли в ближайшее время очередной виток борьбы с поведенческими?
Александр Садовский: Баны будут – расслабляться нельзя.
Игорь Бакалов: Недавно было исследование, по которому Яндекс.Метрика вышла на первое место по популярности. Используете ли вы в ранжировании данные, которые получаете из Я.Метрики?
Александр Садовский: Мы используем все. Но сырые данные никогда не работают. Метрики в чистом виде мы не используем, но мы опираемся на них. Чтобы прогнозировать посещаемость – мы смотрим не только на показатели Яндекс.Метрики.
Вопрос из зала: Делаем редизайн, и архитектура сайта принципиально меняется, достаточно ли 301-го редиректа или еще что-то надо?
Александр Садовский: Если много зеркал, то лучше обратиться в службу поддержки и получить от них более подробные инструкции.
Вопрос из зала: Если нужно посмотреть видео про котов – забиваешь в поиске, выходит 20 видео. Нажимаешь на просмотр видео, там видео про Камаз, а словами размечено, что видео про котов. Текстовое описание может быть разное - прикольное видео и т.д. Возможно, словесное описание не всегда поможет?
Нина Сапунова: Мы анализируем много типов факторов. У разных факторов разный вес. Все проекты в Яндексе связаны между собой, мы учимся отличать - скоро будет тегирование изображений, это тоже позволит различать.
Сергей Людкевич: Когда порадуете сообщением, что отключили поведенческие факторы?
Александр Садовский: Чем больше факторов становится, тем меньшее влияние имеет этот фактор. Не надо ориентироваться на конкретную группу факторов.
Дмитрий Севальнев: Стал ли после отмены ссылочного сигнал менее зашумлённым?
Александр Садовский: Безусловно, мы следим за этим процессом – это вопрос изменения сознания. Раньше самым популярным вопросом на конференциях было, как вы учитываете мета-теги keywords. Это будет ясно через несколько лет.
Комментарии