Микроформаты — открытый стандарт, который используется различными сервисами во всем мире. Микроформаты — это форматы семантической разметки (X)HTML-страниц, позволяющие сделать контент доступным для обработки роботами. Микроформаты дают возможность явно указать смысловое значение отдельных блоков текста, дополнив существующую HTML-разметку специальными блоками.
В данный момент существуют микроформаты для нескольких распространенных предметных областей, в частности, для публикации сведений об организациях, товарах, отзывах, событиях и многих других сущностях.
В настоящее время Яндекс поддерживает следующие микроформаты:
Проверить разметку на сайте можно с помощью валидатора микроразметки.
О внедрении микроформатов как инструмента для взаимовыгодного сотрудничества между Яндексом и вебмастерами рассказал Александр Шубин, менеджер проектов поиска Яндекса, который любезно согласился ответить на вопросы редакции SearchEngines.ru.
SE: Последнее время очень много идет разговоров о микроформатах. Зачем они вообще нужны, почему им сейчас уделяется так много внимания? Кто использует эти данные и для чего? Почему без них — хуже, чем с ними?
Александр Шубин: Поисковые системы всегда стремились лучше понимать содержание страниц в интернете — о чем они, какие факты на них описываются, насколько они устаревшие... Огромное количество факторов, которые необходимо определить, чтобы дать пользователю наилучший ответ на его запрос. Для определения этих факторов всегда использовались два пути — написание сложных алгоритмов и получение данных напрямую от вебмастера. По сути микроразметка (мы внутри используем именно этот термин, так как микроформаты — всего лишь одна из технологий) — это один из ряда способов, с помощью которых вебмастер может помочь поисковой системе распознать наиболее существенную информацию на своем сайте.
По сравнению с другими способами (например, отдельные метатеги) она обладает большей выразительной мощностью: помогает дать больше информации, описать более сложные концепции — объекты, факты и связи между ними. С другой стороны, базовые вещи, которые можно делать с ее помощью, просты, и можно довольно быстро начать ее использовать, изучая микроразметку подробнее по мере необходимости.
Наиболее крупные потребители данных из разметки — все мировые поисковые системы. Она очевидным образом улучшает любую функциональность, связанную с представлением структурированных и объектных данных. Например, Яндекс использует ее для построения улучшенных сниппетов, а также в различных специализированных сервисах (Яндекс.Авто, Словари, Справочники др.). Именно поэтому два года назад крупнейшие поисковые системы объединились в поддержке единого стандарта микроразметки — schema.org. Единый стандарт создан для того, чтобы вебмастер мог один раз разместить унифицированную разметку на странице и быть уверенным, что его одинаково хорошо поймут все поисковые системы. Стандарт этот постоянно расширяется, и открыт для новых предложений от всех заинтересованных разработчиков.
SE: Можно наблюдать, что некоторые микроформаты дублируют старые метатеги, например, description. Почему бы социальным сетям и поисковым системам не пользоваться тем, что уже есть?
Александр Шубин: Да, действительно, некоторое дублирование происходит. Однако оно не такое большое, и микроразметка принципиально отличается своей выразительностью. Ну и, кроме того, кто сказал, что то, что уже есть, не используется? :)
SE: Поисковые системы активно работают над извлечением смыслов и пониманием. Микроформаты — не возвращение ли к тем временам, когда владелец сайта писал ключевые слова, которые он считал релевантными своей странице?
Александр Шубин: В отличие от ключевых слов, микроразметка специфицирует, что именно может быть указано на странице с помощью фиксированных словарей (microformats.org, schema.org, ogp.me). Это упрощает работу вебмастеру — у него есть ясная «инструкция», что и как надо указать на странице. И это упрощает работу поисковой системе — ей проще понять, что же вебмастер хотел сказать.
Например, раньше для страницы-рецепта мне нужно было написать какие-нибудь такие ключевые слова: рецепт салата, салат Мимоза, рецепт салата Мимоза, рецепт Мимозы, как приготовить салат Мимоза, ... Согласитесь, не очень удобно ни для вебмастера, ни для поисковой системы. Вебмастер пытается угадать, как же поисковая система будет работать с его страницей, как она обработает его теги, пытается угадать запрос. Это вынуждает его писать одно и то же в разных сочетаниях, а иногда, чего уж там, и злоупотреблять, указывая нерелевантные странице, но популярные среди пользователей слова. Поисковая система при этом пытается обработать весь этот поток словосочетаний, очистить его от нерелевантного текста, сопоставить с запросом пользователя. И все это без понимания смысла (семантики) того, что на самом деле написано!
Сейчас на той же странице можно разместить какую-нибудь такую разметку:
Поисковая система при этом не просто увидит отдельные ключевые слова для страницы. Она поймет, что речь, на самом деле, идет про рецепт, что готовится салат «Мимоза», готовить его столько-то времени, и прочее. Эта информация гораздо ценнее для использования в поиске. А у вебмастера при этом появляется определенность, что и как будет использовано.
SE: Не секрет, что все больше сайтов делается не программистами на готовых CMS. Вы как-то работаете с разработчиками CMS или модификаций для них, чтобы микроформаты поддерживались «из коробки»?
Александр Шубин: Это хорошая и очень правильная идея. Многие производители CMS (например, Wordpress, Joomla!, Drupal) внедряют поддержку разметки без нашего участия. Соответствующие плагины мы рекомендуем в документации. Некоторые обращаются к нам за консультацией. Мы всегда готовы помочь производителям CMS, заинтересованным во внедрении разметки.
SE: Есть ли смысл разбираться с этими вопросами владельцам коммерческих сайтов, или это все только для порталов актуально и больших интернет-магазинов?
Александр Шубин: Конечно, имеет смысл разбираться всем.
В первую очередь, тем сайтам, данные с которых Яндекс уже сейчас понимает. Полный список тематик (партнерских программ) можно посмотреть в документации Яндекс.Вебмастера в разделе «Содержимое сайта». Там же есть разделы для каждого способа передачи данных (schema.org, микроформаты). При этом, надо отметить, что, наряду с довольно узкими темами (например, «отзывы на Авто»), есть и такие типы данных, которые актуальны практически для всех сайтов – картинки, видео-ролики, адрес организации.
Во вторую очередь можно опираться на список тематик на сайте schema.org. На данный момент мы рассматриваем этот словарь в качестве основного. То есть, при запуске новой партнерской программы мы в первую очередь смотрим на наличие соответствующих типов данных в Schema.org. Мы также участвуем в его расширении как члены рабочей группы Schema.org. Поэтому при отсутствии необходимых нам типов мы вносим соответствующие предложения на дополнение словаря.
Ну и, наконец, в-третьих. Недавно была объявлена новая платформа Яндекса — Острова. Как многие правильно заметили, часть платформы для вебмастеров как раз базируется на разметке. На данный момент она дорабатывается. Но могу приоткрыть завесу тайны — для случаев фиксированных тематик островов («фиксированной семантики») мы планируем использовать наши расширения к Open Graph Protocol и Schema.org.
SE: В чем интерес для вебмастера разбираться еще в одной технологии?
Александр Шубин: Микроразметка — все более широко используемый всеми крупными поисковыми системами инструмент. Полученные таким образом данные могут применяться для улучшения всех аспектов их работы. То, что мы сейчас наблюдаем — только самое начало пути. Это означает, что, не начав разбираться в этой технологии сейчас, через некоторое время вы уже не сможете догнать конкурентов.
SE: Есть длинная история изменения веса факторов ранжирования и их накрутки. Важны были мета-теги — их начали спамить. Стал важен текстовый фактор — появились дорвеи. Ссылки — обмен, линкоторговля, спам комментариев и форумов. Поведенческие и социальные сигналы. Микроформаты еще толком не получили распространения, а их уже подделывают и добавляют в них неверные данные. Есть ли способы борьбы с подделкой данных в микроформатах? Нет ли опасений, что сигнал будет зашумлен слишком быстро?
Александр Шубин: Подделать можно все, что угодно.
Использование микроразметки — это наша попытка внедрить инструменты для взаимовыгодного сотрудничества между Яндексом и вебмастерами. Мы хотим (и всегда хотели) такого сотрудничества. И мы уверены, что разумные вебмастера нас в этом понимают и поддерживают.
Да, всегда есть те, кто хочет «быстро заработать». Они закупают ссылки, «спамят мета-теги» и занимаются прочей осуждаемой нами деятельностью. Они же будут подделывать разметку. Мы не устаем повторять, что это, конечно, дорога простая, но неправильная. И приведет она к известным последствиям. Гораздо сложнее, но и более продуктивно — долго и кропотливо улучшать сайт для своих пользователей и поисковых систем, используя доступный инструментарий. Микроразметка — часть такого инструментария, наряду с файлами robots.txt и sitemap.
Способы борьбы с подделкой данных в микроразметке есть. Но, если мы увидим, что полезной информации очень мало, и выделить ее среди потока поддельных данных сложно, то нам придется сужать области применения микроразметки. Вплоть до полного отказа, как это уже было с другими инструментами. Я очень надеюсь, что, благодаря сознательности вебмастеров, этого не произойдет.
Комментарии