Автор: Умай Джонс (Umay Jones) – специалист по рекламе и связям с общественностью. Умай родилась в Турции, окончила Эгейский университет в Измире. Более 10 лет работает в области цифровой рекламы и занимается продвижением крупнейших международных брендов. Последние 5 лет Умай живет в Великобритании и работает в должности менеджера по цифровому медиамаркетингу в агентстве Webcertain.



Источник: http://blog.webcertain.com



Новой поисковой системе было не так-то легко проникнуть на рынок Турции. Особенно, если учесть, что на протяжении 15 лет на ранке господствовал такой серьёзный монополист как Google. И все же, приход Яндекса в Турцию был успешным. Цель поисковой системы – получить долю в 20-25% поискового трафика, а это совсем не маленькая цифра. К слову, этот процент Яндексу предстояло «отвоевать» у Google.



Турция стала первой неславянской страной, куда впервые решил выходить Яндекс, начиная международную экспансию. При этом турецкий поисковик стал важным пилотным проектом для компании. Население Турции составляет 80 млн. человек, 36 млн. из которых являются активными интернет-пользователями. Именно поэтому данная страна оказалась столь привлекательной для Яндекса.



На момент выхода компании на иностранный рынок существовал серьёзный языковой барьер. Однако в Яндексе решили, что компания сумеет добиться поставленных целей на рынке Турции и в перспективе сможет расширить масштабы своего присутствия на мировом рынке выйти в другие страны. Даже несмотря на все языковые и культурно-исторические различия. Данное решение стало испытанием для российского гиганта поиска и вызовом с его стороны зарубежным поисковым корпорациям.



Выходя на рынок Турции, ближайший конкурент Яндекса – Google придерживался стандартной стратегии, не стремясь адаптироваться под какие-либо языковые особенности региона. Это было существенным промахом со стороны поисковика. Особые трудности использование Google доставляло носителям алтайских языков, которым приходилось использовать для ввода запросов адаптированную версию латинского алфавита. Эта проблема не обошла стороной и пользователей из Турции: официальный язык страны относится к тюркской ветви гипотетической алтайской семьи языков.



Однако турецкие пользователи Google со временем приспособились к работе с поисковой системой. На сегодняшний день у них даже выработались определенные привычки при взаимодействии с поиском. Однако помимо того, что разные языки используют разную письменность, особенности каждого языка требуют от поисковых систем гораздо более интеллектуального подхода к анализу и передаче информации. Особенно, когда при решении определённых задач необходимо учитывать специфику письменности.



Зачастую при обработке информации на нескольких языках возникают ошибки и разночтения. Современный турецкий алфавит является разновидностью латиницы. Он состоит из 29 букв, включая специфические символы: Ç, Ğ, ı, İ, Ş, и Ü. Любопытно, что при вводе поискового запроса большинство турецких интернет-пользователей совершают ошибки именно при наборе этих букв на клавиатуре.



Большинство людей предпочитает печатать похожие латинские буквы без диакритических знаков. Это обусловлено желанием сэкономить время или использованием неадаптированной под турецкую письменность клавиатуры. К сожалению, такой подход и возникающие в результате опечатки зачастую приводят к критическим ошибкам, потере смысла и неверным результатам выдачи. Использование неверных надстрочных или подстрочных знаков в современном турецком языке может привести к полному искажению смысла слова.



Цель эксперимента, изложенного в статье, сводится к тому, чтобы понять, сумел ли Яндекс преодолеть этот языковой барьер и насколько точные результаты выдачи поисковая система обеспечивает своим пользователям в Турции.





Лицом к лицу: Яндекс vs Google

Раунд первый



Чтобы протестировать точность автоматических подсказок автор данной статьи ввела в поисковую строку Яндекс и Google запрос [Yasama] (в данной форме написания он означает «законодательство») примечательно, что при замене в слове буквы s на ş [Yaşama] оно кардинально меняет смысл и получает значение «проживание».



При вводе в поисковую строку Google запроса [Yasama] в автоматических подсказках пользователю выводились запросы, связанные с термином «законодательство». Дополнительных вариантов не предлагается:





При вводе того же запроса в поисковую строку Яндекса. Пользователю в автоматических подсказках предлагается гораздо более обширный перечень возможных поисковых запросов, содержащих термины [Yasama] и [Yaşama]. При этом поисковая система учитывает все возможные варианты написания слова на турецком языке:





По итогам первого раунда, счёт составил 1:0 в пользу Яндекса.



Раунд второй



На следующем этапе имеет смысл сравнить количество обращений пользователей к поисковым системам по упомянутым выше запросам и их словоформам. Как видно, Яндексу удалось «отвоевать» долю поисковых запросов именно за счёт того, что система предлагает пользователям в автоматических подсказках все возможные варианты написания слова:





Для чистоты эксперимента автор статьи обратилась к данным сервиса Яндекс.Wordstat, который показывает статистику запросов пользователей Яндекса. Как показала практика, Яндекс.Wordstat в турецкой версии поиска не делает различий между семантикой слов, принимая их за различные варианты написания одного и того же слова.



В то же время «Планировщик ключевых слов» в Google Adwords различает поведение пользователей в процессе поиска информации, связанной с подобными запросами. Запрос [Yaşama] в значении «проживание» не является слишком популярным в случаях, когда слово употребляется отдельно от других ключевых слов в запросе. Google понимает это. Тем не менее, в различных контекстах глагол [жить/проживать] упоминается пользователями гораздо чаще, чем глагольное сочетание [принимать законы].



Важно также отметить, что в настоящий момент Яндекс в Турции еще не столь популярен, как Google, доля его поисковика на территории страны составляет около 5%. Именно поэтому при сопоставлении объёмов обработанных поисковыми системами запросов могут наблюдаться небольшие расхождения и несоответствия. Тем не менее, даже столь условный подсчёт позволяет судить о степени популярности поисковых систем среди пользователей.



По итогам второго раунда, счёт составил 1:1.



Раунд третий



Известно, что турецкий язык таит в себе огромное количество подводных камней и лингвистических сложностей. Структура турецкого языка является сложной в плане морфологии. Данный язык является агглютинативным, слова в нём образуются при помощи «склеивния». Каждый формант в турецком языке несёт сразу несколько неразделимых значений. Слова образуются за счёт присоединения фонетически неизменных аффиксов и других морфем к корню. Кроме того, в турецком языке один глагол может иметь до тысячи спряжений.



В таблице, приведённой ниже, показано, как в турецком языке образуются различные глагольные формы:





Знания о строении турецкого языка подводят к третьему этапу сравнительного анализа поиска Яндекса и Google. И позволяют проследить, насколько качественно обе системы способны обрабатывать поисковые запросы, в которых используются различные формы глаголов.



Представим, что человек собирается посетить Стамбул. Готовясь к поездке пользователь, владеющий турецким языком, вводит в поисковую строку Google запрос [ İstanbul’a gidiyoruz] («Мы собираемся в Стамбул»). Как видно на скриншоте, на первых позициях выдачи оказываются результаты, где глагол употребляется в той же форме, что и в запросе. И лишь на второй и третьей страницах результатов выдачи встречаются изменённые формы глагола, которые образуются путём добавления суффикса. Зачастую именно наличие разнообразных форм глагола в SERP позволяет сделать результаты поиска более точными и разнообразными.





После ввода аналогичного запроса в поисковую строку Яндекса автор статьи уже на первой странице выдачи обнаружила множество различных форм глагола. Таких как: [İstanbul'a nasıl gidilir] («Как добраться до Стамбула»), [İstanbul'a gidince İstanbul'dan пе alınır] («Что купить в Стамбуле, когда окажетесь там») и т.д.





Как видно, лингвистическая база Яндекса оказалась весьма обширной, в результате чего он удостоился статуса интеллектуальной поисковой системы на рынке Турции.



По итогам третьего раунда, счёт составил 2:1 в пользу Яндекса.



Раунд четвёртый



На завершающем этапе тестирования было решено проверить обе поисковые системы на способность выявлять одновременно до нескольких синонимических значений одного и того же слова. На этот раз в поисковую строку был введён запрос: [ağır kaldırabilenler].



У фразы есть сразу несколько значений:




Тот, кто способен поднимать тяжести (это прямое и самое распространённое значение фразы).

Тот, кто способен преодолевать трудности (переносное значение фразы).

Объект, способный вместить в себя больше, чем позволяет его фактический объём (употребляется довольно редко).


Умение распознать первичный смысл фразы свидетельствует о чистоте и точности поисковой выдачи.



Результаты выдачи показали, что Яндекс распознает и анализирует намного большее количество значений, чем Google. В выдаче российского поисковика зачастую можно было обнаружить гораздо больше форм одного и того же слова, образованных при помощи присоединения к корню различных морфем. При этом на первых 30 страницах выдачи Яндекса автру статьи не удалось отыскать второстепенных значений фразы.





Аналогичный эксперимент с Google продемонстрировал наличие в результатах поиска различных словоформ. Тем не менее, только 4 варианта из топ-10 результатов выдачи были связаны с основным значением поискового запроса. Остальные результаты выдачи были в большей степени применимы к второстепенным значениям словосочетания, использованного в запросе.





Несмотря на то, что выдача Google отличалась бóльшим разнообразием результатов, чем выдача Яндекса. Результаты поиска Google в целом были менее релевантными запросу, чем результаты Яндекса.



По итогам четвёртого раунда, счёт составил 3:1 в пользу Яндекса.





Сможет ли Яндекс достичь поставленной цели?

Итоги эксперимента позволяют с уверенностью утверждать, что Яндекс гораздо лучше понимает и распознает структуру слов турецкого языка, чем Google. Однако это не является единственным достоинством поисковой системы: Яндекс также хорошо распознаёт слова, содержащие диакритические знаки и умеет отделять их от похожих слов с обычными латинскими символами. Такой подход обеспечивает максимальную полноту и релевантность поисковой выдачи. Помимо того, что Яндекс позволяет турецким пользователям находить релевантные результаты, он предлагает огромное количество результатов с употреблением различных форм одного и того же слова. Нередко пользователю приходится пролистывать до нескольких страниц выдачи, чтобы отыскать нужный результат.



Для сравнения, Google предоставляет своим пользователям гораздо меньше результатов поиска. Результаты выдачи поисковой системы отличаются меньшим разнообразием, в них присутствует меньше словоформ. Как правило, в результатах встречаются формулировки с точными вхождениями ключевых слов. Это заставляет пользователя по нескольку раз переформулировать поисковый запрос, чтобы найти нужную и желаемую информацию.



В целом у Яндекса есть все предпосылки для того, чтобы добиться успеха на поисковом рынке Турции в перспективе. В день 84-летия реформы турецкого языка Яндекс продемонстрировал своё уважение к письменности государства, убрав из названия поисковой системы нехарактерный для исконного языка символ «Х». Логотип компании отображался на главной странице поиска в следующем написании: Yandeks.



Российская компания делает большие успехи в удовлетворении потребностей носителей турецкого языка, позиционируя себя в данном регионе как двуязычную поисковую систему. Потенциально у Яндекса есть все шансы закрепиться в регионе и даже завоевать существенную долю рынка. И все же, вопрос о том, насколько благосклонно поисковый рынок Турции отнесётся к российскому поисковику пока остается открытым.



Перевод Анастасии Матвеевой




Обсудить  

Читайте также


Комментарии Кто голосовал Похожие новости

Комментарии