Яндекс выложил в открытый доступ крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. Это 500 тысяч отзывов со всей России с января по июль 2023 года.
В состав датасета входит адрес и название организации, список рубрик (например, кафе, ресторан), оценка пользователя и текст отзыва. Также датасет очищен от персональных данных, которые случайно могли оставить пользователи.
Самым очевидным применением датасета отзывов может быть сентимент‑анализ (статистический подход к определению эмоциональной окраски текста). Лингвистический анализ отзывов помогает понять, как люди говорят о различных типах организаций, какие слова, фразы или языковые конструкции они используют в своих отзывах, и как это изменяется в разных географических контекстах.
Команда Яндекса надеется, что представленный датасет окажется полезным сообществу для проведения академических исследований, связанных с анализами текстов в контексте отзывов и географии.
Какие еще знания можно получить из отзывов, наглядно демонстрирует недавнее исследование Яндекса «Как хвалят и ругают рестораны и бары».
Напомним, в 2021 году Яндекс опубликовал набор данных беспилотных автомобилей для исследований в области машинного обучения и автономного транспорта. Это самый большой в мире массив данных такого типа в открытом доступе: он содержит более 1600 часов движения, разбитых на 600 000 размеченных фрагментов поездок на дорогах России, Израиля и США в хорошую погоду, в снег и в дождь.
Комментарии