Эксперт Yandex: когда умная колонка Алиса заговорит на татарском, сказать сложно

Автор статьи: Ландыш Ишукова

25 и 26 апреля в Иннополисе состоялась V профессиональная межрегиональная IT-конференция Merge. За два дня в городе высоких технологий обменялись опытом эксперты из Москвы, Санкт-Петербурга, Казани, Ижевска, Минска, Ярославля и других городов.

Спикерами стали специалисты из крупнейших IT-компаний, в числе которых Яндекс, Сбер, VK, лаборатория Касперского, Альфа Банк, Ростелеком и Совкомбанк. В программу были включены мастер-классы, круглые столы, нетворкинг-сессии и воркшопы по разработке, управлению, маркетингу, HR, трендам, IT-рынкам и аналитике. Представители сферы также посетили выставку IT-компаний, где могли подробнее узнать о карьерных возможностях, задать интересующие вопросы, получить мерч или даже оффер.

Руководитель группы проектов Алисы и международных разметок в Yandex Crowd Дмитрий Кукулиди рассказал, как обучали умного ассистента понимать пользователей с особенностями речи. По данным эксперта, в стране порядка полутора миллионов человек с шепелявостью, картавостью, заиканиями и другими дефектами, которые ежедневно сталкиваются с трудностями – Алиса не всегда правильно понимает запрос пользователей.

Поскольку разница между точностью распознавания обычной речи и речи с искажениями составляет 20%, цель – сократить ее и приблизить распознавание речи с дефектами к тому, как сейчас понимает, слышит и распознает человек. У пользователей нельзя напрямую спросить, есть ли у них дефекты речи. Команда инклюзии с помощью специальных фондов предоставила людей, которые имеют проблемы с речью для того, чтобы эксперты получили от них популярные или критичные запросы. Специалисты использовали системный подход: определение наличия дефекта речи на скороговорках, выявление категории и силы отклонения от нормы, запись, валидация аудио – соответствие аудио тексту и аннотирование аудио. Нарушения были разделены на 4 типа: нарушения произношения, особенности интонации ритма, заикание и нарушения структуры. В результате в легкой и средней формах заикания доля ошибок снизилась на 20,8% и 6,5% соответственно. Экспертам удалось обучить AI-ассистент воспринимать речь с дефектами лучше, чем ее распознают люди.

Кроме этого, модель распознает акценты и говоры. Например, в переводчике есть распознавание татарского, чувашского, башкирского языков, то есть она понимает некоторые акценты языков Российской Федерации. Спикер также заявил о возможном появлении Алисы на татарском языке. Уже сегодня доступен сервис Яндекс переводчик, в котором не так давно появились распознавание и синтез. «Это работает прямо сейчас и работает неплохо, – оценивает Дмитрий Кукулиди – Однако, когда Алиса заговорит на татарском, сказать сложно».

+1
3
+1
2
+1
0
+1
0
Еще