Систему распознавания казахской речи разработал отечественный ученый

Казахстанский учёный разработал систему распознавания речи на казахском языке, которая превращает голосовые сообщения в текст. Разработкой уже заинтересовалась крупная международная компания, сообщает корреспондент «Хабар 24».

Так работает система распознавания казахской речи. Искусственный интеллект считывает звуки и затем преобразует их в печатный текст. Её автор Оркен Мамырбаев долго вынашивал идею создания полезного сервиса – еще со времён учёбы в докторантуре. В создании языковой базы ему помогли филологи.

Оркен Мамырбаев, зам. гендиректора Института информационных и вычислительных технологий КН МОН РК:

- Самая большая проблема при разработке системы – это разработка речевого корпуса данных. Если мы данных больше можем собрать, тогда у нас нейросеть обучается и может распознавать любые слова. Если корпус маленький, тогда он некоторые слова не может распознавать. Когда мы всё соединили и разработали, у нас получилось 2 тысячи часов речевой записи. Когда обучили, у нас 80% точности распознавал. Если мы разработаем около 5 тысяч часов, тогда он может дать 90%.

Сейчас система работает как чат-бот в социальной сети Telegram.

- Чтобы ее протестировать, достаточно нажать и удерживать кнопку записи голосового сообщения. После бот автоматически превратит речь в текст.

Для удобства авторы создали диктофон, который можно использовать во время деловых совещаний, по их завершении система выдаст текстовый протокол на казахском языке.

Разработкой уже заинтересовалась крупная международная компания, производящая бытовую электронику и медоборудование. Она планирует встроить систему в один из своих продуктов для казахстанского рынка.

Серик Азамбаев, руководитель Управления научных проектов КН МОН РК:

- Данный проект реализовался в рамках грантового финансирования на 2018-2020 годы. Тема проекта: разработка технологии мультиязычного автоматического распознавания речи с использованием глубоких нейронных сетей. Так как проект прикладного характера, на сегодняшний день мы уже видим результаты, плоды этого проекта: распознавание речи на казахском языке. Общая сумма проекта составляла 54 млн тенге. Это на три года.

В прошлом году Оркен Мамырбаев и его команда получили грант на другой IT-проект. Ученые уже работают над созданием системы автоматического поиска и анализа противоправного веб-контента.

Авторы: Айгерим Бабиш, Арман Акшабаев.