Казахстанский IT-специалист Динара Алимова с группой единомышленников разработали технологию языковой модели казахского и смешанного русского и казахского языков.
Иначе говоря, обучают компьютер понимать казахско-русскую речь, передает Tengrinews.kz.
Так как в стране наблюдается значительный рост казахоязычного населения, разработанная голосовая модель языка - это то, что поможет сделать наши будни более комфортными, считает автор проекта.
«Голосовые помощники, речевая аналитика, синтез голоса - это все можно применять для автоматизации бизнес-процессов, модернизации call-центров, внедрения умных домов и, конечно, помощи людям с особенными потребностями. Наша текущая задача - вывести модель на предельно высокий уровень эффективности», - поделилась Динара.
В 2018 году Динаре предложили проект по разработке модели казахского и смешанного казахского и русского языков. В первое время она работала самостоятельно, занималась исследованиями, изучала зарубежные проекты. Приобретенные в прошлом организаторские и коммуникативные навыки помогли стать продуктовым менеджером.
«Без команды ты никто», - говорит девушка.
Через несколько недель к проекту присоединился datascience-специалист Ердаулет.
«Я хочу услышать, как технология заговорит. Почти три года мы идем к этому и обязательно придем. Мы хотим создать голосового помощника для введения диалога на казахском языке», - поделилась Динара Алимова.
Спустя два, три месяца были видны уже первые результаты. По словам девушки, на тот момент полноценной команды не было, и процессы были выстроены иначе. Они совместно с datascience-специалистом самостоятельно обрабатывали аудио, делали разметку.
«Мы просили коллег, чтобы они записали нам аудио на казахском. Для начала нам нужно было собрать данные - записи с общей длительностью в 20 часов. Они были нужны для тренировки и демонстрации первых результатов. Когда нам нужно было представить первый прототип, нам понадобился разработчик.
С помощью коллег наутро мы уже показали свои первые достижения. Тогда наша модель распознала первые слова. Это были непередаваемые эмоции – будто ребенок заговорил», - добавила Динара.
Самой большой потребностью на тот момент был сбор данных на казахском и смешанном казахско-русском языках.
«Наша команда выросла, но мы пополняли не штат разработчиков, а штат сотрудников, которые занимались разметкой данных – они посекундно прописывали то, что слышали. Почти год мы наращивали объем информации, которую использовали для обучения. Результаты были не очень хорошие», - вспоминает разработчик.
Сейчас они собрали 1,3 тысячи часов аудиозаписей, но специалисты запланировали дойти до значения в 10 тысяч часов.
