Елде Kaz-LLM тілдік моделі әзірленді

Бұл жасанды интеллект қазақшаны емін-еркін түсінеді және сөйлей алады, деп хабарлайды 24KZ. Жаңа жобаның шетелдік ірі платформалардан артықшылығы көп.

Kaz-LLM танымал чат-GPT платформасына ұқсас. Алайда жаңа жүйе қазақ дүниетанымына толық бейімделген. «Өйткені оны әзірлеу барысында ұлттық мәдениетімізді танытатын әдеби және ғылыми шығармалар қолданылды», – дейді мамандар.

Аспандияр Нұриманов, ISSAI деректер талдаушысы:

- Біз 150 млрд астам токен жинадық. Ол тек қазақ интернетінен емес, басқа да тілдік интернеттен деректерді алып, сол деректер арқылы біздің моделімізді үйреттік сол тілге. Сол үйреткеніміз бойынша қазақтың салт-дәстүрімен, қалай дұрыс стильде жазу керек екенін бәрін түсінеді.

Жаңа модель қазақ, орыс, ағылшын және түрік тілдерін түсініп, кез келген мәтінді емін-еркін аударады. Дегенмен ең басты артықшылық бұл емес. Жоба авторларының айтуынша, деректер мұқият қорғалады. Мысалы, халықаралық платформаларды қолданған кезде мемлекеттік маңызды мәліметтер шетел асып кетеді. Ал отандық модельде ақпараттың барлығы ел аумағында сақталады.

Мадина Абдурахманова, ISSAI аға деректер талдаушысы:

- Өкінішке қарай, қазір түрлі ақпараттық санкциялар бар. Еліміз көпвекторлы саясат ұстанғанымен, интернет мәселесіне немесе түрлі саяси шешімдерге байланысты кейбір сервистер жұмысын тоқтатуы мүмкін. Сондықтан жасанды интеллект моделімізді дайындау ұлттық ақпараттық дербестігімізді қамтамасыз етеді.

Қазір бағдарлама сынақтап өтіп жатыр. Оның негізінде мемлекеттік порталдар үшін дыбыстық көмекшілер, мәтінді аудару және талдау құралдары, құжаттарды автоматтандыру жүйесі жасалып жатыр. Жауапты министрліктің болжамынша, ҚазЛЛМ сан саланы қамтитын цифрлық өнімге айналады.

Дархан Мырзабаев, ҚР Цифрлық даму, инновациялар және аэроғарыш өнеркәсібі министрлігінің комитет төрағасының орынбасары:

- Мысалы, медицина саласының маманы бір өнім дайындау үшін чат-бот немесе көмекші қажет делік. Дәрі-дәрмектерді тексеру үшін бұл деректердің негізінде өз моделін бейімдей алады. Осылай фармацевтикалық препараттар туралы белгілі бір деректерді қосып, өз бағдарламасын жасауына болады.

Жобаны әзірлеуге тек қазақстандық ІТ-мамандар, талдаушылар мен зерттеушілер жұмылдырылды. Негізгі жұмыстар 8 айға жалғасқан. Тілдік модель барлық қазақстандық үшін қолжетімді болады.

Авторлары: Еркебұлан Смадияров, Өрден Жарқынұлы.