Представлена «Модель обучения казахскому языку «Tilqazyna» на основе искусственного интеллекта: Город Астана, 17 Января 2025 года - новости на сайте gurk.kz

Представлена «Модель обучения казахскому языку «Tilqazyna» на основе искусственного интеллекта

Национальный научно-практический центр «Тіл-Қазына» при Комитете языковой политики Министерства науки и высшего образования представил первые результаты «Модели обучения казахскому языку «Tilqazyna» на основе искусственного интеллекта.

На данный момент модель способна выполнять задачи в таких областях казахского языка, как лексика, морфология, семантика и др. В частности, она может генерировать текст на казахском языке, создавать перифразы, работать с контекстом, сокращать тексты, исправлять грамматические и пунктуационные ошибки, раскрывать значения фразеологизмов, а также переводить термины.

Эта отраслевая LLM модель уже загружена на платформу Hugging Face и доступна всем пользователям. Использование данной модели позволит разрабатывать множество IT-продуктов на казахском языке с помощью искусственного интеллекта. Это соответствует Посланию Президента Касым-Жомарта Токаева, в котором подчеркивалась важность превращения Казахстана в страну, широко использующую искусственный интеллект и развивающую цифровые технологии.

При разработке модели эксперты центра «Тіл-Қазына» применяли алгоритмы обработки естественного языка и целенаправленно анализировали большие объемы данных. В частности:

для проверки слов использовались 684 876 лексических единиц; для улучшения системы проверки словосочетаний было использовано 20 212 правильных и ошибочных вариантов; для исправления пунктуационных ошибок проанализировано 5 558 текстов; для коррекции структуры текста было подготовлено 3 000 правильных и неправильных версий текстов; для функции сокращения предложений создана база из 6 000 полных и сокращенных предложений; для функции перифраза собрано 14 790 синонимических рядов; общий объем обработанного корпуса казахского языка составил 35 ГБ.

В этом году в модель будет добавлена функция голосового общения, и будет разработан удобный интерфейс для пользователей. Также проект будет способен обучать казахскому языку на уровнях A1, A2 и B1, а к 2026 году – на уровнях B2 и C1.

Конечным результатом проекта станет голосовой помощник, способный создавать индивидуальную программу обучения казахскому языку в зависимости от уровня знания языка пользователя. Он будет представлен в виде мобильного приложения для систем IOS и Android.



Источник: Министерство науки и высшего образования Республики Казахстан


Подписывайтесь на наш Telegram канал, и будте в курсе всех важных событий, вот ссылка - https://t.me/gurkkz

gurk.kz
<p>Национальный научно-практический центр «Тіл-Қазына» при Комитете языковой политики Министерства науки и высшего образования представил первые результаты «Модели обучения казахскому языку «Tilqazyna» на основе искусственного интеллекта.</p> <p>На данный момент модель способна выполнять задачи в таких областях казахского языка, как лексика, морфология, семантика и др. В частности, она может генерировать текст на казахском языке, создавать перифразы, работать с контекстом, сокращать тексты, исправлять грамматические и пунктуационные ошибки, раскрывать значения фразеологизмов, а также переводить термины.</p> <p>Эта отраслевая LLM модель уже загружена на платформу Hugging Face и доступна всем пользователям. Использование данной модели позволит разрабатывать множество IT-продуктов на казахском языке с помощью искусственного интеллекта. Это соответствует Посланию Президента Касым-Жомарта Токаева, в котором подчеркивалась важность превращения Казахстана в страну, широко использующую искусственный интеллект и развивающую цифровые технологии.</p> <p>При разработке модели эксперты центра «Тіл-Қазына» применяли алгоритмы обработки естественного языка и целенаправленно анализировали большие объемы данных. В частности:</p> для проверки слов использовались <strong>684 876 лексических единиц</strong>; для улучшения системы проверки словосочетаний было использовано <strong>20 212</strong> правильных и ошибочных вариантов; для исправления пунктуационных ошибок проанализировано <strong>5 558 текстов</strong>; для коррекции структуры текста было подготовлено <strong>3 000</strong> правильных и неправильных версий текстов; для функции сокращения предложений создана база из <strong>6 000</strong> полных и сокращенных предложений; для функции перифраза собрано <strong>14 790 синонимических рядов</strong>; общий объем обработанного корпуса казахского языка составил <strong>35 ГБ</strong>. <p>В этом году в модель будет добавлена функция голосового общения, и будет разработан удобный интерфейс для пользователей. Также проект будет способен обучать казахскому языку на уровнях A1, A2 и B1, а к 2026 году – на уровнях B2 и C1.</p> <p>Конечным результатом проекта станет голосовой помощник, способный создавать индивидуальную программу обучения казахскому языку в зависимости от уровня знания языка пользователя. Он будет представлен в виде мобильного приложения для систем IOS и Android.<iframe style-off="border: none; overflow: hidden;" src="https://www.facebook.com/plugins/video.php?height=476&amp;href=https%3A%2F%2Fwww.facebook.com%2Fgylym.jogarybilim%2Fvideos%2F938729208400228%2F&amp;show_text=false&amp;width=267&amp;t=0" width="267" height="476" frameborder="0" scrolling="no" allowfullscreen="allowfullscreen"></iframe></p>

Еще новости региона