Новости

cover

10 декабря 2024

Релиз ISSAI KAZ-LLM: Большая языковая модель казахского языка представлена в открытом доступе

10 декабря 2024 года Институт умных систем и искусственного интеллекта (ISSAI) при Назарбаев Университете представил большую языковую модель казахского языка (ISSAI KAZ-LLM), знаменуя важный этап в интеграции Казахстана на мировую арену искусственного интеллекта. Эта модель олицетворяет стремление страны к инновациям, самодостаточности и развитию технологической экосистемы.

Созданная с учетом уникального многоязычного и мультикультурного контекста Казахстана, общедоступная модель ISSAI KAZ-LLM поддерживает казахский, русский и английский, а также турецкий языки, что способствует преодолению языковых барьеров и развитию генеративного ИИ для малоресурсных языков.

Ключевые особенности и достижения

  • Местная разработка: Проект создан высококвалифицированными казахстанскими исследователями команды ISSAI, предоставив практический опыт местным талантам и укрепив потенциал страны в области ИИ.
  • Современные возможности: Доступны версии модели с 8 и 70 миллиардами параметров, построенные на архитектуре Llama от Meta и оптимизированные как для мощных систем, так и для среды с ограниченными ресурсами.
  • Обширная база данных: Более 150 миллиардов токенов было собрано, обработано, синтезировано и переведено командой ISSAI для обеспечения высокой производительности модели.
  • Лидерство в бенчмарках: ISSAI KAZ-LLM демонстрирует выдающиеся результаты на казахском языке, а также конкурентоспособные показатели на русском и английском языках, сопоставимые с ведущими мировыми моделями.
  • Открытый доступ: Модель представлена в шести версиях на платформе Hugging Face под лицензией CC-BY-NC для некоммерческого использования, способствуя глобальному академическому и исследовательскому сотрудничеству.

Проект не только представляет передовую модель ИИ, но и способствует развитию кадрового потенциала Казахстана в сфере технологий. Исследователи участвовали во всех этапах разработки — от подготовки данных до внедрения модели, закладывая основу для устойчивых инноваций. В сотрудничестве с ведущими казахстанскими учреждениями были разработаны бенчмаркинговые инструменты и адаптированы наборы данных для казахского языка с привлечением лингвистов и применением машинного перевода.

ISSAI также планирует разрабатывать системы нового поколения, включая модели, объединяющие языковые и визуальные возможности, а также расширить поддержку модели для других тюркских и региональных языков. Эти усилия направлены на укрепление региональных связей, продвижение языковой инклюзии и создание значимого экономического и технологического влияния в Казахстане и за его пределами.

Проект ISSAI KAZ-LLM стал возможным благодаря щедрой поддержке фонда развития НУ и НИШ, Astana Hub и QazCode (Beeline). Разработка велась без привлечений государственных средств. Мы выражаем глубокую благодарность нашим спонсорам за их доверие к проекту.

Также мы благодарим Назарбаев Университет за его приверженность инновациям и созданию среды для интеллектуального роста, что стало ключевым фактором достижения этого знаменательного результата.

Контакты для сотрудничества и медиа

Свяжитесь с нами по адресу: issai@nu.edu.kz