10 декабря 2024 года Институт умных систем и искусственного интеллекта (ISSAI) при Назарбаев Университете представил большую языковую модель казахского языка (ISSAI KAZ-LLM), знаменуя важный этап в интеграции Казахстана на мировую арену искусственного интеллекта. Эта модель олицетворяет стремление страны к инновациям, самодостаточности и развитию технологической экосистемы.
Созданная с учетом уникального многоязычного и мультикультурного контекста Казахстана, общедоступная модель ISSAI KAZ-LLM поддерживает казахский, русский и английский, а также турецкий языки, что способствует преодолению языковых барьеров и развитию генеративного ИИ для малоресурсных языков.
Ключевые особенности и достижения
- Местная разработка: Проект создан высококвалифицированными казахстанскими исследователями команды ISSAI, предоставив практический опыт местным талантам и укрепив потенциал страны в области ИИ.
- Современные возможности: Доступны версии модели с 8 и 70 миллиардами параметров, построенные на архитектуре Llama от Meta и оптимизированные как для мощных систем, так и для среды с ограниченными ресурсами.
- Обширная база данных: Более 150 миллиардов токенов было собрано, обработано, синтезировано и переведено командой ISSAI для обеспечения высокой производительности модели.
- Лидерство в бенчмарках: ISSAI KAZ-LLM демонстрирует выдающиеся результаты на казахском языке, а также конкурентоспособные показатели на русском и английском языках, сопоставимые с ведущими мировыми моделями.
- Открытый доступ: Модель представлена в шести версиях на платформе Hugging Face под лицензией CC-BY-NC для некоммерческого использования, способствуя глобальному академическому и исследовательскому сотрудничеству.
Проект не только представляет передовую модель ИИ, но и способствует развитию кадрового потенциала Казахстана в сфере технологий. Исследователи участвовали во всех этапах разработки — от подготовки данных до внедрения модели, закладывая основу для устойчивых инноваций. В сотрудничестве с ведущими казахстанскими учреждениями были разработаны бенчмаркинговые инструменты и адаптированы наборы данных для казахского языка с привлечением лингвистов и применением машинного перевода.
ISSAI также планирует разрабатывать системы нового поколения, включая модели, объединяющие языковые и визуальные возможности, а также расширить поддержку модели для других тюркских и региональных языков. Эти усилия направлены на укрепление региональных связей, продвижение языковой инклюзии и создание значимого экономического и технологического влияния в Казахстане и за его пределами.
Проект ISSAI KAZ-LLM стал возможным благодаря щедрой поддержке фонда развития НУ и НИШ, Astana Hub и QazCode (Beeline). Разработка велась без привлечений государственных средств. Мы выражаем глубокую благодарность нашим спонсорам за их доверие к проекту.
Также мы благодарим Назарбаев Университет за его приверженность инновациям и созданию среды для интеллектуального роста, что стало ключевым фактором достижения этого знаменательного результата.
Контакты для сотрудничества и медиа
Свяжитесь с нами по адресу: issai@nu.edu.kz