ISSAI KAZ-LLM: Казахстанская Большая языковая модель

В последние годы в области генеративного искусственного интеллекта, в частности, в области больших языковых моделей (LLMs), наблюдается значительный прогресс, вносящий коренные изменения в различные сферы, начиная от понимания естественного языка и заканчивая созданием креативного контента. Такие передовые модели, как OpenAI GPT-4o и Gemini от Google, установили новые стандарты, продемонстрировав беспрецедентный уровень сложности и возможностей. Однако эти достижения в основном охватывают языки с высоким уровнем доступности, такие как английский, китайский, японский и русский, что оставляет существенный пробел в плане языковой инклюзивности. Осознавая это неравенство, многие страны в настоящее время разрабатывают собственные национальные большие языковые модели, адаптируя технологии таким образом, чтобы они лучше соответствовали разнообразным языковым ландшафтам и культурным контекстам.

ISSAI создает большую языковую модель (KAZ-LLM), чтобы Казахстан также мог воспользоваться достижениями в области генеративного искусственного интеллекта для улучшения качества жизни населения и стимулирования экономического развития.

KAZ-LLM сможет создавать контент на языках, наиболее актуальных для Казахстана: казахском, русском и английском. KAZ-LLM будет играть решающую роль в сохранении национального культурного наследия, охватит идеологические аспекты, исторический контекст, специализированные области и диалоговые данные, характерные для Казахстана. Адаптируя генеративный ИИ к местным реалиям, KAZ-LLM демонстрирует, как национальные проекты могут устранять языковые пробелы и вносить свой вклад в глобальный ландшафт инноваций в области ИИ. 
Самое главное проект KAZ-LLM способствует созданию передовой рабочей силы в области генеративного ИИ. Благодаря практическому подходу к подготовке данных, обучению и внедрению модели, Казахстан формирует новое поколение передовых научных кадров, способных создавать модели и инструменты генеративного искусственного интеллекта. 

Как собираются данные для KAZ-LLM?

Для создания сильной LLM необходимы как большое количество, так и высокое качество данных. В частности, LLM требуют миллиарды токенов для обучения. Токены являются основными единицами текстовых данных и могут быть словами, частями слов (подслов), символами или даже эмодзи. В настоящее время учебный корпус KAZ-LLM состоит из более чем 72 миллиардов токенов, причем 97% этих данных собраны и обработаны командой ISSAI. Токены для KAZ-LLM берутся из различных общедоступных источников, включая казахстанские веб-сайты, новостные статьи и документы из онлайн-библиотек и баз данных. Мы также переводим высококачественные данные с английского на казахский и используем данные, предоставленные различными организациями для проекта. 

более
72 97%
млрд. токенов
этих данных собраны и обработаны командой ISSAI
Многоязычные данные: казахский, английский, русский и турецкий языки

Хотя многие компании заявляют о том, что предлагают LLM с открытым исходным кодом, они часто предоставляют только веса моделей, не раскрывая данные и инструкции. В пример можно привести LLAMA-2 и LLAMA-3 от Meta. Однако исследовательское сообщество часто переделывают эти инструкции, как это видно из проекта OpenLLAMA. Институт искусственного интеллекта Аллена разработал модель OLMo с полностью открытым исходным кодом и архитектурой с 7 миллиардами параметров, открытой инструкцией, данными и сценариями сравнительного анализа. Изначально мы экспериментировали с этой моделью, используя наш набор данных в облачных системах NVIDIA H100, успешно создав токенизатор и сгенерировав грамматически правильные ответы на казахском и английском языках.

Как проходит обучение KAZ-LLM?

23 июля 2024 года ISSAI начал обучать LLAMA 3-8B, используя 8 узлов H100 в облаке. Мы разработали базовую и инструктажную модели с использованием оригинального токенизатора LLAMA 3. Впоследствии мы создали новый токенизатор, оптимизированный для казахского языка, заменив неиспользуемые токены, что повысило эффективность без ущерба для качества для других языков, таких как английский, русский и турецкий. Эта эффективность крайне важна как для обучения, так и для внедрения казахской LLM. В конце июля 2024 года компания META представила LLAMA3.1, которая превосходит модель LLAMA3 по различным показателям, поэтому ISSAI перешли на использование LLAMA3.1 в качестве базовой модели, несмотря на ограниченную документацию. Демонстрация бета-версии прототипа модели доступна на нашем YouTube канале.

Важность вычислительных ресурсов

Решающее значение для создания ИИ, включая большие языковые модели, имеет наличие вычислительных ресурсов. Обучение таких моделей требует огромных вычислительных мощностей для эффективной обработки больших массивов данных.  Локальное вычислительное оборудование ISSAI образует кластер из 4 серверов DGX A100. Кроме того, Институт арендует 8 серверов DGX H100 у облачного провайдера для обучения KAZ-LLM. Тренировка одного набора данных на этих 8 серверах занимает более недели, а для тренировок более крупных моделей, например, состоящих из 70 млрд. параметров, потребуются месяцы. Именно поэтому ISSAI полностью поддерживает инициативу Президента Токаева по созданию национальных суперкомпьютеров.

Финальная модель будет доступна широкой аудитории

Финальная модель (т.е. весовые коэффициенты модели) будет представлена с открытым исходным кодом в декабре 2024 года в качестве важного компонента мягкой цифровой инфраструктуры Казахстана для стимулирования внедрения продуктов и услуг с использованием искусственного интеллекта для казахстанцев. Также для более широкого использования будет доступна нейросеть по подписке и программный интерфейс (API).

Наши партнеры


ISSAI также сотрудничает с Министерством цифрового развития, инноваций и аэрокосмической промышленности Республики Казахстан, Министерством науки и высшего образования Республики Казахстан, АО «Национальные информационные технологии» (АО «НИТ»), Национальным научно-практическим центром «Тіл-Қазына», Фондом устойчивых инноваций и технологий (SITF), Университетом Максута Нарикбаева и КазНУ им. Аль-Фараби в научных и административных аспектах проекта.

Министерство цифрового развития, инноваций и аэрокосмической промышленности РК

Министерство науки и высшего образования РК

Сотрудничество и запросы СМИ

Мы всегда открыты для сотрудничества и рады предложениям дополнительной поддержки со стороны других компаний и институтов. Для получения дополнительной информации о проекте, запросов СМИ или предложений о сотрудничестве просим писать на электронный адрес issai@nu.edu.kz.