Новости

cover

31 мая 2024

Наращивание возможностей ИИ в Казахстане: трансформация и масштабный проект ISSAI по развитию большой языковой модели казахского языка

Согласно поручению Президента Касым-Жомарта Токаева на форуме Digital Bridge 2023, Институт умных систем и искусственного интеллекта (ISSAI) был преобразован в полноценный исследовательский институт при Назарбаев Университете. Это значительное преобразование, имевшее место в мае 2024 года, знаменует важный этап в технологическом и академическом развитии Казахстана. В ISSAI, теперь функционирующем как автономное частное учреждение, трудится команда, состоящая из четырех сотрудников административной группы, 50 исследователей (включая аналитиков данных, научных ассистентов и компьютерных инженеров) и 17 модераторов данных — под руководством основателя и директора Института доктора Хусейна Атакана Варола.

Разработка большой языковой модели казахского языка

При финансовой поддержке Astana Hub, Назарбаев Фонда и Фонда социального развития Назарбаев Университета ISSAI разрабатывает большую языковую модель (LLM) казахского языка — проект, призванный революционизировать возможности искусственного интеллекта (ИИ) в Казахстане и Центральной Азии. Институт уже приступил к масштабной задаче создания как минимум двух LLM. На начальном этапе будет обучена модель с семью миллиардами параметров на основе OLMo для создания прототипа, способного взаимодействовать на казахском языке. Кроме того, ISSAI намерен исследовать более крупные архитектуры моделей, такие как модели с 13 миллиардами параметров (например, Llama и Mistral), которые будут не только взаимодействовать на казахском языке, но и генерировать ответы с учетом дополнительно найденной релевантной информации. Несмотря на текущее отсутствие суперкомпьютеров в Казахстане, ISSAI уже приступил к обучению моделей, используя облачную вычислительную платформу с небольшим количеством узлов NVIDIA H100.

Многоязычный и мультикультурный подход

Корпус для обучения моделей будет состоять из как минимум 100 миллиардов токенов, включающих казахский, русский, английский и турецкий языки, причем каждый язык будет представлен 25 миллиардами токенов. Этот многоязычный подход отражает разнообразный культурный ландшафт Казахстана, что позволит моделям свободно взаимодействовать на казахском — государственном языке, русском — языке межэтнического общения, английском — языке интеграции в мировое сообщество, и турецком — тюркском языке, обладающем большим количеством доступных цифровых данных, а также лингвистически схожем с казахским. Данная инициатива окажет значительное влияние на казахстанское общество и экономику. Итоговая цифровая инфраструктура обеспечит предоставление продуктов и услуг населению Казахстана, улучшая локальную доступность и предлагая экспортный потенциал.

Источники данных и возможности обработки языка

Разнообразные источники данных для проекта включают статьи из Википедии, новостных агентств, государственных сайтов и открытые наборы данных (например, Common Crawl), находящиеся в общем доступе. За последние пять лет ISSAI разработал многочисленные наборы данных для обработки естественного языка специально для казахского языка. Эти наборы данных позволят LLM казахского языка решить несколько задач обработки естественного языка, в том числе отвечать на поставленные вопросы, формировать краткое изложение текста, осуществлять перевод с одного языка на другой и распознавать именованные сущности.

Запуск модели и планы на будущее

Запуск первой LLM казахского языка запланировано на 16 декабря 2024 года, в день тридцать третьей годовщины Независимости Республики Казахстан. Модель, включая её веса, будет выпущена как программное обеспечение с открытым исходным кодом, и станет важным компонентом цифровой инфраструктуры Казахстана. Для обеспечения широкого использования ISSAI предложит подписку на платформу для общих пользователей и специализированный интерфейс прикладного программирования (API) для продвинутых пользователей, чтобы последние могли интегрировать модели в свои продукты. Платформа будет поддерживать взаимодействие с моделями, обучение с подкреплением на основе отзывов людей и настройку для оптимальной производительности в различных сценариях. API позволит плавно интегрировать модель в веб-сайты, приложения для смартфонов, программные коды и программы для персональных компьютеров.

Разработка основополагающей речевой модели

Опираясь на свой обширный опыт в области автоматического распознавания речи, генерации текста в речь и нейронного машинного перевода, ISSAI разрабатывает основополагающую речевую модель. Эта модель будет поддерживать потоковое распознавание речи, перевод текста в текст, генерацию текста в речь, перевод речи в текст и перевод речи в речь. Модель будет интегрирована как в платформу ISSAI, так и в API LLM казахского языка, способствуя взаимодействию на основе речи.

Программы обучения для государственного и частного секторов

Осознавая потребность в понимании основных аспектов ИИ среди государственных служащих и руководителей среднего и высшего звена управления компаний, ISSAI разрабатывает комплексную платную программу обучения, ориентированную на государственный и частный секторы. Программа позволит охватить основные темы ИИ, включая машинное обучение, глубокое обучение, инфраструктуру ИИ, базовые модели, современные инструменты и этику ИИ. Участники программы получат как теоретические знания, так и практические навыки.

Кроме того, ISSAI планирует организовать еще одну программу обучения, предназначенную для ознакомления широкой общественности с LLM казахского языка уже вскоре после её запуска. Эта дополнительная программа охватит важные аспекты, такие как инженерия подсказок, генерация ответов с учетом дополнительно найденной релевантной информации, а также специализированную платформу и интерфейс прикладного программирования, обеспечивая эффективное использование LLM казахского языка.

Сотрудничество и видение будущего

ISSAI приглашает всех партнеров в регионе присоединиться к этой новаторской инициативе. Делая упор на необходимость в профессионалах, готовых вложить свой опыт, ресурсы и силы, ISSAI стремится к созданию прочных связей, которые продвинут этот масштабный проект дальше. Данная инициатива представляет собой возможность для воспитания нового поколения интеллектуальных лидеров и новаторов, готовых возглавить разработку и внедрение передовых технологий генеративного ИИ в Казахстане. Вместе мы можем создать прочную основу для будущего, в котором Казахстан будет находиться на передовых позициях глобальной революции ИИ.