Президент Қасым-Жомарт Тоқаевтың Digital Bridge 2023 форумындағы нұсқауына сәйкес, Ақылды жүйелер және жасанды интеллект институты (ISSAI) Назарбаев Университеті жанындағы толыққанды зерттеу институты мәртебесіне көтерілді. 2024 жылдың мамырында жүзеге асырылған бұл едәуір өзгеріс Қазақстанның технологиялық және академиялық дамуындағы маңызды кезеңді білдіреді. Енді автономды жеке ұйым ретінде жұмыс істеп жатқан ISSAI-да Институттың негізін қалаушы және директоры доктор Хусейн Атакан Варолдың жетекшілігімен төрт әкімшілік қызметкер, 50 зерттеуші (деректер талдаушылары, ғылыми ассистенттер және компьютерлік инженерлер) және 17 деректер модераторы қызмет етіп жатыр.
Қазақ тілінің ірі тілдік моделін әзірлеу
Astana Hub, Назарбаев Қоры және Назарбаев Университетінің Әлеуметтік даму қорының қаржылық қолдауымен ISSAI қазақ тілінің ірі тілдік моделін (LLM) әзірлеп жатыр. Бұл жоба Қазақстан мен Орталық Азия аймағындағы жасанды интеллект (ЖИ) мүмкіндіктерін түбегейлі өзгертуге бағытталған. Институт кем дегенде екі LLM жасауға кірісті. Бастапқы кезеңде OLMo негізінде жеті миллиард параметрлік модельді жаттықтыру көзделген, бұл қазақ тілінде қарым-қатынас жасай алатын прототип жасауға мүмкіндік береді. Сонымен қатар ISSAI ірірек модель архитектураларын, мысалы, 13 миллиард параметрлік модельдерді (Llama және Mistral сияқты) зерттеуді жоспарлап отыр, олар тек қазақ тіліндегі қарым-қатынасты жеңілдетіп қана қоймай, деректерге негізделген генерацияны да орындайды. Қазақстанда қазіргі уақытта суперкомпьютерлердің болмауына қарамастан, ISSAI NVIDIA H100 түйіндерінің аз мөлшерін қамтитын бұлтты есептеу платформасын пайдаланып жаттықтыруды бастады.
Көптілді және мультимәдениетті тәсіл
Бұл модельдерді жаттықтыру корпусы кем дегенде 100 миллиард токенді қамтиды, оның ішінде әрбір тілге — қазақ, орыс, ағылшын және түрік тілдері — 25 миллиард токен бөлінеді. Бұл көптілді тәсіл Қазақстанның әралуан мәдени ландшафтын көрсетеді, модельдерге мемлекеттік қазақ тілінде, ұлтаралық қатынас тілі — орыс тілінде, жаһандық экономикаға ойдағыдай кірігу тілі — ағылшын тілінде және көпшілікке қолжетімді цифрлық деректері мол және қазақ тілімен лингвистикалық ұқсастықтары бар түрік тілінде еркін қарым-қатынас жасауға мүмкіндік береді. Бұл бастама Қазақстан қоғамы мен экономикасына айтарлықтай әсер етеді деп күтіліп отыр. Нәтижесінде пайда болатын цифрлық инфрақұрылым Қазақстан халқына өнімдер мен қызметтерді ұсынуды қамтамасыз етіп, жергілікті қолжетімділікті жақсартады және экспорттық әлеуетті ұсынады.
Деректер көздері және тіл өңдеу мүмкіндіктері
Осы жобаның әртүрлі деректер көздеріне Wikipedia, жаңалық агенттіктері, мемлекеттік сайттардағы мақалалар және ашық деректер жиынтықтары (мысалы, Common Crawl) кіреді, олардың барлығы көпшілікке қолжетімді. Соңғы бес жылда ISSAI қазақ тіліне арналған көптеген табиғи тіл өңдеу деректер жиынтықтарын әзірледі. Бұл әралуан деректер жиынтықтары қазақ LLM-іне сұрақтарға жауап беру, мәтінді қорытындылау, мәтінді бір тілден екінші тілге аудару және атаулы мәндерді анықтау сияқты көптеген табиғи тілді өңдеу тапсырмаларын орындауға мүмкіндік береді.
Модельді жариялау және болашақ жоспарлар
Бірінші қазақ LLM-і 2024 жылдың 16 желтоқсанында — Қазақстан Республикасының Тәуелсіздігінің 33 жылдығына орай аяқталуы жоспарланып отыр. Модель және оның салмақтары бастапқы коды ашық бағдарламалық жасақтама ретінде жарияланып, Қазақстанның цифрлық инфрақұрылымының маңызды құрамдас бөлігіне айналуы керек. Кеңінен пайдалануды жеңілдету үшін ISSAI жалпы пайдаланушыларға арналған жазылымға негізделген платформаны және модельді өз өнімдеріне енгізгісі келетін тәжірибелі пайдаланушыларға арналған арнайы бағдарламалық интерфейсті (API) ұсынады. Платформа модельдермен өзара әрекеттесуді, адамнан кері байланыс алу арқылы нығайтуды және әртүрлі сценарийлерде оңтайлы өнімділікке қол жеткізу үшін нақтылауды қолдайды. API модельді веб-сайттарға, смартфон қолданбаларына, бағдарламалық кодтарға және жеке компьютер бағдарламаларына бірқалыпты енгізуге мүмкіндік береді.
Іргелі сөз моделін әзірлеу
ISSAI өзінің автоматты түрде сөзді тану, мәтінді сөзге түрлендіру және нейрондық машиналық аударма саласындағы ауқымды тәжірибесіне сүйене отырып, іргелі сөз моделін дамытады. Бұл модель ағындық сөзді тану, мәтінді мәтінге аудару, мәтінді сөзге түрлендіруі, сөзді мәтінге аудару және сөзді сөзге аударуды қолдайды. Ол ISSAI платформасына да, қазақ LLM API-іне де енгізіліп, сөзге негізделген өзара әрекеттесуді жеңілдетеді.
Мемлекеттік және жеке секторларға арналған оқу бағдарламалары
Мемлекеттік қызметкерлер мен компаниялардың орта және жоғары деңгейдегі басқарушылары арасында ЖИ бойынша оқытуға деген сұранысты мойындай отырып, ISSAI мемлекеттік және жеке секторларға арналған кешенді ақылы оқу бағдарламасын әзірлеп жатыр. Бағдарлама ЖИ-нің негізгі тақырыптарын қамтиды, оның ішінде машинаны жаттықтыру, терең жаттықтыру, ЖИ инфрақұрылымдары, іргелі модельдер, заманауи ЖИ құралдары және ЖИ этикасы. Бағдарлама қатысушылары теориялық біліммен қатар практикалық дағдыларды да алады.
Сонымен қатар ISSAI қазақ LLM жарияланғаннан кейін көп ұзамай жалпы жұртшылықты қазақ LLM қолдануымен таныстыруға арналған қосымша бағдарламаны іске қосуды жоспарлап отыр. Бұл қосымша бағдарлама нұсқау қалыптастыру, деректерді генерациялау және ISSAI платформасы мен API-ді пайдалану жолдары сияқты маңызды аспектілерді қамтиды.
Ынтымақтастық және болашақ көрінісі
ISSAI жергілікті әріптестерді осы жаңашыл бастамаға қосылуға шақырады. Өз тәжірибесі, ресурстар мен энергиясын жұмсауға дайын және өз ісіне берілген мамандардың қажеттілігін атап өтіп, ISSAI осы ауқымды жобаны алға жылжыту үшін мықты ынтымақтастық құруға ұмтылады. Бұл бастама Қазақстандағы генеративтік ЖИ технологияларын әзірлеу мен енгізуді басқаратын жаңа буынды, зияткер көшбасшылар мен жаңашылдарды тәрбиелеу үшін трансформациялық мүмкіндік болып табылады. Бірге біз Қазақстанның ғаламдық ЖИ революциясының алдыңғы қатарында тұратын болашағымыздың мықты іргетасын қалай аламыз.