Соңғы жылдары генеративті жасанды интеллект, атап айтқанда үлкен тілдік модельдер (LLMs) аясында табиғи тілді түсінуден бастап шығармашылық контентті құруға дейінгі әртүрлі салаларға түбегейлі өзгерістер енгізетін айтарлықтай прогресс байқалып келеді. Google-дің OpenAI’s GPT-4o және Gemini сияқты озық модельдері бұрын-соңды болмаған күрделілік пен мүмкіндіктерді көрсете отырып, жаңа стандарттар орнатты. Алайда, бұл жетістіктер негізінен ағылшын, қытай, жапон және орыс сияқты қол жетімділігі жоғары тілдерді қамтиды, бұл тілдік инклюзивтілікті толықтай қамтамасыз етуге жол бермейді. Осындай теңсіздіктің бар екенін көріп, көптеген елдер қазіргі уақытта технологияларды әртүрлі тілдік ландшафттар мен мәдени контексттерге бейімдей отырып, өздерінің ұлттық ірі тілдік модельдерін әзірлеуде.
ISSAI KAZ-LLM-ді Қазақстанның генеративті жасанды интеллект саласындағы жетістіктерді пайдаланып, өз халқының өмір сүру сапасын жақсартуы және экономикалық дамуды ынталандыруы үшін жасайды.
Kaz-LLM қазақ, орыс және ағылшын сияқты Қазақстан үшін өзекті тілдерде контент жасай алатын болады. KAZ-LLM ұлттық мәдени мұраны сақтауда шешуші рөл атқаратын болады, ол Қазақстанға тән идеологиялық аспектілерді, тарихи контекстті, мамандандырылған салаларды және диалогтық деректерді қамтитын болады. Генеративті ЖИ-ті жергілікті шындыққа бейімдей отырып, Kazakh-LLM ұлттық жобалар тілдік олқылықтарды жоя алатынын және ЖИ инновацияларының жаһандық ландшафтына өз үлесін қоса алатынын көрсетеді.
Ең бастысы, Kaz-LLM жобасы генеративті ЖИ саласында озық жұмыс күшін қалыптастыруға ықпал етеді. Деректерді дайындауда, модельді оқытуда және күшейтуде практикалық тәсілді қолдану арқасында Қазақстан генеративті жасанды интеллект модельдері мен құралдарын жасауға қабілетті озық ғылыми кадрлардың жаңа буынын дамытып отыр.
KAZ-LLM үшін деректер қалай жиналады?
Мықты LLM құру үшін көп әрі жоғары сапалы деректер қажет. Атап айтқанда, оқытуды іске асыру үшін LLM-ге миллиардтаған токендер керек. Токендер мәтіндік деректердің негізгі бірліктері болып табылады, оларға сөздер, сөздердің бөліктері, таңбалар немесе тіпті эмодзилер жатады. Қазіргі уақытта KAZ-LLM оқыту корпусы 72 миллиардтан астам токеннен тұрады, бұл деректердің 97%-ын ISSAI командасы жинап, өңдеді. Kaz-LLM үшін токендер қазақстандық веб-сайттар, жаңалықтар, мақалалар және онлайн-кітапханалар мен дерекқорлардан алынған құжаттар сияқты әртүрлі жалпыға қолжетімді көздерден алынады. Біз сондай-ақ ағылшын тіліндегі жоғары сапалы деректерді қазақ тіліне аударамыз және жоба үшін әртүрлі ұйымдар ұсынған деректерді пайдаланамыз.
|
|
|
72 |
97% |
|
млрд. астам токен |
деректердің ISSAI командасы жинап, өңдеді
|
Көптілді деректер: қазақ, ағылшын, орыс, түрік тілдері
|
Көптеген компаниялар LLM-ды ашық бастапқы кодымен ұсынатындығын мәлімдегенімен, көбінесе олар тек модельдердің салмағын ғана береді, ал деректер мен нұсқаулар берілмей қалады. Мысал ретінде META-ның LLAMA-2 және LLAMA-3-ті келтіруге болады. Дегенмен, зерттеу қауымдастығы жиі-жиі бұл нұсқауларды қайта құрастырады, оны OpenLLAMA жобасынан да көруге болады. Аллен жасанды интеллект институты 7 миллиард параметрлік архитектура, ашық нұсқаулар, деректер, салыстырмалы талдау сценарийлері және толық ашық бастапқы коды бар OLMo моделін жасады. Бастапқыда біз осы модельмен NVIDIA H100 бұлтты жүйелеріндегі деректер жиынтығын пайдаланып жұмыс істеп көрдік. Нәтижесінде токенизаторды сәтті құрып, қазақ және ағылшын тілдерінде грамматикалық тұрғыдан дұрыс жауаптар ала алдық.
Kaz-LLM қалай оқытылады?
2024 жылдың 23 шілдесінде ISSAI бұлттағы 8 H100 түйіндерін пайдаланып, LLAMA 3-8B моделін оқыта бастады. Біз түпнұсқа LLAMA3 3 токенизаторымен негізгі және нұсқаулық модельдерді жасадық. Кейіннен пайдаланылмаған токендерді ауыстырып, қазақ тілі үшін оңтайландырылған жаңа токенизатор жасадық, бұл ағылшын, орыс және түрік сияқты тілдердің сапасына нұқсан келтірмей, тиімділікті арттырды. Бұл тиімділік Kaz-LLM моделін
оқыту және күшейту үшін де аса маңызды. 2024 жылдың шілде айының соңында META LLAMA3 моделінен әр түрлі көрсеткіштер бойынша асып түсетін LLAMA3.1 моделін ұсынды. Сондықтан ISSAI құжаттаманың шектеулі болғанына қарамастан LLAMA3.1-ді негізгі модель ретінде пайдалана бастады. Соңғы прототип үлгісінің тікелей көрсетілімі біздің YouTube арнамызда қолжетімді.
Есептеу ресурстарының маңыздылығы
Жасанды интеллект, соның ішінде ірі тілдік модельдер үшін есептеу ресурстарының болуы өте маңызды. Мұндай модельдерді оқыту және үлкен деректер жиымын тиімді өңдеу үшін зор есептеу қуатын қажет етіледі. ISSAI-дың жергілікті есептеу жабдығы 4 DGX A100 серверлер кластерінен тұрады. Сонымен қатар, Институт KAZ-LLM моделін оқыту үшін бұлтты провайдерден 8 DGX H100 серверлерін жалға алып қолданып отыр. Осы 8 сервердегі деректердің толық жиынтығы бар бір оқу сессиясы бір аптадан астам уақытты алады. Үлкенірек модельдер, 70 миллиард параметрі бар, бұл серверлерде жаттығу үшін бірнеше ай қажет болады. Сондықтан ISSAI Президент Тоқаевтың ұлттық суперкомпьютерлерді құру туралы бастамасын толық қолдайды.
Дайын модельді қоғамға ұсыну
Дайын модель (яғни модельдің салмақ коэффициенттері) 2024 жылғы желтоқсанда Қазақстанның жұмсақ цифрлық инфрақұрылымының маңызды құрамдас бөлігі ретінде және де қазақстандықтар үшін жасанды интеллектті пайдалана отырып, өнімдер мен қызметтерді енгізуді ынталандыру үшін ашық бастапқы кодпен ұсынылатын болады. Сондай-ақ, жазылым бойынша нейрондық желі мен бағдарламалық интерфейс (API) қол жетімді болады.
Серіктестеіміз
Қазақстан Республикасы цифрлық даму, инновациялар және аэроғарыш өнеркәсібі министрлігі
Қазақстан Республикасы Ғылым және жоғары білім министрлігі
Ынтымақтастық және БАҚ сұраулары
Бірлесіп жұмыс істегісі келетін, қосымша қолдау ұсынғысы келетін компаниялар мен мекемелер үшін есігіміз әрқашан ашық. Жоба туралы қосымша ақпарат алу үшін, БАҚ сұраулары немесе ынтымақтастық туралы ұсыныстарды жіберу үшін issai@nu.edu.kz электрондық мекенжайымызға жазуды сұраймыз.