ISSAI қазақ, орыс, ағылшын, түрік, татар және өзбек тілдеріне арналған екіжақты машиналық аударманы жүзеге асыруға мүмкіндік беретін Tilmash жобасын ұсынады.
Біздің машиналық аударма моделіміз Facebook-тың 202 тілге арналған аударма мәселелерін шешуге арналған NLLB моделінде оқытылды.
Моделіміз көптеген дереккөздерін, соның ішінде ресми үкіметтік веб-сайттарды (Қазақстан Республикасы Президентінің ресми сайты және Мемлекет басшысының Жолдауы), жаңалықтар мақалаларын, тілашарларды, арнайы терминологияны және шабыттандыратын TED сөйлеулерін пайдалана отырып оқытылды. Екі жыл ішінде лингвистер тобымыз қазақ, орыс, ағылшын және түрік тілдеріндегі бұл деректерді мұқият зерттеп, жетілдірді. Сонымен қатар, модельді оқытуда қазақ, орыс және түрік тілдеріне автоматты түрде аударылған ағылшын тіліндегі ресурстардан алынған мәліметтер пайдаланылды. Сондай-ақ, біз корпусты татар және өзбек тілдеріне аударып, осы деректер бойынша модельді жаттықтырдық.
Біздің жұмысымыздың нәтижесі — бірнеше стандартты көрсеткіштер бойынша Google Translate және Yandex Translate сияқты салалық алыптардың аударма жүйелерімен бәсекелесетін заманауи машина аудармасының үлгісі. Біз осы бірінші дәрежелі аударма жүйелерімен қатар Tilmash моделіміздің тиімділігін көрсете отырып, нәтижелерді төмендегі кестеде келтіреміз.
Қазақ тілінен аудармасы
Ағылшын тіліне | Орыс тіліне | Түрік тіліне | |||||||
Google Translate | Yandex Translate | Tilmash | Google Translate | Yandex Translate | Tilmash | Google Translate | Yandex Translate | Tilmash | |
BLEU | 0.32 | 0.29 | 0.32 | 0.26 | 0.26 | 0.27 | 0.21 | 0.13 | 0.16 |
ChrF | 0.63 | 0.61 | 0.63 | 0.59 | 0.60 | 0.60 | 0.58 | 0.52 | 0.55 |
Қазақ тіліне аудармасы
Ағылшын тілінен | Орыс тілінен | Түрік тілінен | |||||||
Google Translate | Yandex Translate | Tilmash | Google Translate | Yandex Translate | Tilmash | Google Translate | Yandex Translate | Tilmash | |
BLEU | 0.27 | 0.18 | 0.21 | 0.21 | 0.2 | 0.20 | 0.17 | 0.13 | 0.15 |
ChrF | 0.63 | 0.58 | 0.60 | 0.60 | 0.60 | 0.60 | 0.56 | 0.53 | 0.55 |
Төмендегі кестелерден автоматты түрде аударылған деректер бойынша оқыту базалық NLLB моделімен салыстырғанда татар және өзбек тілдерінен және осы тілдердің өзіне аудару сапасының айтарлықтай артқанын көруге болады.
Татар тілінен | Татар тіліне | ||||||
BLEU | ChrF | BLEU | ChrF | ||||
Base | Tilmash | Base | Tilmash | Base | Tilmash | Base | Tilmash |
0.10 | 0.16 | 0.49 | 0.54 | 0.08 | 0.10 | 0.47 | 0.49 |
Өзбек тілінен | Өзбек тіліне | ||||||
BLEU | ChrF | BLEU | ChrF | ||||
Base | Tilmash | Base | Tilmash | Base | Tilmash | Base | Tilmash |
0.09 | 0.15 | 0.44 | 0.53 | 0.07 | 0.12 | 0.49 | 0.56 |
Cондай-ақ моделімізбен жеке таныса алатындай демонстрациялық презентацияны әзірледік.
Мәтіннің ұзындығы 800 таңбадан аспауы керек екенін есте сақтаңыз.