Жобалар

Tilmash

ISSAI қазақ, орыс, ағылшын, түрік, татар және өзбек тілдеріне арналған екіжақты машиналық аударманы жүзеге асыруға мүмкіндік беретін Tilmash жобасын ұсынады.

Біздің машиналық аударма моделіміз Facebook-тың 202 тілге арналған аударма мәселелерін шешуге арналған NLLB моделінде оқытылды.

Моделіміз көптеген дереккөздерін, соның ішінде ресми үкіметтік веб-сайттарды (Қазақстан Республикасы Президентінің ресми сайты және Мемлекет басшысының Жолдауы), жаңалықтар мақалаларын, тілашарларды, арнайы терминологияны және шабыттандыратын TED сөйлеулерін пайдалана отырып оқытылды. Екі жыл ішінде лингвистер тобымыз қазақ, орыс, ағылшын және түрік тілдеріндегі бұл деректерді мұқият зерттеп, жетілдірді. Сонымен қатар, модельді оқытуда қазақ, орыс және түрік тілдеріне автоматты түрде аударылған ағылшын тіліндегі ресурстардан алынған мәліметтер пайдаланылды. Сондай-ақ, біз корпусты татар және өзбек тілдеріне аударып, осы деректер бойынша модельді жаттықтырдық.

Біздің жұмысымыздың нәтижесі — бірнеше стандартты көрсеткіштер бойынша Google Translate және Yandex Translate сияқты салалық алыптардың аударма жүйелерімен бәсекелесетін заманауи машина аудармасының үлгісі. Біз осы бірінші дәрежелі аударма жүйелерімен қатар Tilmash моделіміздің тиімділігін көрсете отырып, нәтижелерді төмендегі кестеде келтіреміз.

Қазақ тілінен аудармасы

  Ағылшын тіліне Орыс тіліне Түрік тіліне
  Google Translate Yandex Translate Tilmash Google Translate Yandex Translate Tilmash Google Translate Yandex Translate Tilmash
BLEU 0.32 0.29 0.32 0.26 0.26 0.27 0.21 0.13 0.16
ChrF 0.63 0.61 0.63 0.59 0.60 0.60 0.58 0.52 0.55

Қазақ тіліне аудармасы

  Ағылшын тілінен Орыс тілінен Түрік тілінен
  Google Translate Yandex Translate Tilmash Google Translate Yandex Translate Tilmash Google Translate Yandex Translate Tilmash
BLEU 0.27 0.18 0.21 0.21 0.2 0.20 0.17 0.13 0.15
ChrF 0.63 0.58 0.60 0.60 0.60 0.60 0.56 0.53 0.55

Төмендегі кестелерден автоматты түрде аударылған деректер бойынша оқыту базалық NLLB моделімен салыстырғанда татар және өзбек тілдерінен және осы тілдердің өзіне аудару сапасының айтарлықтай артқанын көруге болады.

Татар тілінен Татар тіліне
BLEU ChrF BLEU ChrF
Base Tilmash Base Tilmash Base Tilmash Base Tilmash
0.10 0.16 0.49 0.54 0.08 0.10 0.47 0.49
Өзбек тілінен Өзбек тіліне
BLEU ChrF BLEU ChrF
Base Tilmash Base Tilmash Base Tilmash Base Tilmash
0.09 0.15 0.44 0.53 0.07 0.12 0.49 0.56

Cондай-ақ моделімізбен жеке таныса алатындай демонстрациялық презентацияны әзірледік.

  1. Түпнұсқа тілін таңдаңыз (Мәтін қай тілден аударылсын?).
  2. Аударма тілін таңдаңыз (Мәтін қай тілге аударылсын?).
  3. Мәтінді сол жақ өріске енгізіңіз немесе қойыңыз.
  4. “Аудару” түймесін басыңыз. Аударылған мәтін оң жақ өрісте пайда болады.

Мәтіннің ұзындығы 800 таңбадан аспауы керек екенін есте сақтаңыз.

swap
800 / 800