ISSAI представляет проект Tilmash, позволяющий осуществлять двусторонний машинный перевод для казахского, русского, английского, турецкого, татарского и узбекского языков.
Наша модель машинного перевода была обучена на модели NLLB компании Facebook, разработанной для решения задач перевода для 202 языков.
Наша модель была обучена с использованием множества источников данных, включая официальные правительственные веб-сайты (официальный сайт Президента Республики Казахстан и Послание Главы государства), новостные статьи, разговорники, специализированную терминологию и даже вдохновляющие TED-выступления. В течение двух лет наша команда лингвистов тщательно изучала и совершенствовала эти данные на казахском, русском, английском и турецком языках. Кроме того, в обучении модели были использованы данные из англоязычных ресурсов, автоматически переведенных на казахский, русский и турецкий языки. Также мы автоматически перевели корпус на татарский и узбекский языки и обучили модель на этих данных.
Результатом нашей работы является современная модель машинного перевода, которая по нескольким стандартным показателям конкурирует с системами перевода таких гигантов отрасли, как Google Translate и Yandex Translate. Мы приводим результаты в таблице ниже, демонстрируя эффективность нашей модели Tilmash наряду с этими первоклассными системами перевода.
Перевод с казахского языка
На английский | На русский | На турецкий | |||||||
Google Translate | Yandex Translate | Tilmash | Google Translate | Yandex Translate | Tilmash | Google Translate | Yandex Translate | Tilmash | |
BLEU | 0.32 | 0.29 | 0.32 | 0.26 | 0.26 | 0.27 | 0.21 | 0.13 | 0.16 |
ChrF | 0.63 | 0.61 | 0.63 | 0.59 | 0.60 | 0.60 | 0.58 | 0.52 | 0.55 |
Перевод на казахский язык
С английского | С русского | С турецкого | |||||||
Google Translate | Yandex Translate | Tilmash | Google Translate | Yandex Translate | Tilmash | Google Translate | Yandex Translate | Tilmash | |
BLEU | 0.27 | 0.18 | 0.21 | 0.21 | 0.2 | 0.20 | 0.17 | 0.13 | 0.15 |
ChrF | 0.63 | 0.58 | 0.60 | 0.60 | 0.60 | 0.60 | 0.56 | 0.53 | 0.55 |
В таблицах ниже Вы можете увидеть, что обучение на автоматически переведенных данных дало значительный прирост качества для перевода с татарского и узбекского языка и на них по сравнению с базовой моделью NLLB.
С татарского | На татарский | ||||||
BLEU | ChrF | BLEU | ChrF | ||||
Base | Tilmash | Base | Tilmash | Base | Tilmash | Base | Tilmash |
0.10 | 0.16 | 0.49 | 0.54 | 0.08 | 0.10 | 0.47 | 0.49 |
С узбекского | На узбекский | ||||||
BLEU | ChrF | BLEU | ChrF | ||||
Base | Tilmash | Base | Tilmash | Base | Tilmash | Base | Tilmash |
0.09 | 0.15 | 0.44 | 0.53 | 0.07 | 0.12 | 0.49 | 0.56 |
Нами также была разработана демонстрационная презентация, чтобы вы могли лично ознакомиться с нашей моделью.
Имейте в виду, что длина текста не должна превышать 800 символов.