Проекты

Tilmash

ISSAI представляет проект Tilmash, позволяющий осуществлять двусторонний машинный перевод для казахского, русского, английского, турецкого, татарского и узбекского языков.

Наша модель машинного перевода была обучена на модели NLLB компании Facebook, разработанной для решения задач перевода для 202 языков.

Наша модель была обучена с использованием множества источников данных, включая официальные правительственные веб-сайты (официальный сайт Президента Республики Казахстан и Послание Главы государства), новостные статьи, разговорники, специализированную терминологию и даже вдохновляющие TED-выступления. В течение двух лет наша команда лингвистов тщательно изучала и совершенствовала эти данные на казахском, русском, английском и турецком языках. Кроме того, в обучении модели были использованы данные из англоязычных ресурсов, автоматически переведенных на казахский, русский и турецкий языки. Также мы автоматически перевели корпус на татарский и узбекский языки и обучили модель на этих данных.

Результатом нашей работы является современная модель машинного перевода, которая по нескольким стандартным показателям конкурирует с системами перевода таких гигантов отрасли, как Google Translate и Yandex Translate. Мы приводим результаты в таблице ниже, демонстрируя эффективность нашей модели Tilmash наряду с этими первоклассными системами перевода.

Перевод с казахского языка

  На английский На русский На турецкий
  Google Translate Yandex Translate Tilmash Google Translate Yandex Translate Tilmash Google Translate Yandex Translate Tilmash
BLEU 0.32 0.29 0.32 0.26 0.26 0.27 0.21 0.13 0.16
ChrF 0.63 0.61 0.63 0.59 0.60 0.60 0.58 0.52 0.55

Перевод на казахский язык

  С английского С русского С турецкого
  Google Translate Yandex Translate Tilmash Google Translate Yandex Translate Tilmash Google Translate Yandex Translate Tilmash
BLEU 0.27 0.18 0.21 0.21 0.2 0.20 0.17 0.13 0.15
ChrF 0.63 0.58 0.60 0.60 0.60 0.60 0.56 0.53 0.55

В таблицах ниже Вы можете увидеть, что обучение на автоматически переведенных данных дало значительный прирост качества для перевода с татарского и узбекского языка и на них по сравнению с базовой моделью NLLB.

С татарского На татарский
BLEU ChrF BLEU ChrF
Base Tilmash Base Tilmash Base Tilmash Base Tilmash
0.10 0.16 0.49 0.54 0.08 0.10 0.47 0.49
С узбекского На узбекский
BLEU ChrF BLEU ChrF
Base Tilmash Base Tilmash Base Tilmash Base Tilmash
0.09 0.15 0.44 0.53 0.07 0.12 0.49 0.56

Нами также была разработана демонстрационная презентация, чтобы вы могли лично ознакомиться с нашей моделью.

  1. Выберите язык оригинала (тот, с которого вы переводите).
  2. Выберите язык перевода (тот, на который вы переводите).
  3. Введите или вставьте текст в левое поле.
  4. Нажмите кнопку “Перевести”. Переведенный текст появится в правом поле.

Имейте в виду, что длина текста не должна превышать 800 символов.

swap
800 / 800