Мы изучаем обучение единой сквозной (E2E) модели автоматического распознавания речи (ASR) для трех языков, используемых в Казахстане: казахского, русского и английского. Сначала мы опишем разработку многоязычного ASR E2E на основе трансформаторных сетей, а затем проведем обширную оценку на вышеупомянутых языках. Мы также сравниваем два варианта построения набора выходных графем: комбинированный и независимый. Кроме того, мы оцениваем влияние LMS и методов расширения данных на производительность распознавания многоязычного ASR E2E. Кроме того, мы представляем несколько наборов данных для целей обучения и оценки. Результаты эксперимента показывают, что многоязычные модели достигают сопоставимых характеристик с одноязычными базовыми показателями с аналогичным количеством параметров. Наши лучшие одноязычные и многоязычные модели достигли 20,9% и 20,5% средней частоты ошибок в словах в комбинированном наборе тестов соответственно. Чтобы обеспечить воспроизводимость наших экспериментов и результатов, мы делимся нашими учебными рецептами, наборами данных и предварительно подготовленными моделями (https://github.com/IS2AI/MultilingualASR ).