Как оценить качество машинного перевода?
Есть ли способ измерить качество машинного перевода для разных языковых комбинаций, таких как английский/испанский или немецкий/японский?

В этой статье мы можем сделать такую попытку, сосредоточившись на различиях в механизмах машинного перевода и оценивая общее качество переведенного машинным способом контента.

Какие мы знаем сервисы машинного перевода? Давайте начнем с короткого списка:

  • Google Переводчик
  • Microsoft Translator
  • IBM Watson
  • Yandex.Перевод
  • DeepL
  • Amazon Translate

В то же время существуют десятки других сервисов машинного перевода, таких как Systran, Moses и т. д., а также сервисы, созданные для определенных ниш или небольшого числа языковых комбинаций. Сегодня мы сосредоточимся на основных потребительских продуктах машинного перевода.

Типы механизмов машинного перевода:

Теперь, когда у нас есть список, нам также нужно кратко объяснить по крайней мере основные типы механизмов машинного перевода. Существует три основных типа машинного перевода:
• На основании языковых правил (Rule-based)
• Статистические (Statistical)
• Нейронные (Neural).

Для многих эквивалентом машинного перевода является Google Translate из-за большого количества языков, которые он поддерживает, а также из-за длинной (и не всегда столь успешной) истории.
Что это все значит для клиентов и потребителей? Здесь и вступает в игру важный фактор - оценка качества.

Как измерить качество машинного перевода?

Дебаты о том, как оценивать качество машинного перевода, продолжаются. Ученые, филологи и переводчики постоянно работают над совершенствованием способа автоматической проверки машинного перевода, максимально приближая его к переводам, выполняемым людьми.

Учитывая тот факт, что продукты машинного перевода бывают разных форм и размеров, вы не можете реально сравнить статистические и нейронные механизмы один к одному.

Другая проблема заключается в том, что разные группы разработали разные способы измерения качества переводов. Основным используемым алгоритмом является BLEU (двуязычная оценка обучения). Машинно-переведенные предложения сравниваются с набором справочных переводов хорошего качества. Затем они оцениваются числом от 0 до 1. Чем ближе перевод к 1, тем он лучше по сравнению с человеческим переводом. Есть и другие метрики, такие как NEST (на основе BLEU), WER (коэффициент ошибок по словам), METEOR, LEPOR или ChrF.

Субъективно Google Translate оказался наиболее универсальным продуктом машинного перевода, поддерживающим большинство языков и обеспечивающим наилучшие результаты. Google фактически также оценил их продукт, и они также признают различия между различными языковыми комбинациями.