Бюро переводов ooo-perevod.ru
Нижний Новгород

В 2006 году Гугл (Google) заявил о запуске сервиса онлайн переводов (Google Translate), который в качестве ключевого алгоритма использует машинный перевод фраз.

В сентябре 2016 года Гугл провел презентацию системы нейронного машинного перевода (НМПГ – англ. «GNMT»), в которой используются новейшие учебные методики изучения иностранного языка для достижения оптимального качества автоматического перевода.

В полном объеме результаты исследований описаны в техническом отчете, который был опубликован в сентябре 2016 года: «Система Гугл для нейронного машинного перевода: устранение различий между пользовательским и машинным переводом».

Несколько лет назад Гугл начал использовать рекуррентные нейронные сети (РНС) для изучения преобразований при переводе: процесс трансформации входного текста (например, предложение на одном языке) в итоговый текст (это же предложение на другом языке).

Фразовый машинный перевод (ФМП – англ. «PBMT»), как правило, делит входное предложение на слова и фразы для раздельного перевода. Нейронный машинный перевод (НМП – англ. «NMT») рассматривает все входное предложение для перевода как одно целое. Преимущество данной технологии в том, что здесь выполняется меньше технических расчетов по сравнению с обычной системой перевода на основе фраз.

При проведении первых тестов на небольших стандартных массивах данных НМП сразу продемонстрировал точность, аналогичную существующим системам перевода на основе фраз.

Ученые рассматривают множество методов улучшения НМП. Например, редкие слова предлагается переводить при помощи выравнивания параллельного текста на уровне предложений. При этом текст выравнивается на уровне входных и итоговых слов. Перевод редких слов также упрощается, если входные слова делить на меньшие части.

Несмотря на эти улучшения, скорость и точность НМП были недостаточными для использования в программном комплексе Гугл для массовых онлайн переводов.

В вышеуказанном техническом отчете показывается, как были преодолены проблемы, связанные с обработкой гигантских массивов информации, как была создана система НМП для пользователей и сотрудников Гугл с нужными характеристиками по скорости и точности для получения более качественного перевода.

Сравнение качества нейронного, машинного и пользовательского переводаСравнение качества нейронного, машинного и пользовательского переводаСравнение качества нейронного, машинного и пользовательского перевода
Параметры параллельных оценок, поставленных пользователями, при сравнении качества переводов для определенного исходного предложения. Оценки варьируются от 0 до 6, при этом 0 означает «абсолютно бессмысленный перевод», 6 — «точный перевод».

Следующая картинка демонстрирует последовательный прогресс НМПГ при трансформации предложения с китайского языка на английский язык.

Процесс нейронного перевода текста

Сначала сеть кодирует китайские слова как список векторов, в котором каждый вектор представляет собой значение всех отсканированных слов («Шифратор»). После сканирования всего предложения декодер начинает сразу составлять английское предложение по одному слову («Декодер»).

На каждом этапе для получения переведенного слова декодер учитывает взвешенное распределение закодированных векторов на китайском языке по степени уместности в рассматриваемой теме. Таким образом, выбирается английское слово («Внимание»; прозрачность синей ссылки показывает степень важности закодированного слова для декодера).

По сравнению с предыдущим программным комплексом, который основан на фразах, система НМПГ, используя параллельное сравнение оценок пользователей в качестве метрики, дает более точные переводы.

При использовании НМПГ количество ошибок перевода, подсчитанное с помощью двуязычных экспертов по выборочным предложениям из Википедии и новостных веб-сайтов, сокращается более чем на 55-85% для нескольких основных языковых пар.

Пример перевода, созданного системой НМПГ, для входного предложения, выбранного с новостного сайта.

Пример перевода текста - фразовый, нейронный, пользовательскийПример перевода текста - фразовыйПример перевода текста - нейронный, ручной

Кроме того, одновременно с публикацией вышеуказанной исследовательской работы было объявлено о начале промышленной эксплуатации НМПГ для языковой пары, известной своей сложностью: с китайского языка на английский.

Благодаря 100%-ому машинному переводу при помощи НМПГ, который используется в приложениях Гугл, в настоящее время ежедневно с китайского на английский язык осуществляется около 18 миллионов переводов.

Открытие доступа к возможностям НМПГ для обычных пользователей стало возможным благодаря использованию уникальных технологий Гугл. Это общедоступная программная библиотека для машинного обучения Тензор Флоу (Tensor Flow) и тензорные процессоры (TPU), которые обеспечивают достаточную вычислительную мощность для построения сложных моделей НМПГ с учетом требований сервиса Гугл онлайн переводов к уровню задержки.

Перевод с китайского языка на английский является одной из более чем 10 000 языковых пар, поддерживаемых сервисом Гугл онлайн переводов. На данный момент компания Гугл работает над созданием НМПГ для других направлений перевода.

В настоящее время продолжаются исследования в области повышения качества машинного перевода. НМПГ по-прежнему может совершать существенные ошибки, которые профессиональный переводчик никогда не сделал бы, например, такие, как пропуск слов и неверный перевод имен собственных или редких понятий, а также обособленный перевод предложений без учета контекста абзаца или страницы.

Источник: Перевод с английского