Топ-100 Гибридный машинный перевод - интеграция разных подходов ..
Назад

Гибридный машинный перевод - интеграция разных подходов м ..

                                     

Гибридный машинный перевод

Гибридный машинный перевод - интеграция разных подходов машинного перевода из возможных вариантов МП:

  • Rule-based machine translation RBMT (Правило, на основе машинного перевода RBMTБЫЛ) - Машинный перевод на основе правил.
  • Example-based machine translation EBMT (Пример на основе машинного перевода ЕВМТ) Машинный перевод на примерах.
  • Statistical machine translation SMT (Статистический машинный перевод СМТ) - Статистический машинный перевод.
  • Corpus-based machine translation CBMT (Корпусное машинного перевода CBMT) - Машинный перевод на корпусах текстов.

Ожидается, что с использованием гибридных архитектур сможете совместить преимущества этих подходов. машинного перевода сегодня представлено два основных методов: статистического машинного перевода Statistical machine translation (Статистический машинный перевод) - SMT (СМТ) и машинный перевод на основе правил Rule-Based Machine Translation (Правило, На Основе Машинного Перевода) - RBMT.

                                     

1. Разработчики software Hybrid MT. (Developers software Hybrid MT)

  • AppTek HMT (Апптек ГМТ) "TranSphere®" - полная интеграция SMT (СМТ) и RBMT методологий.
  • PROMT (Промт) "PROMT DeepHybrid".
  • LinguaSys "Carabao Machine Translation engine".
  • Asia Online (Азии Онлайн) "SAIC’s OmnifluentTM Human Language (OmnifluentTM Человеческим Языком) Technology".
  • Polytechnic University of Valencia (Политехнический университет Валенсии).
  • Systran "SYSTRAN’s hybrid (гибрид) engine".
                                     

2. Гибридная технология "SMT и RBMT". (Hybrid technology "SMT and RBMT")

Перевод гибридная технология предполагает использование статистических методов для построения словаря баз данных автоматизированным способом на основе параллельных корпусов, создание из нескольких возможных переводов на лексическом уровне и на уровне синтаксической структуры предложения выходного языка, использование пост-редактирование в автоматическом режиме и скорее всего перевод возможен на основе языковой модели, построенной по конкретному случаю выходного языка.

Hybrid SMT (Гибрид СМТ) RBMT System (Система RBMTБЫЛ) различаются: п.2.4.3

  • Полная интеграция RBMT и SMT (СМТ).
  • Statistical MT (Статистические МТ) с предварительной обработкой по Rule-based (На основе правил) подходу.
  • Rule-based MT (На основе правил) с пост-обработкой статистического подхода.

Статистический МП стремится использовать лингвистические данные, и система "классическим" подход, основанной на правилах, с помощью статистических методов. добавление некоторых "сквозных" правил, то есть создание гибридных систем, улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых для построения индексных файлов хранение лингвистической информации, машинный переводчик, на основе N-грамм.

Ассоциации RBMT и статистический машинный перевод:

  • Порождение вариантов перевода. (A product of translations)
  • Лингвистический анализ входного предложения.
  • Оценка и выбор лучшего варианта перевода с использованием Языковой модели.
  • Использование статистических технологий. (The use of statistical technologies)

Этапы гибридной технологии SMT (СМТ) и RBMT:

  • Обучение RBMT на основе параллельного корпуса с использованием статистических технологий.
  • Эксплуатация на основе натренированной системы.


                                     

2.1. Гибридная технология "SMT и RBMT". Архитектура Гибридной технологии "SMT и RBMT". (Hybrid technology "SMT and RBMT")

В гибридном RBMTБЫЛ системы машинного перевода дополнена двумя компонентами: статистический пост-редактирования модуля и модуля языковые модели. статистический пост-редактирования позволяет сгладить РБ-переводе, приближая его к естественному языку, сохраняя при этом четкую структуру синтезируемого текста. языковые модели используются для оценки гладкости и грамматической правильности перевода, созданный по гибридной системы.

Типичная архитектура HMT: (ГМТ)

  • Языковая модель. (Language model)
  • Данные для постредактирования. (Data for post-editing)
  • Параллельный корпус. (A parallel corpus)
  • Словарь терминологии. (Dictionary)
  • Обучение. (Training)
  • Правила синтеза. (Rules of synthesis)
  • - Гибридный перевод. (Hybrid translation)
  • Эксплуатация. (Operation)
                                     

2.2. Гибридная технология "SMT и RBMT". Принцип работы HMT. (Принцип работы ГМТ)

Сочетание, казалось бы, несовместимые методы перевода, а именно классическую технологию машинного перевода машинный перевод на основе правил Rule-Based MT (На основе правил) и статистического машинного перевода Statistical MT (Статистические МТ) может быть реализован в гибридной технологии перевода. принципиальное отличие нового решения заключается в том, что вместо одного варианта перевода программа имеет множество переводов, в котором одно предложение, в зависимости от многозначности слов, конструкций и результатов статистической обработки, может доходить до нескольких сотен. далее вероятностная модель языка позволяет выбрать самый вероятный из вариантов.

Алгоритм типичного HMT: (ГМТ)

  • - применения постредактирования. (- use post-editing)
  • - лексических вариантов. (- lexical variants)
  • Создание терминологического словаря из параллельных текстов для RBMT автоматическим путём.
  • - вариантов синтеза разных конструкций.
  • Порождение всех возможных вариантов перевода на основе.
  • Выбор лучшего варианта, через реализованную Языковую модель.
                                     

2.3. Гибридная технология "SMT и RBMT". Преимущества и недостатки. (Advantages and disadvantages)

Что дает гибридная технология перевода?

  • Терминологическую точность перевода, а также единство стиля.
  • Быструю автоматическую настройку на основе Translation Memories (Воспоминания Перевод) заказчика.
  • Получение дополнительных полезных данных (Obtaining more useful data) - двуязычного терминологического словаря.
                                     

2.4. Гибридная технология "SMT и RBMT". Преимущества и недостатки Машинного перевода на основе правил. (The advantages and disadvantages of Machine translation based on rules)

Преимущества RBMT:

Спас:

  • - синтаксическая и морфологическая точность.
  • - возможность настройки на предметную область.
  • - стабильность и предсказуемость результата.

Недостатки RBMT:

  • - трудоемкость и длительность разработки.
  • - "машинный акцент" при переводе.
  • - необходимость поддерживать и актуализировать лингвистические БД.

Недостатки компенсируются использованием параллельных корпусов и статистических методов.

  • - исчезает "машинный" акцент при переводе варианты синтеза и постредактирование.
  • - автоматическая настройка лингвистических баз данных быстрое и качественное извлечение терминологии.
                                     

2.5. Гибридная технология "SMT и RBMT". Преимущества и недостатки Статистических систем перевода. (The advantages and disadvantages of Statistical systems of translation)

Преимущества SMT: (СМТ)

  • - легко добавлять новые направления перевода.
  • - гладкость перевода. (- smooth translation)
  • - быстрая настройка. (- quick setting)

Недостатки SMT: (СМТ)

  • - нестабильность перевода. (the instability of transfer)
  • - многочисленные грамматические ошибки.
  • - "Дефицит" параллельных корпусов.