Топ-100 Машинный перевод - процесс перевода текстов с одного ест..
Назад

Машинный перевод - процесс перевода текстов с одного есте ..

Машинный перевод
                                     

Машинный перевод

Машинный перевод - процесс перевода текстов с одного естественного языка на другой с помощью специальной компьютерной программы. Так же называется направление научных исследований, связанных с построением подобных систем.

                                     

1. Формы организации взаимодействия ЭВМ и человека при машинном переводе. (Forms of organization of interaction between computers and humans with machine translation)

  • С постредактированием: исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
  • С интерредактированием: человек вмешивается в работу системы перевода, разрешая трудные случаи.
  • С предредактированием: человек приспосабливает текст к обработке машиной устраняет возможные неоднозначные прочтения, упрощает и размечает текст, после чего начинается программная обработка.
  • Смешанные системы например, одновременно с пред- и постредактированием.
                                     

1.1. Формы организации взаимодействия ЭВМ и человека при машинном переводе. Автоматизированный перевод. (Automatic translation)

Вместо "машинный" иногда используется слово автоматическая, которая не влияет на смысл, однако термин автоматизированный перевод имеет совсем другое значение - если она просто помогает человеку переводить тексты.

Автоматизированный перевод предполагает такие формы взаимодействия:

  • Системы с разделением труда: компьютер обучен переводить только фразы жёстко заданной структуры но делает это так, чтобы исправлять за ним не требовалось, а всё, не уложившееся в схему, отдаёт человеку.
  • Частично автоматизированный перевод: например, использование переводчиком-человеком компьютерных словарей.

В англоязычной терминологии также различаются термины англ. machine translation (машинный перевод), MT полностью автоматический перевод и англ. machine-aided (машинный) или англ. machine-assisted translation MAT (машинный перевод мат) автоматизированная, если необходимо определить как, пишите MAT.

Существует два принципиально разных подхода к построению алгоритмов машинного перевода: основанный на правилах rule-based (на основе правил) и статистических или на основе статистики statistical-based (статистической основе). первый подход является традиционным и используется большинством разработчиков систем машинного перевода второго типа является популярным Яндекс. переводчик Google (Гугл), а также новый сервис от ABBYY.



                                     

2. Статистический машинный перевод. (Statistical machine translation)

Статистический машинный перевод-это разновидность машинного перевода текста, основанная на сравнении больших объемов языковых пар. языковые пары - тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, может быть как написание двух предложений человек - носитель двух языков, а набор фраз и их переводы, выполненные человеком. таким образом, статистический машинный перевод обладает свойством "самообучения". тем более в доступных языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода -- концепция "статистического машинного перевода" со ссылкой на генерального подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчеты, которые являются протоколы дебатов в парламенте. двуязычные парламентские отчеты, опубликованные в Канаде, Гонконге и других странах, официальные документы Европейского экономического сообщества опубликован на 11 языках, как Организация Объединенных Наций публикует документы на нескольких языках. как оказалось, эти материалы представляют собой бесценный ресурс для статистического машинного перевода.

                                     

3. История машинного перевода. (The history of machine translation)

Мысль использовать ЭВМ для перевода была сделана в 1947 году в США, сразу после появления первого компьютера. первая публичная демонстрация машинного перевода так называемого Джорджтаунского эксперимента было проведено в 1954 году. несмотря на примитивность той системы, эксперименты были восприняты с большим вниманием: он начал свои исследования в Англии, Болгарии, Германии, Италии, Китая, Франции, Германии, Японии и других странах же 1954 году в СССР.

К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:

  • GAT (Гат).
  • MARK (Марк) в Департаменте иностранной техники ВВС США.

Однако, созданные для оценки таких систем, комиссия ALPAC (Вязку) пришли к выводу, что из-за низкого качества машинного перевода текстов этой деятельности в США невыгодно. хотя комиссия рекомендовала продолжать и углублять теоретические исследования, ее выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой теме.

Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. особенно существенным фактором стало появление мини-и персональных компьютеров, а также все более сложной лексики, поиск и т. п. системы, ориентированные на естественно-языковые данные. и растет необходимость в переводе как таковой из-за роста международных отношений. все это привело к новому подъему этой области произошел примерно в середине 1970-х. В 1980-е настало время для широкого практического использования переводческих систем, есть рынок коммерческих разработок по этой теме.

Тем не менее, мечта о том, что человечество полвека назад взялся за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижимой. но это, несомненно, ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, в пять раз.

В настоящее время существует много коммерческих проектов машинного перевода. один из пионеров в области машинного перевода стала компания SYSTRAN. В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровский, российский государственный педагогический университет имени А. И. Герцена, Санкт-Петербург.

                                     

4. Философские обоснования. (Philosophical Foundation)

В 1960-х годы Станислав Лем обобщенных утверждений о проблеме машинного перевода и связи с пониманием текста на машины:

                                     

5. Качество перевода. (The quality of the translation)

Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми осуществляется перевод. машинный перевод художественных текстов практически всегда является плохим качеством. однако, для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке. тем более формализован стиль исходного документа, более высокого качества перевода можно ожидать. лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в различных технических описаний и пособий и официально-делового стиля.

С помощью машинного перевода без настройки на тематику, или намеренно неверной настройкой является преобладающим предметом многочисленных интернет-шуток. из самых старых и наиболее популярных примеров таких шуток наиболее известен текст перевода на мышь драйвера, известная как "Гуртовщики Мыши" объявлен как "перевод компьютерной документации системой машинного перевода Poliglossum на основе медицинского, коммерческого и юридического словарей". от этой фразы "наши cat gave birth to (кошка родила) three kittens (три котенка) - two whites and one (два белых и один) черный" онлайн переводчик "ПРОМТ" версия 7.0, 2007 превратился в "Наша кошка имела трех котят - двух белых и одного афроамериканца". если "афроамериканца" делать "чёрным", написание "black kitten", затем "коту" не получалось сменить пол: например, female cat (Женщина-кошка) переводится как "самка кот".

Чаще всего, эти шутки связаны с тем, что программа не распознает контекст фразы и переводит термины дословно, к тому же не отличая собственных имен от обычных слов. тот же переводчик Промт преобразованы "Лев Толстой" в "Lion Thick" "толстый лев", "bra-ket notation" в "примечание Кети лифчика", "Lie algebra" - в "алгебру Лжи", "eccentricity vector" - в "вектор оригинальности", "Shawnee Smith" в "индеец племени шони Смит" и т. п. переводчик Google (Гугл), наоборот, слово "rice" часто ошибаются на имя государственного секретаря.