Филолингвия
Воскресенье, 22.12.2024, 23:09
Приветствую Вас Гость
 
Главная страница Информация о сайтеРегистрацияВход
Меню сайта
  • Главная страница
  • Информация о сайте
  • Новости
  • Каталог статей
  • Рейтинг статей
  • Каталог ресурсов
  • Каталог ссылок
  • Как выучить английский
  • Форум
  • Фотоальбом
  • Рефераты по языкам
  • Гостевая книга
  • TOP 100
  • Методы.
  • Методики.
  • Новости языков
  • Новости английского
  • Прямой эфир.
  • Доска объявлений
  • Гостевая книга
  • TOP 100
  • Категории каталога
    Онлайн переводчик [28]
    Переводчик онлайн, перевод онлайн
    Рабочая память. [5]
    Перевод блогов [1]
    Теория перевода [25]
    Услуги перевода. [3]
    Практика перевода [312]
    Программы-переводчики [8]
    Сейчас на сайте
    Онлайн всего: 1
    Гостей: 1
    Пользователей: 0
    С днем рождения!
    Darkwood(50), Мария(42), olgash(46), jkvh0uidfhbviu(32), SiGnOrItA(35), aCID(35), izuminka(34), helgatiger(38), zolotgrom(29)
    Сегодня сайт посетили
    Система Эффективного Самостоятельного Изучения Языков
    [28.08.2024]
    Тайное знание элиты: Структурный Дифференциал Коржибского (0)
    [06.02.2019]
    Прекращение поддержки домена filolingvia.ru (0)
    [14.08.2018]
    Английский без правил! (1)
    [13.08.2018]
    Прогнозирование - это не чудо, а технология или зачем искусство стратегии тем, кто учит английский язык? (0)
    [08.03.2018]
    Тридцать два самых красивых английских слова! (0)
    [06.01.2018]
    Доброе Поздравление - 2018 от Студии Языков (0)
    [23.11.2017]
    Набор для игры "88 8опросо8" с глаголом "to buy" (0)
    [20.11.2017]
    Pushing the button - Динамика действия в реальности (0)
    [15.11.2017]
    Скачать Бесплатно Лингвокарты (0)
    [15.11.2017]
    В четверг, 16 ноября, 19.00 МСК - Интерактивная Лингвокарта. Виталий Диброва представляет новый мастер-класс на Марафоне. (0)
    [15.11.2017]
    В четверг, 16 ноября, 19.00 МСК - Интерактивная Лингвокарта. Виталий Диброва представляет новый мастер-класс на Марафоне. (0)
    [23.09.2017]
    Говорящий тренажер с "живой" Лингвокартой на 2-х языках (0)
    [20.09.2017]
    ТАВАЛЕ фестиваль: 13 - 22 октября 2017 в Харькове. Студия Языков на крупнейшем фестивале тренингов и методов развития человека! (0)
    [15.09.2017]
    You'll get the power! (0)
    [11.09.2017]
    10 лайфхаков для изучения английского каждый день (1)
    [07.09.2017]
    Прямая Линия Поддержки. (0)

    Начало » Статьи » Перевод. » Онлайн переводчик

    Машинный перевод: правила против статистики

    Машинный перевод: правила против статистики

    Компьютерные программы-переводчики («машинные переводчики») — один из весьма востребованных типов программного обеспечения. Современный мир полон разнообразной информацией, но разделен языковыми барьерами, и часто многие из нас сталкиваются с необходимостью перевода больших объемов текста в самые кратчайшие сроки. Кроме того, сегодня огромное количество информации из любой области знаний доступно посетителю Интернета. Однако контент многих интересных сайтов представлен только на иностранных языках, и в этом случае быстро преодолеть языковой барьер можно лишь с помощью систем машинного перевода.

    Каким же образом программе удается связно переводить текст с одного языка на другой? Какие технологии машинного перевода (МП, machine translation) разрабатываются сегодня? Что ждет машинный перевод в ближайшем будущем?

    На все эти вопросы мы и постараемся дать ответ. Речь пойдет о двух конкурирующих технологиях машинного перевода: традиционной (rule-based machine translation) — основанной на правилах и статистической (statistical-based machine translation). Обе технологии имеют свои плюсы и минусы, приверженцев и противников, и сегодня в Интернете часто обсуждается вопрос, какая из них позволяет получить наиболее качественный результат. Особенно активно противопоставляются друг другу технологии rule-based и statistical-based после запуска бесплатного сервиса онлайн-перевода Google (основанного на статистическом методе) [В сервисе Google на базе статистической технологии работают только те направления перевода, которые помечены как BETA-версии]. Попытаемся выяснить, какая же из этих технологий лучше.

    Перевод по правилам

    Rule-based machine translation — это метод, используемый большинством разработчиков систем машинного перевода (ПРОМТ в России, SYSTRAN во Франции, Linguatec в Германии и др.), его еще называют традиционным методом машинного перевода. Технология основана на применении правил (алгоритмов), когда программа анализирует текст и на основе проведенного анализа синтезирует вариант перевода. Работа такой системы сходна с процессом мышления человека: система анализирует текст, используя множество алгоритмов.

    Представителем систем, которые основаны на традиционной технологии перевода, являются программы-переводчики PROMT, разрабатываемые специалистами одноименной российской компании. Процесс перевода, выполняемый системами PROMT, можно условно разделить на несколько этапов.

    Морфологический анализ слов
    Приступив к переводу текста, программа в первую очередь анализирует слова в каждом предложении с точки зрения морфологии, то есть указывает род, число, лицо и другие морфологические характеристики. На данном этапе программа не решает вопрос грамматической многозначности, а только фиксирует эту информацию. Например, если слово может принадлежать к разным частям речи: английское слово blow может употребляться как глагол (дуть, веять) или как существительное (порыв ветра, дуновение), то система определит, что blow — это форма настоящего времени, 1 или 2 лица единственного или множественного числа, либо 3 лица множественного числа, а также форма инфинитива.

    Анализ и синтез групп
    После морфологического анализа система выполняет следующие действия:

    • решает вопрос грамматической многозначности (определяет значения слов, которые могут относиться к разным частям речи) — там, где это можно определить на контекстном уровне;
    • объединяет отдельные слова в группы (именные, глагольные и др.).

    Примеры именных групп:

    a woman (женщина): неопределенный артикль единственного числа и существительное в единственном числе;
    many nice letters (много хороших писем) — количественное слово many для определения множественного числа, прилагательное nice и существительное множественного числа letters.
    Глагольные группы:

    have taken (взял, взяли) — вспомогательный глагол have + причастие прошедшего времени taken.

    Синтаксический анализ предложений
    Следующий этап работы системы — определение членов предложения и их места в предложении, границ простых предложений и их связей друг с другом в сложных предложениях. Сначала программа ищет сказуемое, затем перед сказуемым — подлежащее (предполагается, что в предложении прямой порядок слов). Если же перед сказуемым подлежащего нет, то система ищет его за сказуемым, или считается, что подлежащее отсутствует (например в безличных предложениях («Принесли торт») или императиве («Отдай мне книгу»)).

    Синтез предложений
    Это заключительный этап работы системы, когда происходит согласование элементов внутри групп, сказуемого и зависимых от него слов (подлежащего, прямого и/или косвенного дополнения), уточняется порядок слов в предложении. В процессе работы программа использует множество алгоритмов, которые помогают составить вариант перевода с учетом грамматических и других особенностей того или иного языка.

    Таблица 1. Перевод текста с английского языка на русский, выполненный системой на основе rule-based machine translation.

    В результате, даже обнаружив шероховатости и недочеты в тексте перевода (что, к сожалению, случается), в абсолютном большинстве случаев пользователь поймет смысл текста, переведенного с помощью технологии rule-based (табл. 1). В зависимости от качества исходного текста «на выходе» получится «черновой» вариант перевода, который позволяет быстро понять, о чем идет речь в исходном тексте. Ведь, как известно, сегодня пользователю зачастую не требуется идеальный перевод иноязычного документа, веб-страницы или электронного письма, а достаточно «чернового» варианта, чтобы принять решение или просто получить полезные сведения.

    Статистика — наука точная?

    Другая широко обсуждаемая сегодня технология перевода — статистическая (statistical-based machine translation). В отличие от традиционной, она не использует лингвистические алгоритмы перевода, а основана на статистическом вычислении вероятности совпадений. Для работы этой системы необходимы огромные базы параллельных текстов, где попарно хранятся словосочетания (фразы из 2–3 слов) и их переводы, так называемые N-граммы. В процессе перевода также используется механизм анализа, но не лингвистический, а статистический. Система подбирает вариант перевода, основываясь на частоте совпадений, то есть в конечном итоге будет подставлен вариант, имеющий наиболее высокий процент совпадений.

    Слабым местом статистических систем является отсутствие механизма анализа грамматических правил входного и выходного языков. Трудно представить, что система, которая не анализирует текст с точки зрения грамматики, способна выдать связный перевод.

    Еще одна проблема состоит в том, что для корректной работы такой системы необходимо иметь в базе не просто очень большое, а невероятно большое количество параллельных N-грамм. Ведь чем больше базы параллельных текстов, тем выше качество перевода. Для обработки такого объема информации необходимо значительное количество компьютерных ресурсов, что по силам только мощному корпоративному или интернет-серверу. К слову сказать, сегодня не существует коммерческих версий статистических переводчиков[Единственный известный коммерческий продукт на базе статистического перевода предлагает американская компания Language Weaver. Система SMTS 4.3 предназначена только для корпоративных клиентов и не работает с русским языком] для настольных компьютеров, а большинство разработок в этой области по-прежнему пребывает в состоянии перманентной разработки. Практически единственным доступным статистическим переводчиком является бесплатный сервис онлайн-перевода компании Google.

    Однако не будем ограничиваться теоретическими выводами, пора проверить качество перевода обеих технологий, попробовав их «в деле». Сравним две наиболее известные на сегодня системы перевода — уже упоминавшийся переводчик PROMT и интернет-сервис Google.

    PROMT и Google: битва титанов

    Мы решили протестировать англо-русское направление перевода как наиболее популярное среди русскоязычных пользователей. Сразу отметим, что сервис перевода Google сегодня предлагает воспользоваться BETA-версией этой языковой пары (данное языковое направление находится в стадии разработки). Онлайн-сервис Google также предлагает BETA-версии для восточноазиатских направлений перевода (китайского, японского, корейского и арабского языков), также работающих на основе статистического метода перевода. Остальные языковые пары переводят тексты на базе системы SYSTRAN (rule-based machine translation).

    В качестве примера мы взяли материал информационного агентства BBC (табл. 2).

    Таблица 2. Перевод статьи BBC.

    К сожалению, наши сомнения относительно качества перевода с помощью статистического метода оказались небезосновательны. Например, простое именное словосочетание «a Chinese orphanage» (китайский приют) Google перевел как «Китая приюте». Во-первых, слово «Chinese» само по себе переводится как «китайский» и не может иметь варианта перевода «Китай» (China). Непонятно, почему сервис не только неправильно перевел прилагательное, но и не согласовал падеж слова «orphanage» (если опустить прилагательное, получается бессмысленное «из приюте»). Однако, в отличие от перевода PROMT, предлог сервис Google выбрал правильно: «bring FROM» — «привести ИЗ».

    Во-вторых, перевод слова «bringing» в варианте Google вообще отсутствует. Исчезновение слов или фраз при переводе недопустимо и является очень грубой ошибкой. Даже при отсутствии в словарных базах системы варианта перевода (а такое возможно) программа должна подставить в переведенный текст слово «как есть» — в нашем случае английское «bringing». Если же программа действует по принципу: «нет перевода — нет слова», то смысл переведенного текста вряд ли будет понятен пользователю. Единственный вариант в данном случае — кропотливо сравнивать исходный и переведенный тексты, чтобы обнаружить «пропавшее» слово и самостоятельно перевести его, если позволяет квалификация. Тогда возникает вопрос: зачем нужна система перевода, если приходится переводить самому?

    Связно перевести вторую часть предложения сервису Google не удалось. В получившемся варианте («это только показать, что она идентична близнецы, а также за рубежом») члены предложения не согласованы с точки зрения синтаксиса, и в результате теряется смысл текста. Система PROMT успешно справилась с этим фрагментом: «только для этого, чтобы показать, что у нее есть идентичная сестра-близнец, также принятая за границей».

    Мы также предложили сервису Google перевести фрагмент новости о футболисте Дэвиде Бекхэме, однако результат перевода предложения «Beckham may find LA a refreshing change once the hype and novelty wears off» также оказался неудачным: «Бэкхем может найти LA освежающий измениться после того, ажиотаж и новизна носит удалиться». К сожалению, иначе как бессмысленным набором слов такой перевод назвать нельзя. Напрашивается вывод, что мы имеем дело с примитивным подстрочником, и система, не найдя связного перевода предложения в базе, тупо подставила перевод каждого слова по отдельности.

    Очевидно, что причина нелепостей при переводе статистическим методом заключается в недостаточном объеме параллельных баз текстов из различных областей знаний. В традиционных системах перевода, работающих на основе правил, есть возможность настройки программы для перевода текстов со специализированной терминологией. В частности, можно подключить тематические словари, создавать и редактировать собственные словари, резервировать слова, не требующие перевода, и т. д. Результат перевода после настройки системы приведен в табл. 3.

    Табл. 3. Перевод текста системой rule-based с применением настроек.

    Использование возможностей настройки не отразится на объеме занимаемой программой памяти. В статистических системах необходимым условием является наличие достаточного количества параллельных текстов по любой тематике, что требует значительного объема памяти ПК и огромных трудозатрат по занесению N-грамм в базы. По всей видимости, сегодня эта задача еще не нашла достойного решения.

    Стоит также отметить, что технология перевода статистической системой построена на анализе параллельных текстов, и программа может менять результат перевода в зависимости от контекста анализируемых баз. В результате перевод одного и того же термина может быть разным, так как система вычисляет вероятность (наибольшее количество) совпадений перевода данного слова в определенном контексте. В отличие от статистического метода, технология rule-based гарантирует одинаковый перевод одного и того же термина, что особенно актуально для корпоративных пользователей, которые переводят тематическую информацию со специализированными терминами.

    Итак, первое представление о возможностях той и другой технологии мы получили, однако нельзя ограничиваться одним примером. Поскольку многим из нас часто приходится переводить документы, инструкции или контракты, мы решили протестировать обе системы на фрагменте англоязычного трудового договора (табл. 4).

    Табл. 4. Перевод фрагмента трудового договора.

    К сожалению, снова первыми бросаются в глаза недостатки перевода Google. Начало стандартного предложения «The employee is being hired» сервис перевел выдуманным словосочетанием «Работника на работу», опустив сказуемое «нанимается» (is being hired). Кроме того, переводчик Google убрал из текста перевода название компании — MTSS. О смысле получившейся фразы «обеспечения безопасности признаются компании должности и органа» (оригинал звучит как «providing security of MTSS Company office») остается только догадываться. Вместе с тем, PROMT идеально перевел этот фрагмент: «обеспечение безопасности офиса компании MTSS».

    Однако с некоторыми нюансами сервис Google справился лучше соперника. Во-первых, термин «the employee» был корректно переведен как «работник», а не «служащий» (вариант перевода PROMT). Во-вторых, выражение «as a security» было правильно переведено Google как «в качестве охранника», в отличие от угловатого «как охранник», предложенного PROMT’ом. Более гладко переведено и последнее предложение в примере: «The employee also agrees to perform additional duties incidental to the general job description» — «Также работник обязуется выполнять дополнительные обязанности...». Но непонятно, почему союз «также» стоит в начале предложения: нарушается строгий стиль текста — важное условие, которое необходимо соблюдать при переводе юридических документов.

    В целом, создается впечатление, что перевод Google состоит из отдельных кусочков (фраз), что, по сути, верно. В процессе перевода система «ищет» в базах параллельные словосочетания, не анализируя при этом грамматику языков. Если пользователю повезет и в базе системы есть аналогичный текст, тогда на выходе система выдаст вполне приличный перевод. Если перевод в базе отсутствует, тогда Google смело выдает примитивный подстрочник, не потрудившись «связать» слова в осмысленное предложение.

    Кто на новенького?

    Исходя из анализа двух технологий можно сделать вывод, что системы, реализованные на основе традиционной технологии перевода (rule-based machine translation), предлагают более качественный перевод по сравнению с методом статистического анализа. Очевидно, что 100-процентное качество перевода не способен обеспечить ни один машинный переводчик. Перевод системы PROMT позволяет понять смысл текста, хотя программа и допускает некоторые огрехи и стилистические неточности. Безусловным достоинством PROMT является возможность настройки, благодаря чему систему можно «обучить» вполне корректному переводу текстов.

    Глобальным недостатком статистической системы Google является фатальная зависимость качества перевода от объема и разносторонности базы параллельных текстов. Минусом является и то, что этот переводчик доступен только в качестве онлайнового сервиса. Всем известно, что бесплатные интернет-порталы переводят лишь небольшие фрагменты текстов. Таким образом, для корпоративных клиентов (самый большой сегмент пользователей программ-переводчиков), которым часто приходится переводить большие объемы документации, сервис перевода Google может служить разве что демонстрацией достижений на ниве статистического перевода [Рекомендуем также обратить внимание на бесплатный сервис перевода на сайте Translate.ru, который предоставляет компания ПРОМТ. Сервис реализован на основе технологии PROMT и предлагает девять направлений перевода для русского языка, что особенно важно для русскоязычных пользователей]. Поэтому основные пользователи данного сервиса — частные пользователи, у которых необходимость в переводе фрагментов текста или электронных писем возникает время от времени.

    Однако с переводом устойчивых словосочетаний Google в некоторых случаях справился лучше PROMT’а, что позволяет задуматься о возможной интеграции обеих технологий для получения оптимального качества перевода. В частности, некоторое время назад стало известно, что компания ПРОМТ приобрела у Google корпус (базы параллельных текстов), размер текстов корпуса составляет более 24 Гб в сжатом виде.

    Возможно, в будущем специалистам ПРОМТ удастся объединить преимущества обеих технологий и представить систему перевода качественно нового уровня. Скорее всего, такой переводчик будет не самой «легкой» программой с точки зрения объема занимаемой памяти ПК, но будем надеяться, что и эта сложность будет преодолена. В любом случае, машинный перевод — область высокотехнологичных решений, которая постоянно развивается, и разработчикам систем машинного перевода есть над чем поработать сегодня, чтобы предложить интересное решение пользователям завтра.



    Другие материалы по теме


    Источник: http://www.cio-world.ru/cw2003/gallery/month/it-infra/hard/clr27589/infrastructure/server/system/telecom/analytics/comme
    Категория: Онлайн переводчик | Добавил: tivita (21.08.2007) | Автор: Александр Андреев
    Просмотров: 28122 | Комментарии: 12 | Рейтинг: 3.6 |
    Вы овладеете английским!
    • Вы верите, что всего за несколько часов можно понять, как поставить правильное произношение, не изучая долго и нудно теоретическую фонетику, а всего-лишь поймав "фокус" языка?
    • Вы верите, что за несколько часов можно понять всю систему английских времен, которую безуспешно учат годами в школе, институте или на курсах?
    • Вы верите, что вместо скучных учебников можно заниматься по Вашим любимым фильмам и сериалам, испытывая при этом восторг и наслаждение от занятий английским?
    Мы не только верим, а и твердо убеждены, так как уже сотни людей прошли по этому пути и поделились с нами своми успехами и достижениями!
    И мы верим в Вас, потому что Вы легко научились говорить на языке, который на порядок сложнее английского!
    Поэтому более простым и логичным английским Вы овладеете гораздо быстрее и легче! Конечно,если будете делать это правильно, естественным путем - моделируя носителей языка.
    Руководствуясь при этом не громоздкими правилами, а простыми и понятными визуальными моделями!


    Получите бесплатно материалы - подпишитесь на рассылку!
    Подписка на рассылку
    Никакого спама, гарантируем!


    Получите результат немедленно - приступайте к занятиям прямо сейчас!

    Получить Лингвокарты
    Никакого спама, гарантируем!

     


    Всего комментариев: 4
    4   [Материал]
    Татарско-Русский электронный Переводчик находится на сайте http://tatarca-text.narod.ru – вам может быть интересным.
    3   [Материал]
    Уважаемый Метаргем! пожалуйста, аккуратнее с форматированием, а то ваши большие буквы покоцали мне шаблона angry
    Я понимаю что возраст и зрение, но будьте аккуратнее.
    2   [Материал]
    Современный суматошный мир не оставляет времени остановиться, подумать, услышать собеседника...
    Все куда-то спешат.
    Не надо спешить, не то успеешь smile
    1   [Материал]
    Добавил: tivita (21.08.2007)

    Вот эти дополнения важный источник знаний для меня.Я много таких ДОБАВЛЕНИЙ изучаю ,и учусь на них.
    Всякая учёба -это источник новый знаний.
    Вот что мне хочется сказать ?
    Я хотел бы видеть переводы .. личные и машинные ...,осуществленные другими людьми.
    Посмотреть на текст ,который предложено автоматически перевести ...
    И здесь я хочу сказать ,что имею ввиду перевод на много языков...
    Я всё время пишу ,что быстрый по времени перевод, надо просмотреть ,изучить ..
    Понять ошибки (возможные) автоматического переводчика ,а потом их починить.
    На мои переводные работы никто ,кроме Виталия не реагирует ..
    Так мне и критиком не суждено стать ...
    Критика должна быть умной ,и быть направлена для выявления истины во всех её проявлениях...

    Добавлять комментарии могут только зарегистрированные пользователи.
    [ Регистрация | Вход ]

    Подпишись на RSS ленту
    RSS лента
    Форма входа
    Рекомендуем
        

    Друзья сайта
    Статистика
    Прямой эфир
    Copyright Filolingvia © 2007-2009
    Сайт управляется системой uCoz