Машинный перевод

Возможен ли машинный перевод высокого качества?

По всеобщему, за очень немногими исключениями, мнению широкой публики, автоматический перевод удовлетворительного качества – это или недостижимая мечта, или вопрос сильно отдаленного будущего. Исключения за последние полвека можно было по пальцам пересчитать, однако исходили они от серьезных специалистов.

Так, еще в 1967 Николай Андреев из Ленинградского университета  развил учение о подъязыках естественного языка с точки зрения машинного перевода. Дело в том, что качество машинного перевода в решающей степени зависело от настройки системы на конкретный подъязык (или даже микроподъязык) той предметной области, к которой относится входной текст. В плане машинного перевода, подъязык входного текста определяется некоторым исходным набором текстов. Эти тексты определяют характерную лексику, устойчивые словосочетания и клише, синтаксические конструкции, способы перевода в данной языковой паре и т.п.

Проще говоря, утверждалось, качество перевода, можно очень сильно поднять, если в системе  перевода параллельно функционировали бы сотни, а то и тысячи «малых» специализированных переводчиков, заточенных на конкретные подъязыки (=тематические области)

Не так давно (2004 г.) на эту же тему высказался Сергей Крылов. В развитых им тезисах об обучаемости системы АП как основе осуществимости безошибочного автоматического перевода , была выдвинута идея о возможности постоянно повышения качества автоматического перевода, вплоть до достижения им уровня профессионального «живого».

Практически этот уровень может быть реализован путем обучения некой программной оболочки (переводящего автомата) с запоминанием и обработкой все новых и новых языковых правил и текстовых «фактов» из предъявленного текста. Это схематически сильно похоже на обучение учащегося письменному иностранному языку.

Действительно, учащийся, в меру своей старательности и добросовестности, регулярно читает параграфы базового учебника с содержащимся в нем правилами и примерами, рассматривает параллельные тексты, выполняет упражнения, запоминает лексику, в результате чего непрерывно «растет» в навыках владения иностранным языком (включая и перевод).

Значит:

• если есть достаточное количество тематических текстовых коллекций, позволяющих выделить требуемые подъязыки;
• имеются технологии выделения характерной лексики и фразеологии, синтаксических конструкций, способов перевода для них в данной языковой паре и т.п. для той или иной тематической области;
• есть программная оболочка (в коде), способная обучатся самостоятельно – на образцах, или с помощью «учителя,

то статус ответа на вопрос «возможен ли высококачественный машинный перевод?», начнет сдвигаться с гипотетического к реальному.

Полностью же подтвердить тезис о реализуемости машинного перевода высокого качества можно, предъявив соответствующий машинный переводчик.

Для ответа на очень волнующий разработчиков и инвесторов вопрос: «Почему сейчас должно получится?», решающее значение имеют изменения среды, в которой происходят разработки. А здесь с 80-90 гг. накопился достаточный потенциал для решающего рывка.

1. Произошла т.н. «Корпусная революция в лингвистике». Здесь появились и были запущены в профессиональный оборот огромные текстовые коллекции с грамматической разметкой и приданным поисково-справочным аппаратом. Примерами могут служить Британский национальный корпус BNC для английского языка (Br. E), Национальный корпус русского языка – НКРЯ и многие другие.

Сейчас, чтобы проанализировать то или иное языковое явление, свойство текста и т.п., исследователь может работать непосредственно с текстом. Огромное число словоупотреблений в корпусах и наличие грамматической информации позволяют получать достоверные выводы. Надо сказать, что и большинство всевозможных словарей, лингвистических баз данных и др. теперь получают именно из корпусов.  Причем, с меньшими на порядки издержками, чем раньше.

Самая яркая демонстрация использования огромных параллельных корпусов для нужд машинного перевода – это появление движка статистического машинного перевода Google. Хотя мы и не занимаемся статистическими движками, но и в нашем подходе параллельные и одноязычные корпуса играют значительную роль.

2. Наряду с традиционными описательными моделями, в современной лингвистике все чаще стали употребляться объяснительные, а то и предсказательные модели. Такие направления как функциональная и коммуникативная лингвистика далеко ушли от чистого описания. А это новые подходы, интерпретации и решения.

3. Резко подешевевшая компьютерная память и операции процессора, закрыла все вопросы относительно хранения и обработки баснословных объемов текста

4. Изменившаяся коммуникационная среда (чего стоит один только Web 2.0!) позволяет сейчас удобно организовать параллельную работу и взаимодействие распределенного коллектива специалистов, решающих общую задачу.

5. Для решения гуманитарных задач, в том числе и лингвистических, все чаще стали применятся инженерные и естественно научные подходы, которые показали исключительную эффективность при решении некоторых задач, ранее казавшихся не решаемыми в принципе.

6. И, наверное, самое главное. Из-за повсеместного распространения интернета и процессов глобализации, спрос на  массовый и дешевый автоматический перевод, резко усилился.

В результате, требуемые технологии уже есть. Значит, скоро будут и продукты