Охота на Google

Слабо ли стартапу тягаться с Гуглом?

Лучший ответ на вопрос в заголовке – реальные истории из жизни. Типа того, что:

1) Один маленький стартап попробовал погулять по огородам кого-то великого и страшного; гулял, гулял…ну и пошел сдаваться;
2) другой маленький стартап гулял, гулял, а потом объявил, что это и его огороды тоже, уже имея на то основания…ну и теперь занимается любимым делом и не бедствует.

Характерным примером здесь могут служить  Microsoft® и его средства проверки грамотности текста в  знаменитом MS Word™. Англоязычных пользователей сильно не устроили возможности Word’а по части проверки грамотности текста: орфографии, грамматики, синтаксиса, нормативного употребления некоторых слов и сочетаний, пунктуационного оформления и т.п.  Рынок отреагировал адекватно и широкой публике представили конкурирующее программное обеспечении.   Наиболее популярные программы хорошо известны:

1) White Smoke, http://www.whitesmoke.com;
2) SpellCheckerPlus, http://spellcheckplus.com;
3) Ginger, http://www.gingersoftware.com – полностью бесплатная (!);
4) Grammarly, http://www.grammarly.com;

Grammarly – это и частная продуктовая компания с офисами в Сан-Франциско и СНГ (Киев), и «самая точная программа проверки грамматики английского языка, которая только существует». (168 тысяч «лайков» в фейсбуке, устойчивый спрос, и очень положительное отношение специалистов).

Аналогичная картина наблюдается и со средствами контроля грамотности русского текста. Здесь помимо штатного спел-чекера Word’а пользователи могут воспользоваться как платной ОРФО 12 (считается самой мощной), так и бесплатными Орфограф от Артемия Лебедева – ww.artlebedev.ru/tools/orfograf/, проверкой орфографии на сайте Грамота.ру, Адвего – http://advego.ru/text/ и др. И надо сказать, что ими пользуются.

Контрпримеров тоже достаточно,  и они хорошо известны. Поэтому однозначно ответить на поставленный в заголовке вопрос не получится. Уточним сразу, в данном конкретном случае речь идет о машинном переводе высокого качества.

Чтобы никто не заподозрил нас в безмерной наглости, напомним: у Гугла движок переводчика статистический. А статистические движки обеспечить высокое качество перевода, на уровне, например, живого переводчика средней квалификации, не могут в принципе. Так что,  тягаться с Гуглом реально, но это, если есть собственный, не статистический движок, который обеспечивает высокое качество перевода.

Мы такой движок разработали, реализовали в коде и постоянно испытываем его в работе. В дальнейшем, есть намерение использовать его в коммерческом онлайн-сервисе предоставляющего услуги перевода.

Обеспечение качества – дело очень трудозатратное. Так, в нашем переводчике требуемое качество обеспечивается исключительно через обучение  движка. Обучение идет на текстовых примерах по одной из тем/подтем. Поэтому, сколько тем предполагается выучить, столько необходимо привлечь «учителей». В список тем входит IT, машиностроение, нефть-газ, строительство, экономика и еще около 2000 именований.

Единственное возможное для стартапа решение подобной задачи – делегировать решение проблемы обучения (и функции учителя) удаленному сообществу исполнителей. То есть имеем чистой воды краудсорсинг. Краудсорсеры должны быть хорошо мотивированы, иначе их энтузиазм быстро угаснет.  Среди планируемых «мотиваторов» для краудсорсеров – участие в капитале и 30% от доходов за перевод, тому исполнителю, который обучал движок осуществлявший тематический перевод и др. Все это обсуждаемо, т.к. все краудсорсеры будут частью команды. Команда, конечно, сильно прибавит в количестве, но для современных стартапов это нормально.

Что касается квалификации «учителя», то она должна быть самой обычной – владение письменным английским и русским (для англо-русской языковой пары) в пределах какой-то одной темы из списка, ну и способность грамотно переводить в пределах этой же темы. Данные навыки будут контролироваться. Для облегчения и эффективности работы «учителя» разработан софт, позволяющий довольно просто обучать движок. Программа обучения длится примерно 3 месяца, 5 дней в неделю, по 2 – 3 часа ежедневно.

Помимо «учителей» проекту, наверное, потребуются тестеры, модераторы сайта, координаторы групп краудсорсеров, социальные организаторы и др. Все это будет обсуждаться. Но уже ясно, что тягаться по переводу с Гуглом и  САМИ_ЗНАЕТЕ_С_КЕМ можно и нужно, а также перевод анкеты индивидуалки.