Перевод на клингонский google

Кто разговаривает на клингонском языке.

Большинство искусственных языков создавались с целью упрощения общения, их авторы обычно стремились сделать их как можно более «человечными». Но встречаются и исключения, когда при создании использовались как можно более редкие и непривычные конструкции. Типичный пример тому — клингонский язык, придуманный специально для героев сериала Star Trek. На нем говорят клингоны, представители одной из инопланетных цивилизаций. Создателем клингонского является американский лингвист Марк Окранд (Marc Okrand). Кроме этого он придумал и еще несколько наречий в этом сериале, а также проводил тренировки с актерами, обучая их «инопланетному» языку. Окланд не только придумал сам язык, но и написал несколько книг ему посвященных — The Klingon Dictionary, The Klingon Way, Klingon for the Galactic Traveler, а также стал соавтором либретто оперы на клингонском языке. Первые звуки и фразы для персонажей-клингонов придумал актер Джеймс Духан («Скотти») ещё в первом полнометражном фильме вселенной «Звёздный путь» (1979). А Марк Окранд свободно объединил звуки и фразы, созданные Джеймсом, с элементами знакомых ему по университету языков индейцев Северной Америки и санскрита. о бы они могли означать, записывать все произнесенные звуки и т.д. Так как язык должен был быть тем же самым. Изначально планировалось создать перевод на новый язык только тех фраз, что были прописаны в сценарии. Но по ходу работы язык усложнялся и разрастался, в итоге, с его помощью стало вполне возможно, конечно, несколько условно вести диалоги на любые темы, переводить шедевры мировой литературы и даже создавать новые произведения. На клингонском можно, как оказалось, поставить даже Шекспировского «Гамлета». Словарь клингонского не очень велик, он насчитывает порядка 3000 слов. Отличается язык резкими гортанными звуками и необычными для человеческого уха звуковыми сочетаниями. Необычна также и грамматика клингонского, правила подбирались по простому принципу — как реже всего говорят люди, что наименее характерно для большинства человеческих языков. Логика проста — клингоны существа людям чуждые и даже враждебные, значит, таким должен быть и их язык. В отличие от многих языков, созданных для кинематографа, клингонский язык имеет детально разработанную грамматику, синтаксис и словарь, а также регулирующую организацию — Институт клингонского языка, публикующий переводы классических литературных произведений на клингонский язык и научный журнал, развивающий язык. Интересные факты о клингонском языке: У поисковой системы Google есть страница поиска на клингонском языке. В браузере Mozilla Firefox в настройках предпочитаемого языка для отображения веб-страниц можно выбрать клингонский язык. Существует рок-группа, поющая исключительно на клингонском языке. Это дет-метал группа Stovokor[en] (англ.) из города Портленд (Орегон), США. 4 главных героя сериала Теория Большого взрыва умеют разговаривать на этом языке, а также играют в боггл В 1992 году был основан Институт клингонского языка. В 2010 г на клингонском языке была показана опера в Гааге под названием «’u’», что в переводе с клингонского языка означает «Вселенная». Опера была поставлена театром Zeebelt[5]. В январе 2014 года член городского совета американского города Индиан-Трейла (штат Северная Каролина) — Дэвид Уоддел написал заявление об увольнении на клингонском языке и улетел домой. Мэр города поступок не оценил и назвал его непрофессиональным.

Источник

Клингонский язык для лентяев

Клингонский язык для лентяев запись закреплена

Клингонский язык для лентяев запись закреплена
Антикафе 12 Комнат

30 июля в 19:00
Клингонский для лентяев (и не только)

Завтра админ одноименного паблика Кузьма Смирнов проведет у нас очередной урок по клингонскому. Будем учиться строить простейшие предложения с повседневной лексикой, разбираться с произношением и письменностью. Начальное знание не требуется, а сносно изъясняться вы сможете уже через пару встреч)

Клингонский язык для лентяев запись закреплена
Минский фестиваль языков / Мінскі фестываль моў

Итак, что нас ждёт в ближайшее воскресенье на VII-с-половиной Минском фестивале языков в онлайн-формате?

По сравнению с обычным Фестивалем мало что меняется: как и раньше, наши презентации и лекции распределены по блокам, только вместо номеров аудиторий – ссылки на трансляции. Все выступления пройдут в прямом эфире (возможно, котики и дети лекторов тоже присоединятся), и лекторам по-прежнему можно будет задавать вопросы – правда, письменно.

И уже сегодня на сайте появятся первые анонсы лекций и презентаций языков!

Клингонский язык для лентяев запись закреплена

‘aleqSanDer bIloq ghuQ
(Стихотворение А. А. Блока)

Показать полностью.
ram, taw, wovmoHwI’, Hergh ngevwI’;
vay’ paQmoHbe’ tamghay wovHa’.
chaq tlhoy ngaj yIn pagh chaq tlhoy nI’;
vabDot rap Hoch ‘ej reH qaSqa’.

Heghlu’chugh, vaj Heghlu’chu’be’;
pa’logh lurur Hoch Dochmeyvam;
bIQtIqHom velbogh chuch boch’e’,
Hergh ngevwI’, wovmoHwI’, taw, ram.

Клингонский язык для лентяев запись закреплена

Если карантин застал вас на Кроносе, то вот несколько полезных фраз, с которыми вы точно не пропадёте.

pelImQo’! jIpIv.
Не паникуйте! Я здоров.

Показать полностью.
chIch mungejta’ vumvam!
Этот ублюдок нарочно меня заразил!

wa’vatlh puch nav tetlhmey vIpoQ.
Мне нужно сто рулонов туалетной бумаги.

tera’vaD DujlIjDaq cholupmeH bIHeSchugh, qaDIlqu’.
Если ты незаконно провезёшь меня на Землю на своём корабле, я тебе хорошо заплачу.

vor’eghbe’bogh Hoch vorchugh Qel ‘ej latlhpu’ vorbe’chugh, vaj vor’eghnIS’a’?
Если врач лечит всех, кто не лечит себя сам, и больше никого, то нужно ли ему лечить самого себя?

Клингонский язык для лентяев запись закреплена
Антикафе 12 Комнат

18 марта в 19:00
Учим клингонский!

В следующую среду админ паблика «Клингонский язык для лентяев» и многократный презентатор клингонского на различных языковых фестивалях Кузьма Смирнов проведет для нас вводный урок.

Разберёмся с произношением и письменностью, научимся строить простейшие предложения с повседневной лексикой (а-ля «Я голодный. Дайте мне еды»). При наличии желающих, занятия будут проводиться на регулярной основе. Начальное знание не обязательно, а уже через пару встреч вы сможете изъясняться на клингонском.

Будем признательны, если вы поддержите нашу идею и расскажете об этом знакомым поклонникам «Стартрека»)

Клингонский язык для лентяев запись закреплена
Фестиваль языков в Великом Новгороде

С тех пор как американский лингвист Марк Окранд создал для них собственный язык, прошло немногим более 30 лет, но за это время он уже успел завоевать сердца поклонников по всему миру.
Показать полностью.
Создатель клингонского языка старался сделать его как можно менее похожим на земные языки, но получилось ли у него создать действительно внеземной язык? На своей презентации я попытаюсь ответить на этот вопрос, а ещё расскажу, какой очень известный писатель, произведения которого многие из вас наверняка читали, в оригинале писал по-клингонски.

Лекция проходила в рамках VII фестиваля языков в Великом Новгороде (23-24 ноября 2019, здание Гуманитарного института НовГУ в Антоново)

Источник

Самоучитель клингонского

Пару лет назад мы рассказали о том, как в системе Антиплагиат устроен поиск русского перевода английских статей. Естественно, без машинного переводчика в алгоритме не обойтись. В основе машинного переводчика, конечно, лежит машинное обучение, которое, в свою очередь, требует весьма значительного количества «параллельных предложений», т.е. одинаковых по смыслу предложений, написанных на двух языках. Значительное количество — это миллионы предложений, и чем больше, тем лучше. Понятно, что для русско-английской пары найти такую базу (в том числе и в открытом доступе) реально. А что делать с теми языковыми парами, для которых параллельных предложений принципиально не может быть слишком много?

Казалось бы, не имея в распоряжении большого объема обучающих примеров, обучить систему машинного перевода невозможно. Но на помощь приходит идеология Unsupervised Learning, или «обучение без учителя». Ну а чтобы задача была действительно интересной (особенно порадует она фанатов вселенной Стартрека), мы будем обучать наш машинный переводчик для пары языков «английский – клингонский».

Источник картинки: Собственное творчество от команды Антиплагиата

А самым подходящим девизом к дальнейшему рассказу о применении Unsupervised Learning будет знаменитая выдержка из Инструкции клингонского почетного караула «Если не можешь контролировать себя, тебе не дано командовать другими».

Для тех, кто еще не стал фанатом Стартрека, клингонский язык – это искусственно созданный язык, на котором говорят клингоны в популярной американской киновселенной «Звездный путь». Для этого языка существует несколько систем письма, мы возьмем наиболее простую для нашей задачи систему на основе латиницы. Вообще, создавать свои языки для вымышленных миров – это довольно популярная тема. Вспомнить хотя бы Толкиена, который создал синдарин – язык эльфов в фантастическом мире «Властелин колец». Более свежие примеры – это дотракийский из «Игры престолов» или на’ви из «Аватара». Впрочем, для нашей задачи конкретный выбор языка не так уж важен, главное, чтобы в какой-нибудь библиотеке не лежало пару тысяч томов текста на этом языке – иначе станет неинтересно.

Концепция «Unsupervised Learning» подразумевает обучение моделей (математических, поручик, математических 🙂 ) без использования размеченных данных. В нашем случае это обучение системы машинного перевода без корпуса параллельных предложений (или с очень маленьким объемом). Применять обучение без учителя для задачи перевода стали не так давно. Здесь и здесь есть статьи, в которых впервые был описан одними один из самых популярных на сегодня методов решения нашей задачи. Этот метод мы и постараемся сегодня применить.

Сразу оговорим тот факт, что для построения переводчика мы все же будем использовать параллельный корпус, но только для побочных задач: построения словаря и дообучения модели. Дообучение модели опционально, его можно и не делать, а вместо построения словаря из параллельных предложений можно воспользоваться готовым (разумеется, если он есть). В любом случае, при подходе, описанном ниже, нам понадобится намного меньший корпус параллельных предложений, чем при обучении переводчика «в лоб», это будет видно в конце статьи.

Основной алгоритм построения модели переводчика без параллельных предложений можно описать следующим образом:

Далее поговорим о каждом пункте.

Векторизация слов

Элементарная смысловая составляющая языка – это слово. Если человек начинает учить незнакомый язык, то, как правило, он старается запомнить самые частые слова. Подобный принцип лежит в основе модели машинного перевода: на самом нижнем уровне оперируем словами (хотя это не всегда правда, но про BPE сегодня говорить не будем). С точки зрения компьютера слово – это только последовательность кодов символов. Никакого дополнительного смысла эта последовательность не несет. Поэтому слова надо каким-то образом «оцифровывать». Проще говоря, надо переводить слово в некоторый уникальный вектор или эмбеддинг. Построение такого преобразования само по себе очень большая и интересная задача, которая до сих пор актуальна. Причем решается эта задача чаще всего как раз с помощью Unsupervised Learning. Почитать о примерах реализации можно, например, здесь. Нам же важно, что такие модели существуют и обладают одним очень важным свойством: они подчиняются дистрибутивной гипотезе. Это значит, что слова, которые часто встречаются в одном контексте, в этом векторном пространстве будут располагаться ближе друг к другу. А слова, которые редко или вообще не встречаются в одном контексте, будут в этом векторном пространстве разнесены далеко. Таким образом, векторы слов образуют некоторую структуру в этом построенном пространстве.

Выравнивание векторных пространств

Можно предположить, что в идеальном случае такие структуры будут очень похожи для разных языков. На этом предположении и строится идея выравнивания эмбеддингов для разных языков. Имея два векторных пространства слов для разных языков, мы пытаемся максимально совместить их, чтобы сопоставить слова из разных языков друг с другом. Можно посмотреть наглядную иллюстрацию из статьи.

Самое логичное в данной задаче – использовать словари, которые, по сути, являются естественным отображением слов одного языка в слова другого языка. Если же словаря под рукой нет, можно получить его из небольшого набора параллельных предложений. В нашем эксперименте мы воспользуемся утилитой fast_align. Здесь надо сказать, что методы выравнивания векторных пространств на основе словарей работают неплохо, но порой с ними возникают проблемы. Во-первых, одному слову в словаре всегда соответствует несколько значений из другого языка – не всегда понятно, как работать с такой избыточной информацией. Во-вторых, пытаясь совместить векторные пространства по словарям, мы можем потерпеть неудачу, потому что словари составлены по совершенно другой структуре. Ну и наконец, бывают экзотические случаи, когда языковая пара, для которой мы хотим построить перевод настолько редка, что нет ни словаря, ни параллельного корпуса. Для таких случаев существуют методы выравнивания векторных пространства слов без использования информации из словарей. Про оба метода, как со словарем, так и без словаря, можно почитать, например, здесь.

Обучение переводчика

Итак, мы умеем переводить слово в вектор, а по вектору восстанавливать наиболее похожее слово из целевого языка. И уже теперь мы можем построить простейший переводчик. А именно: мы можем переводить предложения по отдельным словам. Конечно, это очень слабая модель перевода, но для начальной инициализации подойдет и такая. Теперь, имея простейшую модель перевода, мы можем сами порождать параллельные предложения. Конечно же, полученные параллельные предложения окажутся очень плохого качества – в них никак не будет учитываться грамматика языка. Самое время вспомнить о принципе обучения автокодировщиков для текстов.

Совсем недавно мы рассказывали, как модели автокодировщиков учатся восстанавливать зашумленный вход, чтобы настраивать свои параметры. В данном случае, полученный нами «плохой» параллельный корпус можно рассматривать как «зашумленную» версию перевода. И, пользуясь тем же способом, что и автокодировщики, мы можем учить модель восстанавливать истинный перевод. Для нашей пары «английский-клингонский» алгоритм выглядит следующим образом:

Стоит подчеркнуть, при данном подходе довольно логично обучать сразу две модели машинного перевода: с исходного языка на целевой и наоборот. Действительно, после некоторого числа итераций машинный переводчик достигнет качества пословного перевода (в теории) и больше не сможет улучшаться, так как корпус параллельных предложений так и остался «зашумленным». Поэтому в процессе обучения сгенерированный параллельный корпус надо периодически обновлять, переводя предложения более качественным обученным переводчиком. Казалось бы, пошагово улучшая переводчик на каждом шаге, мы в итоге должны получить идеальную модель. Если бы все было так просто! Мы не можем внести в модель больше информации, чем содержится в самом корпусе предложений изначально. К тому же, методы обучения машинного перевода, которые мы здесь рассматриваем, базируются на довольно сильных предположениях, которые на практике не совсем верны.

Модели перевода

То, какую модель перевода выбрать – отдельный вопрос. Глобально все модели можно разделить на два семейства: нейросетевые и статистические. Большим прорывом в области нейросетевого перевода стала архитектура трансформера, про который можно почитать в этой статье. У таких моделей есть большой недостаток: они требуют большого объема обучающей выборки. Причем данные в этой выборке должны быть достаточно хорошего качества. Статистические модели более просты и требуют гораздо меньшего объема данных для настройки параметров. Конечно, качество перевода у них, соответственно, будет ниже, но, как мы говорили в предыдущих статьях, нам не обязателен идеальный «читаемый» перевод. Достаточно, чтобы качества перевода хватало для дальнейших этапов работы.

Эксперименты

Продемонстрируем все теоретические выкладки на примере. Сразу оговоримся, что эксперименты несут чисто демонстративный характер и всего лишь иллюстрируют примерный ход экспериментов при построении модели.

Самое важное при построении новой модели машинного перевода – сбор данных. В случае с редкими языками вопрос сбора данных стоит особо остро, так как данных для таких языков не так много. Для клингонского языка мы подобрали несколько ресурсов, на которых можно было найти как параллельные данные (клингонский-английский), так и моноязыковые данные (предложения только на клингонском). В первую очередь, это сайт с открытыми параллельными корпусами, а также аналог Википедии на клингонском. С моноязыковыми данными для английского языка проблем, разумеется, нет, но мы ограничили размер выборки, чтобы сохранить баланс обучающих данных.

Что ж, у нас есть изложенный выше план, будем его придерживаться. Сначала надо обучить две модели векторизации слов для каждого языка по отдельности. Процедура эта довольно стандартная, и интересного в ней нет ничего.

Имея в распоряжении два векторных пространства слов, попробуем их выровнять друг относительно друга. Для этого будем использовать метод MUSE.

war kill
noH HoH
HoHlu’be’ pIHoHbe’
HoHlu’ muHoH
HoHlu’pu’ muHoHbe’
ghoHlu’ pIHoH

Носителей клингонского среди нас нет, поэтому оценить адекватность полученного перевода сложновато. Понадеемся на способности искусственного интеллекта и для проверки воспользуемся переводчиком Bing (разработчики которого, судя по плашке на странице переводчика, разработали перевод вместе с Институтом клингонского языка):

Видно, что хотя в топ-5 соседей к исходному слову «war» попал мусор (The unseen good old man), в целом нам удалось построить выравнивание.

А дальше следует непосредственно процесс обучения самой модели переводчика. Как мы говорили выше, для начальной инициализации создадим параллельный корпус, состоящий из пословного перевода предложений. На каждой следующей итерации будем обновлять этот корпус переводами нашей модели (которая, в теории, должна становиться лучше и лучше с каждой итерацией).

Посмотрим, как же работает наша модель после нескольких итераций обучения. Для оценки качества необходим истинный параллельный корпус. В качестве такого воспользуемся отрывком из Гамлета, который был переведен специалистами клингонского языка. Хотя клингонский канцлер Горкон уверен, что изначально перевод был сделан в другую сторону: «Вы никогда не поймете Шекспира, пока не прочитаете его в оригинале, на клингонском».


Обложка издания «Hamlet Prince of Denmark: The Restored Klingon Version», The Klingon Language Institute printed version, USA, 1996

continuous or not.
now reference question.
like, noted since nice primarily, severely respectively condition?
or, crisis regulation battle bore condition,
and, fought, sudden?
died; sleeping

Qapla’! У нас даже есть одинаковые слова! Учитывая все допущения, которые мы сделали (чересчур маленький объем выборки, простая модель перевода и прочее), наличие хотя бы совпадающих слов уже является успехом.

При переводе текста модель статистического перевода учитывает несколько факторов (языковая модель, условные вероятности и пр.) с различными весами. Эти веса мы можем подкорректировать, дообучив модель на параллельном корпусе. В итоге перевод слегка улучшился:

be or not.
now example question.
like, noted since nice primarily, severely respectively condition?
or, crisis regulation battle bore condition,
and, fought, sudden?
died; sleeping

Для сравнения, посмотрим, как бы выглядел перевод, если бы мы воспользовались обычным машинным переводчиком, обучающимся на нашем параллельном корпусе:

Может и норм, но для меня качество последнего перевода сопоставимо с дерьмом тарга.


Источник изображения: Кадр со съемочной площадки, снят во время производства 5 эпизода «Там, где никто не бывал», «Звездный путь: следующее поколение», 1987

Кроме того, в случае поиска переводных заимствований, как мы уже говорили, использование перевода по прямому назначению не предполагается. Полученный перевод далее используется модулем поиска заимствований, который не так требователен к качеству перевода. Однако это не отменяет того, что эту технику можно использовать и для построения модели, которая будет генерировать «читаемый» перевод. Об этом мы напишем в других статьях.

Большое спасибо Наталье Поповой за полезные консультации по вселенной Стартрека и моим коллегам за помощь в подготовке статьи.

Источник

Оцените статью
( Пока оценок нет )
Поделиться с друзьями
Uchenik.top - научные работы и подготовка
0 0 голоса
Article Rating
Подписаться
Уведомить о
guest
0 Комментарий
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии