Lingorado
The language adventure
Переводим английский текст в транскрипцию

Автоматическая онлайн-транскрипция
Польза же от разбора всего стихотворения с транскрипцией очевидна — все чтения вы, может, и не запомните, но представление о всём многообразии получите. Озаботившись этим, я ушёл в Интернет, искать онлайновый сервис, который помог бы мне быстро транскрибировать весь текст. Это оказалось не так-то просто, поскольку систем транскрипции много, а нам нужна привычная нам IPA. Или некоторые сервисы обрабатывают текст целиком, но выдают транскрипцию американского произношения, а хотелось бы увидеть британское. Да и сам машинный перевод текста в транскрипцию довольно сложен, так как произношение слова может меняться в зависимости от контекста и соседних слов. Например, «read» может читаться и как [riːd], и как [red]. Или «r» в конце слова будет звучать, только если следом идёт гласная (в британском варианте английского). Ну, и так далее.
(Добавлено 25.03.2013: С тех пор как была опубликована эта статья на этом сайте появился свой собственный транскриптор английского текста, который во многом удобнее сервиса, про который идёт речь ниже.)
В итоге я наткнулся на такой веб-сайт: photransedit.com/Online/Text2Phonetics.aspx. Правда, он позволяет переводить только до 300 символов за раз. Зато в остальном он справляется с задачей.
Чтобы получить то, что мы обычно видим в наших словарях, я отключил в настройках галочки «Syllabic Consonants» и «Intrusive /r/». Произношение, на которое ориентируется большинство учебников в нашей стране — это Received Pronunciation (RP), этакий британский стандарт. Его и оставляем. Однако, сайт может показать вам и американский вариант, если это то, на что вы ориентируетесь или хотите сравнить оба варианта произношения между собой.
Произношение слов в слабой и ударной позиции
Первое, что бросилось мне в глаза, когда я увидел результат транскрипции — это непривычное представление служебных глаголов, местоимений и т.п.:
«You» и «your» выглядят как [ju] и [jə].
«Does» выглядит как [dəz], «has» как [həz], а «will» как [wəl].
«But» — [bət], «as» — [əz], «and» — [ənd], «just» — [dʒəst].
А «is» и «are» и вовсе превращаются местами в [z] и [ə].
Сайт следует тут следующему правилу, которое, с оговорками, соответствует английской разговорной речи: cлово находится в ударной позиции — и соответственно произносится без редукции — если оно не является местоимением и при этом стоит в конце фразы. Например,
I found some. => [aɪ faʊnd sʌm]
I found some coins. => [aɪ faʊnd səm kɔɪnz]
Произношение слов «the», «to» и «is» обычно следует своим собственным правилам.
Как видите, это просто естественный процесс облегчения произношения, вроде нашего оглушения-озвончения согласных. Поэтому я бы не стал заучивать эти «правила», чтобы специально говорить в соответствии с ними. Где о них полезно иметь представление, так это при общении с носителями языка, тогда количество сюрпризов и трудностей с восприятием на слух, вызванных «неправильным» произношением, будет не таким обескураживающим.
Понятно, что ударная или слабая форма определяется смысловым ударением, интонацией и контекстом, так что правильный выбор формы компьютеру удаётся не всегда. Скажем, произношение слова «some» в поэме «The Chaos» мне пришлось исправить на ударное, поскольку оно здесь — часть перечисления. А слово «does» встречается и в том, и в другом варианте. Я также позволил себе кое-где исправить «is» на полную форму, поскольку иначе ломался размер стиха.
Полную фонетическую транскрипцию поэмы можно увидеть параллельно с оригинальным текстом на обновлённой странице о правилах чтения в английском.
Lingorado
The language adventure
Новый сервис на сайте
Пару месяцев назад я опубликовал статью «Переводим английский текст в транскрипцию», которая в течение этого времени стабильно привлекала половину интернет-трафика на сайте. Оказалось, что транскрипция всего текста, а не отдельных слов, нужна многим. Я решил написать такой сервис, чем и был занят последний месяц.
Теперь сервис опубликован (тут), и, надеюсь, окажется полезным. В начальном словаре порядка 40000 слов, плюс сервис распознает множественное число, прошедшее время и другие основные грамматические конструкции ( к сегодняшнему дню их список существенно расширен). Слова, не найденные в словаре я буду постепенно добавлять, при этом сервис мне подскажет какие из них наиболее популярны, т.е. какие добавлять в первую очередь.
За основу словаря я взял словарь Мюллера с транскрипцией, добавленной Сергеем Старостиным. Основная часть времени ушла как раз на приведение словаря к формату, с которым можно работать автоматически. Словарь отражает британский вариант произношения. Хотя в сети есть пара открытых, внушительных по объёму словарей с американским произношением, мне показалось важным использовать именно британский вариант, от которого отталкивается российская (или, во всяком случае, советская) система преподавания английского языка. Иначе, американская транскрипция даже у меня вызывает когнитивный диссонанс, не говоря уже о путанице, которую её использование может вызвать у начинающего изучать язык. Вполне вероятно, я добавлю американское произношение позже.
( Update 10.06.2014: Американская транскрипция добавлена, но обе версии сервис берёт пока из двух независимых словарей, т.е. слово может быть в одном и отсутствовать в другом. За основу американской версии взят открытый словарь Carnegie Mellon University (CMU).)
Возможно, вы обращали внимание, что одни и те же фонемы в разных источниках могут записываться разными символами международного фонетического алфавита (например, «bed» может записываться и как [bɛd], и как [bed]). Здесь для отображения транскрипции взят набор символов британского стандартного произношения Received Pronunciation. Если вы подписаны на мой курс произношения, то и в нём я использую тот же набор.
Слова могут транскрибироваться не только в своей словарной форме, но и с учётом слабой позиции в предложении (подробнее об ударной и безударной позиции). Исключение сделано только артиклям «a/an/the», для которых позиция в предложении учитывается всегда — уж больно они дико и непривычно смотрятся в своей полной форме — [eɪ], [æn] и [ðiː]. Вот тоже не понятно, почему в школе произношение артиклей дают сразу и только в безударной позиции, при этом про само это понятие ни слова.
Для меня это долгосрочный проект, который я планирую активно развивать. В работе сейчас следующий ( уже изрядно поредевший) список усовершенствований:
Готово:
Свои предложения по улучшению сервиса, отзывы и замеченные ошибки можно оставить в комментариях ниже. Они обязательно будут учтены.
Lingorado
The language adventure
ЧаВо по Фонетическому Транскриптору
1. Как это работает?
Этот онлайн-сервис переводит в фонетическую транскрипцию связный английский текст. Это значит, что:
Если вам нужно получить транскрипцию отдельных слов целым списком, то слова должны быть либо разделены знаками препинания, либо находиться каждое на отдельной строке. В этом случае транскриптор интерпретирует каждое слово как отдельный фрагмент и игнорирует контекст.
2. Ничего не понимаю, некоторые слова почему-то не переводятся!
Включить в словарную базу абсолютно все существующие слова не под силу ни одному словарю. Ненайденные слова выделяются красным цветом, регистрируются и наиболее часто повторяющиеся время от времени добавляются в словарь (если это действительно существующее английское слово). В числе ненайденных слов обычно оказываются специальные термины и имена собственные. Тем не менее, на сегодняшний день, больше двух третей таких красных слов это результат орфографических ошибок при вводе исходного текста. Так что, если слово не транскрибировалось, первым делом проверьте есть ли такое слово вообще в английском языке. В особенности это касается «ненайденных» слов из школьного репертуара.
3. В транскрипции какие-то точки-запятые сверху и снизу. скобки. Как это понимать?
«Маленькие запятые» — это знаки ударения. В английском произношении различается основное и вторичное ударение. «Запятая» вверху строки — это основное ударение, внизу — вторичное. Знаки ударения ставятся перед ударным слогом. Например, [ˌɪntəˌnæʃnlaɪˈzeɪʃ(ə)n].
Символы заключенные в круглые скобки могут игнорироваться при произношении. Например, слово [ˈjɒgə(ː)t] может произноситься и как [ˈjɒgət], и как [ˈjɒgɜːt]. Когда варьируется длительность гласного, как в этом примере, в транскрипции даётся любой гласный из пары короткий-длинный: [ə] — [ɜː], [ɪ] — [iː], [ʊ] — [uː], и т.д.
Другой частый пример — это выпадающий нейтральный безударный звук [ə]: [ˈɒft(ə)n] может произноситься [ˈɒftn] или [ˈɒftən].
4. У вас одна транскрипция, а в словаре другая. Не знаю кому теперь верить!
Расхождения в транскрипции между разными словарями можно разделить на несколько категорий:
5. У вас такая транскрипция, а в гуглопереводчике это слово звучит по-другому.
Расхождения вполне возможны, если вы смотрите британскую транскрипцию, поскольку переводчик Гугла воспроизводит американское произношение.
6. Копирую в MS Word, а там квадратики. Спасите-помогите!
У вас проблема со шрифтами. Прочитайте «Техническое примечание» внизу этой страницы в Википедии:
Большинство символов МФА не включены в наиболее широко используемый шрифт Times New Roman (хотя они включены в версию, поставляемую с Windows Vista), — шрифт, используемый по умолчанию для латиницы в Internet Explorer для Windows. Чтобы просмотреть символы МФА в этом браузере, вы должны настроить его на использование шрифтов, которые включают расширенные символы МФА. К таким шрифтам относятся Lucida Sans Unicode, который поставляется с Windows XP; Gentium, Charis (SIL), Doulos (SIL), DejaVu Sans или TITUS Cyberbit, которые свободно доступны, или Arial Unicode MS, который поставляется с Microsoft Office.
…
Специальные символы должны отображаться правильно без дальнейших конфигураций в Mozilla Firefox, Konqueror, Opera1, Safari и большинстве других современных браузеров.
…
Шрифты с поддержкой МФА можно найти здесь.
7. Сделайте, чтобы транскрипция с подстрочником копировалась в Word! Копируется не пойми что!
Опция с подстрочником выравнивает каждое слово относительно его транскрипции с помощью веб-разметки, и потому выглядит так, как она выглядит, только на странице сервиса в браузере. Для того, чтобы получить аналогичный «подстрочник» в Ворде, есть другое решение.
Если вы транскрибируете отдельные слова или короткие фразы, разбитые по строкам, то вместо «подстрочника» вам нужно выбрать опцию «Параллельно с оригиналом». В этом случае текст и транскрипция будут показаны бок о бок и выравнены по абзацам, но при копировании в Word каждая строка транскрипции окажется под оригиналом (хотя и без выравнивания по словам).
Аналогично с длинным текстом, — перед транскрибированием вы можете разбить его клавишей Enter на короткие строчки-абзацы, затем выбрать опцию «Параллельно с оригиналом», скопировать оба столбца, вставить в Ворд — вуаля, у вас получилась транскрипция подстрочником в Ворде.
8. Что значит «Учитывать слабую позицию»?
Некоторые служебные слова могут произноситься в связной речи по-разному в зависимости от позиции в предложении. Подробнее здесь.
9. Транскрипция — это хорошо. Но где перевод?
Поскольку этот сайт даёт транскрипцию связного английского текста, а не отдельных слов, то и перевод логично было бы давать связный. Это задача совсем другого порядка сложности, но мы не теряем надежды. 🙂
Кроме того, у этого сервиса интернациональная аудитория, т.е. перевода только на русский язык будет недостаточно.
Что касается использования бесплатных переводческих API, то все известные нам сервисы накладывают суточные ограничения по бесплатному трафику, которые этот сайт перекрывает за пару часов. Так что, пока в поиске.
10. А можно как-нибудь прослушать произношение слов?
В версии для устройств Apple озвучка уже давно есть. Здесь на сайте озвучка реализована скорее в тестовом варианте, а именно нужно иметь ввиду два момента:
Иными словами, совершенствование этой функции транскриптора в большей степени зависит от дальнейшего развития самой технологии и её будущей поддержки в браузерах. Держим за них кулачки.
11. Мне кажется, я знаю, как улучшить транскрипцию русскими буквами!
Русскими буквами невозможно адекватно передать полный набор английских звуков. Мы старались добиться максимального приближения к английскому звучанию и в то же время максимального удобства чтения для тех, кто совсем не знаком с английским языком.
Скажем, гласный [ɛ] в слове «bed» не такой открытый, как русский «э». К тому же буква «э» и так уже занята под сразу несколько других более открытых английских гласных. Таким образом, слово «never» — [ˈnɛvə], в котором второй гласный намного более открытый, чем первый, мы записываем не [ˈнэвэ], а [ˈневэ]. По крайней мере такая запись не вводит в заблуждение, будто в обоих слогах один и тот же звук.
Другой пример, транскрипция «уёлд» для слова «world» — это попытка отразить полугласный [w] и ни на что в русском языке непохожий напряжённый гласный [ɜː].
Мы посчитали оправданным ограничиться исключительно существующими в русском алфавите буквами (за исключением знаков ударения), поскольку любая компетентная попытка адаптировать кириллицу (или любой другой алфавит) завершилась бы созданием международного фонетического алфавита, который, к счастью, уже изобретён.
12. Я задал вопрос в комментариях, но мне лень было его чётко и однозначно сформулировать. Я полагаюсь на ваши телепатические способности.
Отлично, мы готовы! Эра Водолея и всё такое. Ответ вам тоже отправим телепатически. (Если у вас сломался приёмник, то попробуйте всё же внятно сформулировать свой вопрос в комментариях.)
23 thoughts on “ ЧаВо по Фонетическому Транскриптору ”
Владимир, спасибо за критику. В версии для айфона это уже реализовано. В браузере не исключено в будущем, но пока неясно как определять ширину строки, которая нужна пользователю. Возможно, у вас есть соображения на этот счёт?
Почему в этом сраном play market Приложение стоит 150₽, а на APP STORE 300₽?
Не честно?
Версия для iOS умеет намного больше.
В кембриджском словаре в транскрипции встречаются точки (например, [ˈɡræn.mʌð.ə] ). Не объясните, что они означают?
Можно вместе с танскрипцией русскими буквами сделать сразу и перевод на русский рядом в скобках
Можно ли сделать паузу между словами? Допустим задержку в 3-5 секунд, и если это возможно сейчас подскажите пожалуйста как это сделать.
Спасибо за вопрос. Нужно подумать. Для чего вы хотите это использовать? Не идеально, но как вариант можно паузу нажимать.
Приветствую вас, уважаемые разработчики, спасибо вам за ваш безусловно полезный ресурс. Я с его помощью записал много слов для своего словарика. И всё же, позвольте не согласиться с вами, что любая попытка создать английскую фонетическую систему на основе кириллицы обречена на провал или на впадание в МФА. Вовсе нет. И знаете почему? Кириллистическая- не значит русская, и вообще славянская. Среди букв русского языка действительно, мало звуков для английского, но добавьте к нему букв из башкирского, да у-краткую из белорусского и алфавит для английского на основе кириллицы готов. И это — не безликая международная система, а родные символы для миллионов представителей наших братских народов в республиках Беларусь, Татарстан, Башкортостан. Я хотел написать раньше, но нашёл в ЧаВо данный ответ и самокритично решил воздержаться. Но со временем я понял, что создал не очередную тщетную попытку, а вполне жизнеспособную систему, достойную стать пусть не единственной, но одной из хоть иногда используемых. Прошу взглянуть: http://intensiv.ru/blog/blog_1/mozhno-li-zapisyvat-anglijskie-slova-kirillicej.php извините за ссылку, это ни в коем случае не реклама, просто кроме этого блога мой материал нигде пока не размещён. Готов с вами обсудить все вопросы.
С уважением,
магистр Невзоров А.А.
Сайт интересный! Все нравится, но СКОРОСТЬ звучания очень большая! Ползунок практически не работает. Так, в переводчике ПРОМТ, ползунок имеет несколько скоростей. Я пользовался самой малой скоростью, кажется 60 слов в минуту. Если Вы скопируете как у них, то будет замечательно. Федор Зольников. Пока.
Расширить нижний диапазон пробовал. К сожалению, это предел в реализации озвучки браузерами. Может быть со временем они её усовершенствуют, тогда расширим на сайте тоже.
Здравствуйте! Как сохранить озвученный текст, чтобы потом прослушать на другом устройстве? Например на телефоне.
На сегодняшний день речь синтезируется вашим браузером (не на сервере), поэтому могу только посоветовать поискать среди расширений для вашего браузера. Возможно, есть такие, которые умеют сохранять TTS на диск.
Здравствуйте.
А можно сделать так, чтобы одновременно выводились и американская и британская транскрипции?
Спасибо, добавил в список запросов.
Здравствуйте.
Вы опен сорс? И выложены ли на гите?
Нет, ни то, ни другое.
Как обозначаются точки и запятые в транскрипции?
Знаки препинания обычно не обозначаются, однако есть соглашения по обозначению изменения интонации. Этот сервис сохраняет знаки препинания, чтобы проще было соотнести транскрипцию с исходным текстом.
Добрый день, будет ли добавлена функция перевода транскрипции в слово, включая омофоны: [red] —> red, read. [mi:t] —> meet, meat. Таким образом, можно было бы по звучанию, которое помним, восстановить слово, которое не помним.
Да, будет, но для этого требуется серьезная переработка словаря, поэтому без прогнозов. Работаем над этим.
