Как преобразовать голос в текст на смартфоне?
Бывают ситуации, когда нет возможности написать текстовую заметку или SMS-сообщение — мы стоим в очереди или едем в метро. В этом случае на помощь приходит инструмент для преобразования голоса в текст. Все, что нужно сделать — надиктовывать SMS-сообщение или текстовую заметку. Рассмотрим 3 лучших приложения, которые помогут быстро преобразовать голос в текст на Android-устройствах.
GBoard
GBoard — официальная клавиатура от компании Google. На многих Android-устройствах клавиатура установлена по умолчанию. Если нет — ее можно бесплатно загрузить в Google Play.
В первую очередь, клавиатура предназначена для удобного и быстрого ввода текста. Несмотря на это, в программе есть инструмент, который преобразует голос в текстовую заметку. Для этого используется транскрипция: клавиатура GBoard синхронизируется с микрофоном на смартфоне или гарнитуре и превращает речь в текст.
Клавиатура мультиязычная, поэтому диктовать текст можно на русском, английском или испанском языках. Главное условие — четкое проговаривание каждого слова, чтобы в тексте не было ошибок с написанием. Диктовать текст можно в любом приложении, где есть ввод текста.
Evernote
Evernote — популярное приложение, которое используется для создания текстовых заметок. Программа подходит для ведения личного дневника и планирования дел. К текстовым заметкам можно прикрепить дополнительные файлы: видеоролики, фотографии и стикеры.
В приложении Evernote есть инструмент для преобразования голоса в текст. Утилита синхронизируется с микрофоном на смартфоне или наушниках, после чего нужно надиктовывать текст — он будет записываться в формате текста. Сама диктовка происходит через клавиатуру и кнопку голосового набора.
Некоторые слова могут преобразоваться с ошибками, потому что инструмент для захвата голоса не смог распознать речь. Чтобы избежать этой проблемы, старайтесь четко и громко проговаривать каждое слово. Также программа поддерживает возможность создания аудиозаметок — это аналог диктофона . Вместо текста в содержании записи будет аудиофайл, который можно воспроизвести и прослушать в формате подкаста.
Голосовой блокнот (Voice Writer)
Voice Writer — удобное приложение, которое конвертирует голос в текст. Для начала работы с утилитой нужно выбрать язык: программа поддерживает много вариантов. Далее нужно нажать кнопку записи и надиктовать текст. Внизу приложения есть панель с базовыми знаками препинания. Также можно в любой момент воспользоваться обычной клавиатурой.
Пять способов как превратить голос в текст
Кто не мечтал отдать компьютеру диктофонную запись и через некоторое время получить готовый текст? Сегодня мы расскажем, как это сделать.
Способ первый: по старинке
Садимся за компьютер, одеваем наушники, включаем диктофонную запись. И начинаем расшифровывать, быстро-быстро стуча по клавишам. На сегодня это самый надежный способ. И самый медленный. Если собеседник говорит быстро или плохое качество записи, вам придется не раз перематывать диктофонную запись назад. В среднем вам придется потратить в два-три раза больше времени, чем длится запись, которую вы расшифровываете.
Совет: для прослушивания записи используйте аудиоплеер AIMP. В нем можно замедлить скорость воспроизведения через Менеджер звуковых эффектов. Голос при этом будет искажен, зато вам реже понадобится перемотка назад. Если же запись очень тихая и максимальная громкость не помогает, можно воспользоваться нормализацией записи (специальный способ увеличения громкости).
Способ второй: начитываем сами
Современные технологии распознавания речи продвинулись далеко. Но они еще не справляются с диктофонными записями, где присутствуют посторонние шумы, собеседника слышно тихо или плохо. Зато они хорошо распознают голос с микрофона. Воспользуемся этим.
Устанавливаем Яндекс.Диск 3.0 , вместо с ним установится утилита Заметки в Яндекс.Диске. Открываем ее и нажимаем на значок микрофона. Скажите несколько фраз. Текст распознается почти без ошибок. Из знаков препинания здесь только точки. Но и этого достаточно.
Теперь запускайте диктофонную запись в наушниках и одновременно начитывайте ее своим голосом в микрофон (можно использовать встроенный в наушники). Так вы получите вполне сносный к дальнейшей обработке текст. Разумеется, вы должны уметь быстро воспринимать чужую речь и превращать ее в свою.
Совет: можете также использовать другие сервисы, базирующиеся на разработках Google — GoogleSpeech , Speechpad или Speechlogger . Эти сайты нужно запускать в браузере Google Chrome.
Способ третий: грузим YouTube
Ютуб умеет автоматически создавать субтитры. Вы можете попробовать загрузить в сервис диктофонную запись и подождать, пока сформируются субтитры (т.е. распознается ваш текст). Процесс долгий и каким будет результат, вы узнаете не сразу. Поэтому этот способ мы не рекомендуем. Из плохой записи вы все равно не получите приличный результат.
Способ четвертый: полная автоматика
Если у вас хорошая диктофонная запись, где голос звучит ровно, ясно и четко, нет посторонних шумов, можно попробовать использовать вышеупомянутые программы распознавания речи. Но вначале схитрим: сделаем так , чтобы аудиозапись, воспроизводимая с компьютера, была автоматическая направлена на микрофон.
Для этого нам нужно зайти в настройки Windows. В панели Звуки заходим во вкладку Запись , где отключаем Микрофон и другие входы и включаем Стерео микшер . Если вы не видите этих устройств, попробуйте включить показ отключенных и отсоединенных устройств.
После этого включаем сервис рапознавания речи (например, от Яндекса) и включаем воспроизведение диктофонной записи. Практически сразу же начнется распознавание и перевод голоса в текст. В наушниках аудиозапись вы слышать не будете. Не переживайте, так и должно быть.
Если не получается, нужно скачать и установить виртуальное устройство VB-CABLE Virtual Audio Device ( скачать драйвер можно здесь ). Теперь в панели Звуки включаем CABLE Input и CABLE Output (в вкладках Воспроизведение и Запись) и отключаем все остальные включенные устройства.
Учтите, хороший результат вы можете получить только с качественной аудиозаписью. Вот что может получится с плохой — смотрите на скриншоте. Если что «масик мама» — это «массив маймо» (Massive MIMO).
Способ пятый: дождаться будущего
Пройдет еще несколько лет и проблема расшифровки аудиозаписей исчезнет. Искусственный интеллект научится отделять зерна от плевел (т.е. голос от шума), улучшится распознавание плохой речи. Надо только подождать.
7 способов перевести аудио в текст
Голосовой набор позволяет быстро отправить текстовое сообщение без использования клавиатуры. А благодаря распознаванию звуковых файлов, можно без проблем выполнить транскрибацию записанной на диктофон лекции или создать печатную версию видеоролика. В статье поговорим о методах перевода аудио в текст с помощью специализированных онлайн-сервисов, расширений браузера и ботов.
Speechpad.ru
Один из немногих русскоязычных ресурсов, представляющий пользователям возможность речевого ввода. С его помощью можно вводить текст, используя микрофон, аудиозапись или, вставив ссылку на YouTube-видео. Работа с микрофоном поддерживается в браузере Chrome. Пользователи мобильных телефонов могут загрузить приложение с Play Market или App Store.
Инструкция по работе с сервисом:
- Перейти по ссылке. На странице дана подробная справка, описывающая различные функции и режимы работы, рекомендуем с ней ознакомиться перед началом процедуры.
Если требуется перевести текст из аудиозаписи или видео, необходимо нажать кнопку «+Транскрибацию». Выше поля с результатом отобразится графа для добавления ссылки или файла:
- 1. В строке «Медиа тип» выбрать вариант предоставления материала. Для «YouTube video» потребуется указать не всю ссылку, а только ее окончание, которое идет после «https://www.youtube.com/watch?v=».
Расширение
С помощью браузерного расширения будет решен вопрос, как перевести голосовое сообщение в текст на любом сайте. Так пользователь сможет надиктовывать поисковые запросы, отвечать голосом на электронные письма, писать сообщения на форумах и т.д.
Чтобы установить расширение, необходимо запустить в системе браузер Google Chrome и перейти на страницу дополнения «Голосовой блокнот». Затем кликнуть по кнопке «Установить», подтвердить действие. Когда процесс завершится, можно начинать пользоваться утилитой:
- Нажать правой кнопкой на любом поле для ввода текста.
- В контекстном меню выбрать строку «SpeechPad».
Уровень распознавания будет зависеть от дикции человека. Следует произносить слова четко и достаточно громко, также немаловажную роль играет качество микрофона.
Модуль интеграции с Windows, Linux, Mac
Сервис «Speechpad» дополнительно предлагает пользователям программы для транскрибации аудио в текст. После интеграции модуля в выбранную операционную систему, станет доступен голосовой ввод для любых приложений (например, в Word).
Последовательность действий в данном случае будет следующей:
- Установить в браузер упомянутое выше расширение.
- Скачать модуль интеграции на странице сервиса.
- Выполнить регистрацию на сайте и произвести вход под своим логином.
В кабинете пользователя активировать тестовый период (по его истечении 1 месяц использования услуги обойдется в 100 рублей).
Вернуться на главную страницу сервиса и отметить флажком пункт «Интеграция с OS».
Dictation.io
Сервис онлайн распознавания речи через микрофон. Посредством голоса можно расставлять параграфы, знаки пунктуации и даже смайлики. Dictation пригодится для написания электронных писем или заполнения документов в браузере.
- Перейти на страницу транскрибации.
- В правой части экрана нажать на три горизонтальные полоски, чтобы выбрать язык ввода. Поддерживается большое количество языковых направлений.
Сайт не предоставляет отдельных программ для перевода аудио в текст, поэтому работа осуществляется только на его страницах.
Otter.ai
Зарубежный сервис распознавания речи, в настоящее время поддерживает работу только с английским языком. Предоставляет около 600 минут распознавания аудиофайлов на месяц. Если потребуется больше, присутствует премиум-подписка.
На сайте сохраняются все распознавания голосовых записей, обработка вновь добавленного файла выполняется достаточно быстро. В итоговых результатах сервис выделяет ключевые слова, обозначает отдельных собеседников (если на записи присутствует несколько голосов), выставляет параграфы. Со знаками препинания ситуация не лучше, чем на других сервисах – их придется расставлять самостоятельно.
Cloud Speech-to-Text
Мощный, но в то же время платный инструмент от разработчиков Google. В его работе используются технологии машинного обучения для распознавания коротких фраз и длительных аудиозаписей.
Cloud Speech-to-Text предоставляет пользователям расшифровку аудиозаписей в текст путем применения моделей нейронной сети через простой к понимаю API. Сервис может использоваться для голосовых команд управления, транскрибации аудио и прочих задач.
На стартовой странице сервиса можно провести распознавание с файла или микрофона без регистрации. Это позволит оценить качество его работы. Cloud Speech-to-Text умеет работать со 120 языками. Отрезок из аудиокниги на русском языке был транскрибирован практически идеально, исключение составили только несколько слов, которые было сложно разобрать даже человеческому уху.
Сервис можно смело рекомендовать, если перевод голоса в текст требуется постоянно в ходе профессиональной деятельности или по работе. Попробовать полный функционал можно на бесплатной основе, предварительно согласившись с правилами и предоставив данные кредитной карты.
Google Переводчик
На странице онлайн переводчика от Google присутствует возможность голосового ввода текста. Это может стать альтернативным и в то же время бесплатным вариантом, если требуется надиктовать запись с микрофона. Для начала ввода достаточно нажать на соответствующий значок.
Чуть более сложная задача стоит перед пользователем, если требуется выполнить перевод аудио в текст. Тем не менее зарубежные юзеры придумали решение – нужно установить специальный драйвер в систему и настроить вход микрофона на него. По итогу запущенный в плеере файл будет передаваться как голос, который поступает с микрофона. Это позволяет «обмануть» Google Переводчик и произвести транскрибацию с аудиофайла.
Качество распознавания находится на высоте. Присутствует ограничение в 5 тыс. символов. По его достижению нужно приостанавливать воспроизведение и копировать текст в Word или другую программу.
Бот во ВКонтакте
Перевести полученное ВКонтакте голосовое сообщение в текст поможет специальный бот. Им можно воспользоваться непосредственно на главной странице сообщества. Также присутствует возможность добавления в чат – тогда бот будет автоматически переводить все голосовые сообщения, присылаемые пользователями.
Стоит заметить, что система работает только с записями ВК. Загруженные извне файлы не распознаются и не переводятся в текст.
Бот в Telegram
Чуть более функциональную онлайн-расшифровку аудио в текст предоставляет бот Voicy, расположенный в мессенджере Telegram. Он работает с голосовыми сообщениями и отдельно загруженными файлами. Качество распознавания находится на среднем уровне. Поддерживается смена «движка» на Google Speach, однако для этого потребуется предварительно оформить подписку в сервисе Cloud Speech-to-Text. По умолчанию используется бесплатная система Wit.ai.
Инструкция по работе с ботом:
- Перейти по ссылке для добавления чата в мессенджер.
- Дать команду «/language» для выбора языка.
Для просмотра всех команд Voicy необходимо отправить ему сообщение с текстом «/help».
Подведем итоги. Программа для преобразования голоса в текст на Виндовс присутствует только в сервисе Speechpad. Однако даже там основная часть данных берется с серверов. Прочие предложенные инструменты работают онлайн. Лучшим по качеству распознавания является Cloud Speech-to-Text. Бесплатная альтернатива представлена Google Переводчиком, где после установки специального драйвера получится проводить транскрибацию аудиофайлов.