Многие виды деятельности связаны с необходимостью записывать текст. Например, в маркетинге надо всё время работать с брифами, описывать концепции и тезисы, сочинять броские привлекающие рекламные слоганы. Журналисты также нуждаются в записи внезапно возникших идей, мыслей, заголовков. Записывать мысли и ощущения постоянно нужно писателям, работающим над очередным произведением. В таких ситуациях технологии записи и конвертации путём надиктовывания становятся эффективным помощником. Эта статья о том, как перевести аудио в текст.
Приложения для онлайн-транскрибации

Чтобы перевести голос в текст в режиме онлайн, можно использовать разные сервисы и приложения, но принцип работы одинаков. Пользователь должен в микрофон чётко произнести текст, а нейросеть будет его параллельно превращать в обычную текстовую запись. Онлайн-сервисы допускают много ошибок при транскрибации. При этом на качество результата сильно влияют внешние шумы, наличие сложных слов, поэтому расшифровку придётся редактировать. Но доработка текста займет намного меньше времени, чем его набор вручную.
Гугл Документы
Сервис, позволяющий конвертировать устную речь в текстовый формат. Никаких дополнительных плагинов устанавливать не требуется. Чтобы начать работу:
- Откройте новый документ.
- Найдите вкладку «Инструменты», в выпавшем меню выберите кнопку «Голосовой ввод» и кликните по ней.
- Нажимайте кнопку начала записи и начинайте чётко произносить слова.
Сервис работает с несколькими языками, умеет форматировать текст при помощи голосовых команд, например «Новая строка» или «Новый абзац». Английское меню шире.
Готовый текст нуждается в корректировке, поскольку нейросеть делает ошибки при расстановке знаков препинания, выставлении регистра, ошибается в написании сложных слов.
При помощи Гугл Документов можно транскрибировать аудио-и видеозаписи, воспроизводимые на другом устройстве. Для этого нужно установить источник звука максимально близко к микрофону. Важно, чтобы речь была достаточно громкой, чёткой и ясной. Для повышения качества распознавания можно включать запись на более низкой скорости воспроизведения.
Speech to Text BOT
Сервис предназначен для работы на мобильных устройствах, а также десктопах. Устанавливается в браузере Chrome, имеет простой понятный интерфейс, включающий поле для текста, кнопку для запуска/остановки надиктовывания, а также список редакторских команд (справа). Приложение позволяет расставлять знаки препинания, заглавные буквы, выбирать шрифты, поддерживает несколько десятков языков. Результат конвертации можно редактировать, копировать, скачивать, распечатывать. Не транскрибирует аудио и видеозаписи.
Speechpad
Блокнот для голосового ввода. Интегрируется с Windows, MAC, Linux. Диктовать можно на одном из 15 языков. Точность конвертации очень высокая, но знаки препинания надо расставлять вручную, поскольку робот этого не делает.
Если надо конвертировать речь из аудио или видеозаписей, надо кликнуть на кнопку «+Транскрибация», расположенную под полем ввода, дождаться обновления страницы и ввести ссылку или ID видео с Ютуба. Результаты распознавания можно будет увидеть на этой же странице. Для повышения качества можно воспользоваться инструментами защиты от шумов, регулирования скорости воспроизведения, выставления меток времени.
Summarize.Tech

Это высокоскоростной сервис для распознавания текста с аудиозаписей Ютуба, когда не нужна высокая точность, но требуется краткое изложение. Нейросеть умеет делать саммари в несколько абзацев с подробным описанием видео и тайм-кодами. К сожалению, сервис обучен только английскому языку, поэтому расшифровывать можно только англоязычные ролики, а потом использовать другого нейросетевого помощника, который умеет переводить, например, Deepl.
Yandex SpeechKit
Сервис, предназначенный исключительно для расшифровывания коротких надиктовок длиной до одной минуты. Ни редактировать, ни форматировать, ни соблюдать пунктуацию программа не обучена.
Приложения для конвертации речи при помощи мобильных устройств
Требуются, когда надо срочно записать мысль или идею, но поблизости нет компьютера. Используя приложения для смартфонов, можно быстро записать текст, расшифровать его и отправить на почту.
Google Keep
Приложение, для записи речи методом надиктовывания и её конвертации в текстовый документ, синхронизированный со всеми гаджетами одного аккаунта Заметки можно редактировать, копировать и сразу отправлять в соцсети или на адрес электронной почты.
Dictation для iOS
Приложение, поддерживающее более 40 языков. Распознанный текст можно сразу перевести и отправить на электронный адрес или поделиться в соцсетях. Dictation синхронизируется со всеми устройствами одного аккаунта, если включить iCloud. Поэтому позже его можно просматривать на компьютере, планшете. Нет ограничений по длине диктанта.
Speechnotes для Android
Простая в употреблении программа для транскрибирования надиктовок. Для записи голоса надо нажать значок микрофона и начать говорить. Приложение имеет несколько инструментов для редактирования, например, встроенную клавиатуру, которую можно исползовать параллельно с надиктовыванием. С её помощью расставляется часть знаков препинания, другие можно выставлять при помощи голосовой команды. Качество расшифрованного текста высокое, можно редактировать, сохранять, распечатывать, пересылать. Есть платный пакет: за 1,5 доллара можно приобрести возможность создавать горячие клавиши для вставки часто используемых речевых конструкций.
Программы для автоматического распознавания аудио и видео

Автоматическая транскрибация призвана экономить время тех, кто работает с большими объёмами информации: журналистов, преподавателей, студентов, врачей.
Искусственный интеллект уже научился неплохо справляться с задачей распознавания разговорной и профессиональной речи, записывать её в текстовой форме, форматировать, редактировать.
Для работы с нейросетевым софтом пока ещё есть ограничения, например, роботы хуже справляются с транскрибацией при низком качестве звука, если спикер имеет плохую дикцию или акцент. Редактировать машинный перевод всё равно придётся. Но и с такими оговорками голосовые помощники стали хорошим подспорьем в работе человека, особенно для создания коротких заметок и сообщений.
Наименование | Что умеет | Недостатки | Стоимость |
Speech2Text | — интегрируется с API; — регистрация не требуется; — поддерживает 20 языков; — высокое качество распознавания; — создаёт субтитры; — имеет плеер с тайм-кодамиработает с файлами, со ссылками; — различает голоса нескольких говорящих | Нет мобильной версии | Бесплатно 15 мин./день; 450 руб./мес. за 6 часов;17600 руб. – безлимит |
Speechlogger | — преобразовывает голос в текст с точностью от 84 до 100% в зависимости от качества аудио; — генерирует субтитры; транскрибирует аудиофайлы; — поддерживает много форматов, включая .mp3, .mp4, .aac, .m4a, wav, .mpeg; — расставляет знаки препинания и временные метки | Бесплатно | |
Teamlogs | — качество распознавания – 95%; — высокая скорость обработки исходников (часовая аудиозапись расшифровывается за 6 минут); — составляет саммари; — умеет формулировать юридические отчёты; — редактирование и форматирование текста; — умеет расставлять тайм-коды | поддерживает только русский и английский языки;всего три формата для сохранения текста: XLSX, SRT и DOCX | 15 минут бесплатного тестового режима, затем – 7 руб./минута |
RealSpeaker | — транскрибирует аудио-, видеоматериалы длительностью до 3 часов; — позволяет работать с файлами, загружая их на облако в папку пользователя; — позволяет редактировать текст, не выходя из интерфейса программы; — поддерживает 38 языков, включая русский; — создёт субтитры. | не умеет расшифровывать речь, надиктованную в микрофон;низкое качество транскрибации на русском языке;низкий уровень конфиденциальности (в первые сутки после установки все загруженные файлы находятся в общем доступе). | 8 руб./мин. |
ПО для транскрибации аудио и видео в ручном режиме
Несмотря на широкое внедрение программ для автоматической конвертации записей, от ручного транскрибирования пока полностью не отказались. К ней прибегают в случаях, когда содержание текста необходимо сохранить в тайне или запись низкого качества. Человек понимает речь лучше машины. Если у спикера нечёткая дикция, не слышны некоторые слова или на записи слишком много шума, человек всё равно поймет, о чём идёт речь, из контекста. Готовый текст будет отредактирован, очищен от сленга, слов-паразитов, если таковые были.
Zapisano
Это сервис, на котором работают профессиональные транскрибаторы, обладающие абсолютной грамотностью и высокой скоростью набора текста. Его широко используют исследователи, студенты, журналисты, адвокаты, блогеры для качественного распознавания материалов, а также перевода с других языков и создания субтитров.
Как производится перевод аудио в текст:
- Представленные аудио- и видеозаписи слушают живые люди.
- Делают стенограмму с точностью 99,9%, удаляя параллельно оговорки, повторы, слова-паразиты.
- Набирают расшифровку в виде обычного текста.
Услуга платная и включает 4 тарифа:
- Бюджет – 25 руб./мин.
- Эконом – 34 руб./мин.
- Оптимум – 39 руб./мин.
- Срочно – 70 руб./мин.