Многие виды профессиональной деятельности требуют записывания текстов. С ними постоянно работают журналисты. Врачи должны ежедневно заполнять истории болезни, вести карточки на приёме пациентов. Во время судебных процессов необходимо вести подробную запись всего, что происходит (там вообще каждое слово имеет значение). Специалисты по маркетингу постоянно работают над концепциями повышения продаж, рекламными предложениями. Внедрение технологии автоматического извлечения текста из аудио значительно упростило работу человека во многих отраслях.
Инструменты онлайн-конвертации голоса в текст

Это наиболее доступные и недорогие сервисы, позволяющие на ходу транскрибировать аудиозапись в текст. Пользователь надиктовывает информацию в микрофон, а нейросеть тут же переводит её в письменный формат. Однако онлайн-сервисы ещё далеки от совершенства. Они научились переводить записи в текст быстро, но при этом допускают много ошибок, качество распознавания сильно зависит от многих побочных факторов, например внешнего шума, акцента или плохой дикции говорящего.
Не все программы умеют редактировать, поэтому текст в некоторых случаях выглядит как сплошная запись без абзацев, знаков препинания. Его надо будет редактировать вручную, однако это всё равно займёт намного меньше времени, чем если бы пользователю пришлось самому записывать с первоисточника, многократно прокручивая фрагменты аудиозаписи.
Наименование | + | — |
Google Документы | Только транскрибирует | Речь должна быть громкой, чёткой. Внешние шумы сильно снижают качество |
Speech to Text BOT | Распознаёт речь, диктуемую в микрофон. Умеет расставлять знаки препинания, заглавные буквы.Понимает несколько десятков языков. Есть опции редактирования, копирования, скачивания | Не работает с аудио- и видеозаписями |
Speechpad | Блокнот для ввода информации голосом. Интегрируется с Windows, MAC, Linux. Знает 15 языков. Точность распознавания высокая. Есть инструменты защиты от внешних шумов. Ставит временные метки | Не расставляет знаки препинания |
Summarize.Tech | Предназначен для работы с видеозаписями YouTube. Делает краткое описание из видео (в несколько абзацев). Проставляет тайм-коды | Знает только английский язык. Не транскрибирует дословно |
Yandex SpeechKit | Распознаёт короткие надиктовки длиной до 60 секунд | Не редактирует, не форматирует, на расставляет знаки пунктуации |
Приложения для преобразования речи в текст на мобильных устройствах
Эти приложения не предназначены для расшифровки длинных записей, только коротких – мыслей, идей. Их можно сравнить со скорой помощью: когда рядом нет обычной рабочей техники, но надо срочно что-то кому-то отправить или записать, чтобы не забыть, они помогут. Программы позволяют пользователю записать короткое (надиктованное) сообщение и отправить на любой электронный адрес.
Наименование | Что делает |
Google Keep | Конвертирует под диктовку. Записывает готовый текст, который можно редактировать и отправить на почту или в соцсети. Совмещается со всеми гаджетами одного аккаунта |
Dictation для iOS | Может конвертировать длинные записи. Знает 40 языков и может сразу перевести распознанную речь на нужный. Редактирует, позволяет копировать и рассылать по электронной почте или в соцсети. Синхронизируется со всеми устройствами одного аккаунта через облако |
Speechnotes для Android | Конвертирует надиктовки в текст с высокой точностью распознавания. Имеет встроенную клавиатуру, которую можно использовать параллельно с надиктовыванием. Есть инструменты для редактирования. Готовый текст сохраняет, копирует, рассылает. Основные функции приложения доступны бесплатно, но за символические 1,5 доллара в месяц можно добавить опцию создания горячих клавиш, а также вставки часто употребяемых слов или оборотв речи |
Для автоматической транскрибации аудио и видео
Технология автоматического распознавания речи (Speech-to-Text) помогает фиксировать и переводить в текст большие аудиоданные: конференции, встречи, собрания. Также она помогает в работе врачам, юристам, журналистам, преподавателям, облегчает учёбу студентам.
К сожалению, большинство программ требует особых условий для хорошей работы, что ухудшает качество транскрибации. Например, многие сервисы плохо распознают диалоги на фоне внешнего шума, плохо понимают спикера, если у него акцент ли плохая дикция. Эти недостатки ещё предстоит преодолеть разработчикам. Но и в таком виде программы намного облегчают работу.
Наименование | Что умеет | Недостатки |
FollowUp | Записывает и распознаёт разговор любой продолжительности с точностью 98%. Фиксирует договорённости, задачи, ответственных лиц, сроки исполнения. Формирует саммари со 100% сохранением смысла. Рассылает саммари участникам | |
Speech2Text | Качественно транскрибирует. Знает 20 языков. Генерирует субтитры. Проставляет тайм-коды. Работает с файлами, со ссылками. Различает голоса нескольких спикеров | Отсутствует версия для мобильных устройств |
Speechlogger | Качество распознавания выше 85%. Создаёт субтитры. Транскрибирует аудиофайлы. Поддерживает различные форматы, включая .mp3, .mp4, .aac, .m4a, .wav, .mpeg. Расставляет временные метки, знаки пунктуации | |
Teamlogs | Качество распознавания – 95%; Высокая скорость обработки исходников. Формирует саммари. Создаёт юридические отчёты. Умеет редактировать и форматировать. Расставляет тайм-коды | Понимает только русский и английский языки. Сохраняет текст только в XLSX, SRT, DOCX |
RealSpeaker | Транскрибирует исходные материалы длительностью не более 180 минут. Позволяет работать с файлами, загружая их в облако в папку пользователя. Позволяет редактировать текст, не выходя из интерфейса программы. Знает 38 языков. Создёт субтитры | Не расшифровывает надиктованную речь. Плохо распознает русскую речь. Низкий уровень конфиденциальности сервиса |
Ручная расшифровка аудио- и видеозаписей
Есть немало ситуаций, когда доверять транскрибацию нейросетям нельзя, и распознавание приходится делать в ручном режиме. Например, если переговоры должны быть строго конфиденциальными. Также в ручном режиме с записями приходится работать, если их качество слишком низкое и машина ничего «не слышит». В такой ситуации может справиться только человек, поскольку он отлично понимает контекст и может составить предложение, даже если некоторые слова вовсе не слышны.
Но и профессиональные транскрибаторы пользуются помощью искусственного интеллекта, например, сервисом Zapisano. Он эффективен для перевода текста из аудио, если пользователь обладает высокой скоростью набора и абсолютной грамотностью. Человек слушает и пишет, а нейросеть параллельно чистит текст, убирая сленг, слова паразиты, повторы, оговорки. Сервис также позволяет переводить на другие языки и создавать субтитры.