Транскрибация – это процесс конвертации аудио- или видеозаписи в текст. Опция нужна при создании субтитров, если надо расшифровывать множество телефонных звонков или встречи и собрания. Она полезна для подготовки статей, конспектов, протоколов, саммари. Переводить человеческую речь из аудиоформата в текст можно вручную или при помощи программ для транскрибирования, созданных на основе искусственного интеллекта. В этой статье собрана информация о 17 наиболее функциональных из них.
Speech2Text

Сервис для конвертации аудио- и видеоконтента. Подходит для профессионального использования. Технология основана на ИИ, в результате чего достигается высокая скорость распознавания текста (транскрибация часовой записи занимает 10 минут). Работает с файлами, со ссылками, различает голоса нескольких говорящих, сохраняет результат распознавания в формате документа или субтитров. Имеет два варианта – упрощённый (бесплатный) и для корпоративного использования (платный). Во втором случае пользователь получает расширенные возможности, например, сервисом могут одновременно пользоваться несколько человек, а распознавание запустить одновременно по шести каналам.
Follow up
AI-секретарь от Follow up – это smart-приложение для компаний, которое поможет автоматизировать процесс протоколирования встреч, собраний и совещаний, а также возьмёт на себя составление саммари и его рассылку участникам. Подойдёт:
- владельцам бизнеса;
- менеджерам;
- проектным командам;
- кадровым отделам.
Программа легко интегрируется в рабочий календарь. При необходимости разработчики адаптируют модель под нужды организации заказчика.
Цифровая инновация уже внедрена в различные сферы экономики:
- торговлю;
- маркетинг;
- образование;
- СМИ;
- проектирование;
- консалтинг.
Компания предоставляет 10 минут бесплатного тестового режима. Дальнейшее использование платное: стоимость минуты снижается в зависимости от количества их покупки.
Google Docs
Создан для работы с онлайн-документами. Нейросети обеспечивают хорошую скорость транскрибации, а также позволяют вводить текст методом надиктовывания в микрофон. В Google Docs можно импортировать наиболее распространённые типы файлов, например, Word и PDF, работать над ними совместно с коллегами, добавляя комментарии, назначая задачи, создавать блоки информации для частого использования. Сервис гарантирует высокий уровень безопасности. Устанавливается на любом устройстве.
Speechpad
Голосовой блокнот, при помощи которого можно вводить текст методом надиктовывания и автоматически переводить в текстовый формат Также можно транскрибировать видеоконтент с YouTube. По умолчанию с текстом работает встроенный рекордер, но интегрируется с Windows, MacOS, Linux.
Conspecto

Онлайн-сервис, разработанный на основе ИИ для создания конспектов или субтитров путём конвертации медиафайлов в текстовый документ. Регистрация не требуется. Для того, чтобы начать транскрибацию, надо просто вставить файл (но не больше 2 Гб) в нужную область методом перетаскивания.
Any2text
Сервис имеет интуитивно понятный интерфейс. Файлы для работы загружаются в рабочее окно кликом, методом перетаскивания или по ссылке при условии, что он находится на Ютубе, Рутубе или Яндекс.Диске. Поддерживает большой перечень форматов, включая редко встречающиеся. Результат транскрибирования можно запомнить в форматах xlsx, docx, txt, srt. Приглашение друга по реферальной ссылке дает 20% скидку на пользование.
Teamlogs
Платформа для распознавания аудио и видеоконтента с поддержкой большинства популярных форматов, но готовый результат скачивается всего в трёх: XLSX, SRT и DOCX. Пока доступны русский и английский язык, но их количество планируется увеличить. Чтобы начать работу, надо зайти на сайт и вставить файл в рабочее поле.
World Voice
Стильный сайт, позволяющей быстро и точно конвертировать речь в текстовый документ. Для работы требуется регистрация, после которой можно завести личный кабинет. Рабочий файл загружают в специальное окно. После завершения конвертации пользователь может проверить результат, запустив в ЛК опцию озвучивания. Кроме этого, на сайте имеется опция автоматического перевода. Если аудио будет на иностранном языке, его надо загрузить в бокс, расположенный под основным рабочим окном. Скачать готовый документ также можно через ЛК.
RealSpeaker
Он-лайн сервис для конвертации аудио и видеоконтента. Для начала работы надо выбрать язык и загрузить запись, длина которой не должна превышать 3-х часов. Готовый текст можно редактировать. С помощью RealSpeaker можно составлять субтитры.
oTranscribe
Бесплатный онлайн-сервис для дешифровки аудио- и видеозаписей в ручном режиме. Для начала работы надо открыть файл или видеозапись и приступить к работе. В процессе распознавания можно, не прерывая работы на клавиатуре, останавливать воспроизведение, перематывать запись. Результат конвертации сохраняется автоматически в браузере.
Voco
Программа для транскрибации, работающая без подключения к сети. Текст можно вводить методом надиктовывания в микрофон или загружая аудиофайлы. Voko оснащена встроенным словарём, насчитывающим более 300 000 слов и словоформ. Нейросеть обучена не только распознавать текст на основе навыков, полученных в процессе обучения, но также является самообучаемой. Программа приспосабливается к работе с пользователем, изучает особенности его лексики, разговорный стиль, и со временем качество распознавания повышается.
Voko – это лицензионная программа, которую выпускают в трёх версиях:
- Базовой, предоставляющий возможность преобразовывать речь только в режиме онлайн при диктовке на микрофон. В нём отсутствуют тематические словари. Транскрибировать можно только речь, надиктованную в микрофон.
- Профессиональной. Имеет расширенный тематический словарь юридической и финансовой направленности. Распознаёт аудиофайлы.
- Корпоративной. Идёт в комплекте с гарнитурой, обеспечивающей высокое качество передачи голоса.
Базовая и профессиональная версии имеют лицензии на одно рабочее место, корпоративная – сетевую плавающую многопользовательскую лицензию.
Transcriber Pro

Это профессиональный инструмент с простой навигацией по аудиозаписи для ручного конвертирования аудио в текст. Имеющиеся опции позволяют распознавать аудио быстрее и качественнее, также возможно работать в команде.
LossPlay
Программа визуально напоминает видеоплеер и предназначена для ручной конвертации аудио-и видео. Имеет широкий функционал, включая опции вставки шаблонных фрагментом текста, изменения скорости воспроизведения, кастомизации интерфейса. Можно одновременно запускать 4 плейлиста: работать в одном, а редактировать другие.
Писец
Сервис для транскрибации встреч с участием до 5 спикеров. Регистрация не нужна. Файл загружают на сервис, указывают количество говорящих, запускают конвертацию и указывают адрес электронной почты. Когда нейросеть завершит распознание, она отправит готовый документ по указанном адресу. Результаты транскрибации не сохраняются на сервисе, что гарантирует полную конфиденциальность
Dictation
Разработан в Индии, абсолютно бесплатен и предназначен для распознавания речи в Google. При помощи голосовых команд можно расставлять знаки препинания. Сгенерированный текст можно редактировать, а затем отправлять по электронной почте или сохранить на ПК.
Express Scribe
Аудиоплеер для профессиональной конвертации аудиозаписей в более чем 40 форматах. Загрузить файл можно из любого источника, включая диск, FTP-сервер, e-mail. Интегрируется с текстовыми редакторами Microsoft Word, Lotus Wordpro. Для упрощения управления имеются горячие клавиши, можно подсоединить педаль. Программа лицензионная и имеет две версии: базовую и профессиональную.
Transcribe
Онлайн-сервис для ручной и автоматической конвертации речи, надиктованной в микрофон или загруженной файлом. При ручной транскрибации возможно использовать множество инструментов, облегчающих работу, например, регулировку скорости воспроизведения или зацикливание, а также управлять отдельными процессами при помощи ножной педали. Готовый текст можно экспортировать в формате документа или субтитров (TXT, DOC, SRT, VVT).
Ниже в таблице приведены сведения об основных достоинствах и недостатках программ, а также их стоимости.
Наименование | Платформа | + | — | Бесплатное использование | Стоимость |
Speech2Text | Web | Интегрируется с API; регистрация не требуется; поддерживает 20 языков; высокое качество распознавания; создаёт субтитры; имеет плеер с тайм-кодами | Отсутствие мобильной версии | 15 мин./день | 450 руб./мес. за 6 часов;17600 руб. – безлимит |
Follow up | Web;Android | Транскрибирует разговор; фиксирует задачи, сроки, ответственных, договорённости; составляет и рассылает саммари; Точность транскрибации – 98%; качество саммаризации – 100% сохранённой информации | 100 минут | 3 руб./мин. при покупке до 10 часов; 2,5 руб./мин. – от 10 до 70 часов; 2 руб./мин.– 70-140 часов; 1,5 руб./мин. – от 140 часов | |
Google Docs | Web;Android;iOS | Автоматическое сохранение; позволяет оперативно корректировать материал | Работает только в активном окне; высокие требования к качеству исходника (шум сильно снижает качество распознавания); плохо распознаёт русскую речь | Для личного пользования с доступом ко всем инструментам | 3 тарифа: «Старт» – 5,4$/мес; «Стандарт» – 10,8$/мес.; «Плюс» – 18$/мес. |
Speechpad | Web;Android;iOS | Может работать со звуком из других вкладок браузера; Позволяет быстро вносить коррективы; Есть обучающие видео для работы с программой | Плохо распознаёт речь в условиях шума | Да | При интеграции с ОС: 100 руб./ 1 мес.;150 руб./ 3 мес.;800 руб. /1 год |
Conspecto | Web | Поддерживает 50 языков, а также редкие форматы MOV, AAC; С помощью «Конспекто» можно не просто распознавать текст, а делать полноценные конспекты с минимальным количеством орфографических ошибок | Отсутствие опции голосового ввода; высокая стоимость | Нет | 3 руб./мин за простое распознавание;4 руб/мин за конспектирование |
Any2text | Web | Регистрация не нужна; допускает мало орфографических ошибок; простой интерфейс; платформа проводит много акций; автоматически распознаёт более 50 языков и работает с ними | Отсутствие голосового ввода, а также мобильного приложения | 15 минут | 5 руб./мин.;при пополнении баланса на 1000 рублей – 4 руб./мин. |
Teamlogs | Web | Качество распознавания – 95%; высокая скорость обработки исходников (часовая аудиозапись расшифровывается за 6 минут); составляет саммари; умеет формулировать юридические отчёты; редактирование и форматирование текста; умеет расставлять тайм-коды | Поддерживает мало языков; недостаточное количество форматов, в которых можно сохранить текст | 15 минут тестового режима | 7 руб./мин. |
World Voice | Web | Высокие качество и скорость обработки; умеет расставлять знаки препинания; работает с большим перечнем форматов; может озвучить результат транскрибации | Не различает спикеров; не форматирует текст | 18 минут | 5 руб./мин. |
RealSpeaker | Web | Поддерживает 38 языков, включая русский; создаёт субтитры; работает с загруженными файлами | Не умеет расшифровывать речь, надиктованную в микрофон; низкое качество транскрибации на русском языке; низкий уровень конфиденциальности (в первые сутки после установки все загруженные файлы находятся в общем доступе) | Нет | 8 руб./мин. |
oTranscribe | Web | Поддерживает форматы MP3, OGG, WEBM, WAV, а также YouTube-видео; текст, сохранённый в браузере, можно экспортировать в Google Документы | Отсутствие возможности автоматической расшифровки | Бесплатно | — |
Voco | Windows | Качество транскрибации от 77 до 86%; с помощью команд можно добавлять знаки препинания, а также настраивать автоматическое добавление слов в словарь; есть опция настройки горячих клавиш | Высокая стоимость; поддерживает только русский язык | 14 дней с доступом ко всем опциям, кроме входящих в версию Enterprise | Базовая – 1887 руб./год; Профессиональная с полным набором опций – 15 500 руб./год; Стоимость корпоративной рассчитывается индивидуально |
Transcriber Pro | Windows | Можно управлять горячими клавишами, ускорять или замедлять запись, проставлять имена собеседников; есть опции выделения, слияния подзадач | Не работает с видеоматериалом | Нет | 799 руб./год |
Lossplay | Windows | Поддерживает форматы MP3, MP4, WAV; есть горячие клавиши; можно проставлять тайм-коды, делать закладки, регулировать баланс звука, редактировать тэги | Только для Windows | Бесплатно | — |
Писец | Web | Качество конвертации – 98%; работает со многими форматами, включая редкие; грамотно расставляет знаки препинания; рассылает результат транскрибации на указанные emails, после чего текст с сервиса удаляется; проставляет тайм-коды | Нет приложений; длительное ожидание возможности бесплатного обслуживания | 1 час/мес. | 990 руб за пакет ан 10 часов; 1620 руб. – за 20 часов; 1980 руб. – за 30 часов |
Dictation | Web;Android;iOS | Платформа для создания писем, документов, электронных сообщений без необходимости печати;работает как преобразователь речи на сайте; поддерживает 100 языков | Не поддерживает работу с готовыми файлами; качество конвертации невысокое | Бесплатно | — |
Express Scribe | Web;MacOS | Широкий функционал; работает с большинством форматов; высокое качество конвертации | Да, но с ограниченным функционалом | Basic licence – 25 $; Professional licence – 30$ | |
Transcribe | Web | Разнообразный функционал; Можно загружать файлы или надиктовывать текст; 80 языков | Демо-версия этой программы для транскрибации доступна после регистрации, но только для ручного распознавания | Ручная – 20$/год; Автоматическая – 20$/год + 6$/час. |