С развитием технологий машинного обучения появилось множество сервисов, облегчающих перевод аудио- и видеозаписей в текстовый формат. Одни работают на бесплатной основе, другие являются платными и предоставляют пользователю больше инструментов для работы. Нейросети для расшифровки аудио и видеоконтента в текст уже умеют очень многое: они различают языки, умеют редактировать и форматировать расшифровки, некоторые из них обучены пониманию специфической речи врачей или юристов. Многие распознают речь с точностью до 99%, а скорость транскрибации в десятки раз превышает возможности человека.
Несмотря на то что технология ещё далека от совершенства, её внедрение значительно облегчило работу людей, профессии которых требуют постоянной обработки больших объёмов записей.
В этой статье собраны описания нейросетевых помощников, работающих как на платной, так и на бесплатной основе.
Бесплатные
Наименование | Что умеет | Недостатки |
Speechlogger | Преобразовывает голос в текст с точностью от 84 до 100% в зависимости от качества аудио; генерирует субтитры; транскрибирует аудиофайлы; поддерживает много форматов, включая .mp3, .mp4, .aac, .m4a, wav, .mpeg; расставляет знаки препинания и временные метки | |
Speechpad | Автоматически конверртирует надиктованную речь; редактирует с помощью встроенного инструмента; транскрибирует видеоконтент с YouTube; может работать со звуком из других вкладок браузера; позволяет быстро вносить коррективы; интегрируется с Windows, MacOS, Linux | Плохо распознаёт речь в условиях шума |
Speechnotes.co | Расшифровывает надиктованный текст с точностью 90%; при помощи голосовых команд вставляет заглавные буквы, знаки пунктуации, выделяет абзацы; поддерживает все типы файлов; ставит тайм-коды; составляет саммари; сохраняет текст в браузере, откуде его можно распечатать или отправлять на ПК или Гугл Диск | |
Speech to Text | Можно набирать текст методом надиктовывания в микрофон; мультиязычен; имеет встроенный редактор, при помощи которого можно делать простое редактирование и форматирование; может экспортировать файлы в форматах DOC и TXT | |
Sammarize.tech | Делает саммари из видеозаписей любого содержания целиком или блоками | Речь обрабатывает на русском, но выжимки печатает на английском |
Dictation | Предназначена для создания писем, документов, электронных сообщений без необходимости печати; работает как преобразователь речи на сайте; поддерживает 100 языков; расставляет знаки при помощи голосовых команд; готовый текст можно редактировать, сохранять на ПК, отправлять по электронной почте | Не поддерживает работу с готовыми файлами; качество конвертации невысокое |
Платные с бесплатной версией
Наименование | Что умеет | Недостатки | Бесплатное пользование | Стоимость |
Speech2Text | Интегрируется с API; регистрация не требуется; распознаёт голоса нескольких спикеров; поддерживает 20 языков; высокое качество и скорость распознавания; работает с файлами разных форматов, включая редкие; находит нужный контент по ссылкам Ютуба, также можно указать другой онлайн-хостинг; создаёт субтитры; имеет плеер с тайм-кодами; платная версия позволяет работать в команде, а также одновременно запускать конвертацию по 6 каналам | Нет мобильной версии | 15 мин./день | 450 руб./мес. за 6 часов;17600 руб. – безлимит |
Salut Speech | Поддерживает опцию надиктовки в микрофон; транскрибирует загруженные файлы; записывает и расшифровывает лекции, совещания; умеет отфильтровывать шумы; расставляет знаки препинания; генерирует субтитры; Доступен в Telegram | 100 мин./мес для физлиц | за 1200 руб./год физлицам доступно дополнительно 1000 минут; для юрлиц базовый тариф – 1 коп./мин. | |
FollowUp | Транскрибирует разговор; фиксирует задачи, сроки, ответственных, договорённости; составляет и рассылает саммари; точность транскрибации – 98%; качество саммаризации – 100% сохранённой информации | 100 минут | 3 руб./мин. при покупке до 10 часов; 2,5 руб./мин. – от 10 до 70 часов; 2 руб./мин.– 70-140 часов; 1,5 руб./мин. – от 140 часов | |
Yandex SpeechKit | Технология, работающая на базе голосового помощника Алиса, адаптированная для работы в колл-центрах; распознаёт речь в реальном времени; конвертирует файлы длительностью до 240 минут в текст; распознаёт 10 языков | не умеет редактировать, форматировать | От 267 руб./мес. за аренду виртуальной машины; от 824 руб. — за кластер с управляемой БД | |
Teamlogs | Поддерживает 7 форматов аудио и 6 – видео; точность распознавания – 95%; различает речь нескольких спикеров; редактирует и форматирует расшифровку; отвечает на вопросы по расшифровке; делает выжимку фактов; выделяет ключевые слова; умеет формулировать юридические отчёты | Высокие требования к чистоте записи и чёткости голоса; понимает только русский и английский языки; распознанный текст можно скачать только в трёх форматах – XLSX, SRT и DOCX | 15 мин. | 7 руб/мин., но 6 руб./мин при покупке более 5000 минут |
RealSpeaker | Транскрибирует аудио-, видеоматериалы длиной до 180 минут; позволяет работать с файлами, загружая их на облако в папку пользователя; позволяет редактировать текст, не выходя из интерфейса программы; поддерживает 38 языков; создаёт субтитры | Не умеет расшифровывать речь, надиктованную в микрофон; низкое качество транскрибации на русском языке; низкий уровень конфиденциальности (24 часа все загруженные файлы находятся в общем доступе) | 1,5 минуты | 7 руб./мин. |
Wonder Scribe | Конвертирует аудиофайлы; длина файлов и их количество не ограничены; точность транскрибации – 85%; работает с файлами форматов MP3, MP4, WAV, FLAC, AVI | Знает только русский язык | 10 минут | 300 руб./час. |
Otter Al | Расшифровывает онлайн-встречи (создан для этого); Напрямую подключается к Google Meets, а также Zoom; распознаёт речь нескольких спикеров; экспортирует текст в TXT, DOCX, PDF, а также SRT (субтитры); работает через приложения для iOS, Android, Slack, а также расширение Chrome | Не знает русского языка | базовый пакет на 300 мин./мес.; 30 минут записи за один раз | тариф PRO – 10$/мес.; Busines – 20$/мес.; Enterprise – рассчитывается индивидуально |
REV.AI | Поддерживает 58 языков; транскрибирует в реальном времени на 9 языках; определяет доминирующий язык; определяет ключевые темы в тексте (английский); точность расшифровки 95%; хорошо распознаёт имена, адреса, номера телефонов; соблюдает правила орфографии и пунктуации; делает саммари (английский); общается с пользователем через контекстно-зависимый перевод на 11 языках; экспорт в нескольких форматах; проставляет тайм-коды | 8$ на счёт при регистрации на распознавание | 0,02$/мин. | |
Happy Scribe | Конвертирует аудио и видеоролики в онлайн-режиме; транскрибирует записи; создаёт субтитры; экспортирует результаты транскрибации в любые форматы; ограничений по объёму и количеству файлов нет; | Есть бесплатный тариф для транскрибации и генерации субтитров | Тарифы: Базовый – 10$/мес. за 120 минут+экспорт; Pro 17$/мес. – за 300 мин + экспорт и поддержка; Бизнес – 29$/мес. за 10 часов, совместная работа трёх пользователей | |
Al Transcription | Расшифровывает аудио и видео с точностью 99%; поддерживает 100 языков; можно делать запись внутри платформы; есть мобильное приложение; возможно бесплатно и без ограничений транслировать видеозвонки с качеством картинки 720p и звука 44,1 кГц; платные услуги включают улучшенное качество трансляции, звонки в реальном времени, опцию видеосуфлёра, безлимитное транскрибирование | Есть тариф свободный | Тарифы: Стандарт – 19$/мес.; Профессиональный – 29$/мес.; Бизнес – индивидуальный расчёт | |
Transcribe | Транскрибирует лекции, подкасты, интервью, телефонные переговоры; формирует субтитры для каналов YouTube, Facebook и Vimeo; экспортирует текст в форматах DOC, TXT; можно загружать файлы или надиктовывать текст; 80 языков | Пробная версия | Ручная – 20$/год; Автоматическая – 20$/год + 6$/час |
Платные
Наименование | Что умеет | Стоимость |
Whisper | Автоматическое определение языка (из 100); высокая скорость распознавания; разбивка текста на абзацы; расставляет знаки препинания; синхронизирован с GitHub; можно экспортировать готовый текст. | 36 центов/час |
Al Speech | Расшифровывает лекции, конференции, интервью с высокой точностью и скоростью; работает с форматами mp3, mp4, wav, flv, avi | 3 руб./мин. |
TranscribeMe | Точность расшифровки 99%; соблюдает грамматические правила;подавляет невербальные шумы, что повышает качество исходника; экспортирует результат расшифровки в TXT, Word, HTML, PDF и SRT | 0,07$/мин. |
Deep Scribe | Предназначен для работы в области медицины; транскрибирует речь на медицинские темы; более 50 опций позволяют врачам персонализировать заметки, а также вести приём пациентов с параллельной записью происходящего | Стоимость определяется после регистрации |
Заключение
Некоторые нейросети умеет работать с голосовым вводом и файлами, но большинство всё же обучены только одному из приёмов. Сервисы можно использовать для транскрибации в реальном времени или для конвертации заранее записанного контента – переговоров, совещаний, лекций. Для расшифровывания длительных видеофайлов рекомендуется выбирать платформы, не имеющие ограничений по длине записи.
Многие сервисы обучены расставлять знаки препинания, знают правила орфографии, умеют выделять абзацы и писать заглавные буквы. Но насколько бы не была продвинута нейросеть для расшифровки аудио и видеозаписей, без редактирования использовать их пока нельзя. Ошибки всё равно встречаются, что чаще всего связано с нечёткой записью, слишком шумным фоном, плохой дикций спикера.