Автоматизация расшифровки 10-летнего медиа-архива
Вызов
Клиент располагал обширным архивом аудио и видеозаписей за 10 лет, включая звонки, диктофонные записи и скринкасты. Ценная информация была недоступна для быстрого поиска и анализа.
Проблематика
- Сотни часов неструктурированных медиафайлов
- Отсутствие возможности быстрого поиска информации
- Потеря важных инсайтов из-за недоступности контента
- Высокие временные затраты на ручной поиск
Решение
Разработка ПО Transcribe
- Автоматическая обработка файлов из Google Drive
- Интеграция OpenAI Whisper для расшифровки речи
- Локальная обработка без отправки на внешние серверы
- Система диаризации для определения говорящих
Технические особенности
- Параллельная обработка на нескольких машинах
- Устойчивость к сбоям
- Высокая точность распознавания (>95%)
- Скорость обработки: 3-4 минуты на минуту записи
Результаты
Проект позволил достичь впечатляющих результатов:
- Обработано более 1000 часов медиаконтента
- Создан полностью индексируемый архив
- Экономия около 3000 часов ручной работы
- Мгновенный поиск по ключевым словам
Отзыв клиента
«Transcribe открыл нам доступ к огромному пласту информации, которая раньше была фактически недоступна. Теперь мы можем анализировать тренды, находить важные решения из прошлого и использовать накопленный опыт с максимальной эффективностью»
Результаты
Автоматизация расшифровки более 1000 часов медиаконтента с точностью >95%