Нейросети для подготовки текстовой расшифровки речи
9 декабря 2024 года, 23:22
Когда-то давным-давно мы с Кириллом Борисовым хотели делать подкаст и записали пилотный выпуск о квантовой механике. Результат не очень понравился, и идея продолжения не имела. Иногда я вспоминал об этой записи и думал, что из нее можно сделать что-то полезное, например статью или серию роликов. Не пропадать же добру :)
Сейчас, в эпоху расцвета нейросетей, опять наткнулся на эту запись и решил на ней потестировать инструменты распознавания речи. В результате получилось научно-популярное «интервью» о квантовой механике, не требующее от читателя много знаний за рамками школьной программы. Само интервью читайте по ссылке, а дальше я расскажу, как именно преобразовывал аудиозапись в читаемый текст.
Для распознавания речи онлайн-инструменты не подошли из-за ограничения по длительности аудиозаписи, да и работоспособность их под вопросом. Установил на локальный компьютер нейросеть Whisper. Для работы ей нужен python:
pip install git+https://github.com/openai/whisper.git
Распознавание запускается простой командой, на входе указывается аудиофайл и язык:
whisper путь_к_файлу.mp3 --language Russian
Работает нейросеть довольно долго, я ждал несколько часов. Это в несколько раз больше длительности самой записи. По мере распознавания команда выводит текст в консоль. Также текст записывается в файл.
Результат в целом оказался качественным, лучше чем можно было ожидать. В расшифровке изредка встречались искаженные слова, но это не сильно затруднило последующую обработку.
Нужно понимать, что точную текстовую расшифровку живого разговора читать очень сложно из-за того, что мы по-разному воспринимаем информацию на слух и при чтении. Поэтому вторым этапом была переработка сырой расшифровки в удобный для чтения текст. Требовалось убрать повторы, перебивания, запинки и плохо связанные предложения.
Для переработки текста расшифровки я воспользовался ChatGPT. Из-за ограничения на размер запроса я разбил текст на две части и каждую попросил переработать для удобства чтения. Результат совсем не порадовал: вместо переработанного текста ChatGPT выдавал сжатый пересказ. После нескольких попыток я понял, что ему лучше отправлять фрагменты длиной 5-10 абзацев, иначе у него переполняется «оперативная память», и он начинает удалять из текста существенные моменты.
В итоге последовательность действий получилась такой:
- запустить Whisper и получить сырую расшифровку;
- пройтись по всему тексту и дописать, кто какую реплику говорил;
- копировать главы или фрагменты с обсуждением одной темы в ChatGPT для преобразования разговора в читаемый диалог;
- прочитать и отредактировать текст, переписав и дополнив непонятные места,
нарисовать иллюстрации.
На всю работу я потратил столько же времени, сколько занимает подготовка обычной статьи объемом в одну-две страницы A4. Но у меня получилось целых 11 страниц, и это чистый текст без иллюстраций. Помощь ChatGPT в этом процессе весьма существенна, так как самостоятельно перевести живую речь в читаемый текст сложно и утомительно: при переписывании нужно помнить все темы и вопросы, которые обсуждались и до и после, чтобы выстроить логику обсуждения и не перескакивать между вопросами.
Комментарии
Он быстрее работает оригинального whisper
Также можно запускать в Гугл колабе
То как я использую
Оставьте свой комментарий