Нейросети для подготовки текстовой расшифровки речи

9 декабря 2024 года, 23:22

Когда-то давным-давно мы с Кириллом Борисовым хотели делать подкаст и записали пилотный выпуск о квантовой механике. Результат не очень понравился, и идея продолжения не имела. Иногда я вспоминал об этой записи и думал, что из нее можно сделать что-то полезное, например статью или серию роликов. Не пропадать же добру :)

Сейчас, в эпоху расцвета нейросетей, опять наткнулся на эту запись и решил на ней потестировать инструменты распознавания речи. В результате получилось научно-популярное «интервью» о квантовой механике, не требующее от читателя много знаний за рамками школьной программы. Само интервью читайте по ссылке, а дальше я расскажу, как именно преобразовывал аудиозапись в читаемый текст.

Для распознавания речи онлайн-инструменты не подошли из-за ограничения по длительности аудиозаписи, да и работоспособность их под вопросом. Установил на локальный компьютер нейросеть Whisper. Для работы ей нужен python:

pip install git+https://github.com/openai/whisper.git

Распознавание запускается простой командой, на входе указывается аудиофайл и язык:

whisper путь_к_файлу.mp3 --language Russian

Работает нейросеть довольно долго, я ждал несколько часов. Это в несколько раз больше длительности самой записи. По мере распознавания команда выводит текст в консоль. Также текст записывается в файл.

Результат в целом оказался качественным, лучше чем можно было ожидать. В расшифровке изредка встречались искаженные слова, но это не сильно затруднило последующую обработку.

Нужно понимать, что точную текстовую расшифровку живого разговора читать очень сложно из-за того, что мы по-разному воспринимаем информацию на слух и при чтении. Поэтому вторым этапом была переработка сырой расшифровки в удобный для чтения текст. Требовалось убрать повторы, перебивания, запинки и плохо связанные предложения.

Для переработки текста расшифровки я воспользовался ChatGPT. Из-за ограничения на размер запроса я разбил текст на две части и каждую попросил переработать для удобства чтения. Результат совсем не порадовал: вместо переработанного текста ChatGPT выдавал сжатый пересказ. После нескольких попыток я понял, что ему лучше отправлять фрагменты длиной 5-10 абзацев, иначе у него переполняется «оперативная память» (то есть не хватает контекстного окна), и он начинает удалять из текста существенные моменты.

В итоге последовательность действий получилась такой:

запустить Whisper и получить сырую расшифровку;
пройтись по всему тексту и дописать, кто какую реплику говорил;
копировать главы или фрагменты с обсуждением одной темы в ChatGPT для преобразования разговора в читаемый диалог;
прочитать и отредактировать текст, переписав и дополнив непонятные места, нарисовать иллюстрации.

На всю работу я потратил столько же времени, сколько занимает подготовка обычной статьи объемом в одну-две страницы A4. Но у меня получилось целых 11 страниц, и это чистый текст без иллюстраций. Помощь ChatGPT в этом процессе весьма существенна, так как самостоятельно перевести живую речь в читаемый текст сложно и утомительно: при переписывании нужно помнить все темы и вопросы, которые обсуждались и до и после, чтобы выстроить логику обсуждения и не перескакивать между вопросами.

искусственный интеллект

Нейросети для подготовки текстовой расшифровки речи

Читайте также

Комментарии

Оставьте свой комментарий