Сайт Романа ПарпалакаБлог20241209

Нейросети для подготовки текстовой расшифровки речи

9 декабря 2024 года, 23:22

Когда-то давным-давно мы с Кириллом Борисовым хотели делать подкаст и записали пилотный выпуск о квантовой механике. Результат не очень понравился, и идея продолжения не имела. Иногда я вспоминал об этой записи и думал, что из нее можно сделать что-то полезное, например статью или серию роликов. Не пропадать же добру :)

Сейчас, в эпоху расцвета нейросетей, опять наткнулся на эту запись и решил на ней потестировать инструменты распознавания речи. В результате получилось научно-популярное «интервью» о квантовой механике, не требующее от читателя много знаний за рамками школьной программы. Само интервью читайте по ссылке, а дальше я расскажу, как именно преобразовывал аудиозапись в читаемый текст.

Для распознавания речи онлайн-инструменты не подошли из-за ограничения по длительности аудиозаписи, да и работоспособность их под вопросом. Установил на локальный компьютер нейросеть Whisper. Для работы ей нужен python:

pip install git+https://github.com/openai/whisper.git

Распознавание запускается простой командой, на входе указывается аудиофайл и язык:

whisper путь_к_файлу.mp3 --language Russian

Работает нейросеть довольно долго, я ждал несколько часов. Это в несколько раз больше длительности самой записи. По мере распознавания команда выводит текст в консоль. Также текст записывается в файл.

Результат в целом оказался качественным, лучше чем можно было ожидать. В расшифровке изредка встречались искаженные слова, но это не сильно затруднило последующую обработку.

Нужно понимать, что точную текстовую расшифровку живого разговора читать очень сложно из-за того, что мы по-разному воспринимаем информацию на слух и при чтении. Поэтому вторым этапом была переработка сырой расшифровки в удобный для чтения текст. Требовалось убрать повторы, перебивания, запинки и плохо связанные предложения.

Для переработки текста расшифровки я воспользовался ChatGPT. Из-за ограничения на размер запроса я разбил текст на две части и каждую попросил переработать для удобства чтения. Результат совсем не порадовал: вместо переработанного текста ChatGPT выдавал сжатый пересказ. После нескольких попыток я понял, что ему лучше отправлять фрагменты длиной 5-10 абзацев, иначе у него переполняется «оперативная память», и он начинает удалять из текста существенные моменты.

В итоге последовательность действий получилась такой:

На всю работу я потратил столько же времени, сколько занимает подготовка обычной статьи объемом в одну-две страницы A4. Но у меня получилось целых 11 страниц, и это чистый текст без иллюстраций. Помощь ChatGPT в этом процессе весьма существенна, так как самостоятельно перевести живую речь в читаемый текст сложно и утомительно: при переписывании нужно помнить все темы и вопросы, которые обсуждались и до и после, чтобы выстроить логику обсуждения и не перескакивать между вопросами.

Поделиться

Существует ли идеальный код, или новый разработчик всегда хочет всё переписать? Ctrl

Читайте также

Рубаков
С удовольствием посмотрел интервью Рубакова. Он крутой специалист по космологии — области науки, изучающей крупномасштабное устройство и развитие Вселенной.
2020
Codeium — нейросетевой помощник программиста
Попробовал в работе Codeium — нейросетевой помощник в написании кода.
2024
О старых научных текстах и авторитетах
Михаил Вербицкий написал о том, как изменились научные тексты:
2015
Фотоны
Помимо домашнего чтения, у нас в институте на английском есть доклады.
2007

Комментарии

#1. 9 декабря 2024 года, 23:48. IgorK пишет:
Можно использовать whisper-ctranslate2
Он быстрее работает оригинального whisper

Также можно запускать в Гугл колабе

То как я использую
https://blog.fossko.ru/all/rasshifrovka-audio-i-video/

Оставьте свой комментарий


Формулы на латехе: $$f(x) = x^2-\sqrt{x}$$ превратится в $$f(x) = x^2-\sqrt{x}$$.
Выделение текста: [i]курсивом[/i] или [b]жирным[/b].
Цитату оформляйте так: [q = имя автора]цитата[/q] или [q]еще цитата[/q].
Других команд или HTML-тегов здесь нет.

Записи