Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- Преобразование речи в текст с помощью нейросети — Транскрибация
- - необходим #DataScientist или #Engineer с базовыми знаниями #python и желательно #jupyter
- - переходим в репозиторий Whisper
- (https://github.com/openai/whisper)- следуем инструкциям по установке в README.md
- - модель `medium`работает достаточно хорошо, выбираем её, примерная скорость работы 1ч30минут на 1ч аудио
- - для скорости желательно настроить torch что бы он использовал GPU с CUDA, а не CPU
- - модель мультиязычна — неважно на каком языке аудио (input) и в какой язык переводить (output)
- - подготавливаем звуковой файл из видео с помощью утилиты ffmpeg
- Для всего видео
- ffmpeg -i "video.mp4" -q:a 0 -map a "audio.mp3"
- Для определённого отрезка
- ключ -ss временная метка начала отрезка
- ключ -t продолжительность отрезка
- ffmpeg -i "video.mp4" -ss 00:00:00 -t 00:00:30.0 -q:a 0 -map a "audio.mp3"
- - используем минимальный python код (можно в Jupyter-блокноте)
- python
- import os
- import numpy as np
- import tensorflow
- import torch
- import pandas as pd
- import whisper
- import torchaudio
- from tqdm.notebook import tqdm
- # ❗️Настроить torch так что бы считалось на видеокарте, не 'cpu'
- DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
- print(DEVICE)
- # загрузка модели первый раз долгая
- model = whisper.load_model("medium")
- print(
- f"Model is {'multilingual' if model.is_multilingual else 'English-only'} "
- f"and has {sum(np.prod(p.shape) for p in model.parameters()):,} parameters."
- )
- # указываем имя к звуковому файлу
- file_name = 'audio_file_name'
- # запускаем работу модели
- # не забываем точно указать целевой язык в котором должен получиться текст, ru, en или другие
- # аргумент fp16 по усмотрению
- # аргумент verbose покажет таймкоды
- result = model.transcribe(f'{file_name}.mp3', language='ru', fp16=False, verbose=True)
- # результат запишется в файл
- with open(f'{file_name}.md', 'w', encoding='utf8') as file:
- file.write(result["text"])
- - результат работы лучше чему у нейросети Vosk (https://proglib.io/p/reshaem-zadachu-perevoda-russkoy-rechi-v-tekst-s-pomoshchyu-python-i-biblioteki-vosk-2022-06-30) (на 20 мин видео 2ч редактуры вместо 1ч для текста от Whisper)
- - результат работы не идеальный, по этому его нужно проверять и редактировать
Advertisement
Add Comment
Please, Sign In to add comment