Транскрибация для чайников

Преобразование речи в текст с помощью нейросети — Транскрибация

- необходим #DataScientist или #Engineer с базовыми знаниями #python и желательно #jupyter
- переходим в репозиторий Whisper
 (https://github.com/openai/whisper)- следуем инструкциям по установке в README.md
- модель `medium`работает достаточно хорошо, выбираем её, примерная скорость работы 1ч30минут на 1ч аудио
- для скорости желательно настроить torch что бы он использовал GPU с CUDA, а не CPU
- модель мультиязычна — неважно на каком языке аудио (input) и в какой язык переводить (output)
- подготавливаем звуковой файл из видео с помощью утилиты ffmpeg

Для всего видео
ffmpeg -i "video.mp4" -q:a 0 -map a "audio.mp3"

Для определённого отрезка

ключ -ss временная метка начала отрезка
ключ -t продолжительность отрезка
ffmpeg -i "video.mp4" -ss 00:00:00 -t 00:00:30.0 -q:a 0 -map a "audio.mp3"

- используем минимальный python код (можно в Jupyter-блокноте)

python
import os
import numpy as np
import tensorflow

import torch
import pandas as pd
import whisper
import torchaudio

from tqdm.notebook import tqdm

# ❗️Настроить torch так что бы считалось на видеокарте, не 'cpu'
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
print(DEVICE)

# загрузка модели первый раз долгая
model = whisper.load_model("medium")
print(
    f"Model is {'multilingual' if model.is_multilingual else 'English-only'} "
    f"and has {sum(np.prod(p.shape) for p in model.parameters()):,} parameters."
)

# указываем имя к звуковому файлу
file_name = 'audio_file_name'

# запускаем работу модели
# не забываем точно указать целевой язык в котором должен получиться текст, ru, en или другие
# аргумент fp16 по усмотрению
# аргумент verbose покажет таймкоды
result = model.transcribe(f'{file_name}.mp3', language='ru', fp16=False, verbose=True)

# результат запишется в файл
with open(f'{file_name}.md', 'w', encoding='utf8') as file:
    file.write(result["text"])

- результат работы лучше чему у нейросети Vosk (https://proglib.io/p/reshaem-zadachu-perevoda-russkoy-rechi-v-tekst-s-pomoshchyu-python-i-biblioteki-vosk-2022-06-30) (на 20 мин видео 2ч редактуры вместо 1ч для текста от Whisper)
- результат работы не идеальный, по этому его нужно проверять и редактировать