Instalar Whisper de Open Ai en Ubuntu

Fotografía de OpenAi
Esta escueta guía es un documento personal y práctico que comparto con los pasos que he seguido para instalar Whisper de OpenAI en una máquina virtual (en Virtual Box) corriendo Ubuntu 22.04.
La idea es tener un documento de fácil acceso con todos los comandos necesarios para partiendo de una máquina virtual fresca poder llegar a tener funcionando Whisper, el modelo de OpenAI de reconocimiento, transcripción y traducción de de voz-texto de código libre (licencia MIT).

Instalación

Preparar el equipo:
Vamos a necesitar tener pip instalado. Empezamos con ello:
sudo apt update
sudo apt install python3-pip
Para ver si se ha instalado pip correctamente ejecutaremos:
pip3 --version
Instalar Whisper de OpenAI
Para instalar Whisper solo necesitaremos ejecutar el siguiente comando:
pip install -U openai-whisper
Extras necesarios
Vamos a necesitar instalar ffmpeg y Rust. Lo hacemos así:
Instalar ffmpeg:
sudo apt update && sudo apt install ffmpeg
Instalar rust:
Puede que haga falta instalar curl en la máquina:
sudo apt install curl
Ahora ya podemos instalar Rust:
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
Al terminar añadimos cargo al $PATH:
source "$HOME/.cargo/env"
Luego instalamos las siguientes herramientas vía pip:
pip install setuptools-rust

Utilizar Whisper:

Con esto instalado, abrimos una terminal en la carpeta donde tengamos el archivo de audio que queramos transcribir y entonces:
Así primero te procesará el audio y luego te empezará a imprimir en terminal el resultado. Si quieres enviarlo a un archivo de texto directamente:
whisper podcast.mp3 --language Spanish > archivo.txt
Si lo que quieres es que traduzca el audio al inglés entonces:
whisper podcast.mp3 --language Spanish --task translate > archivo-traducido.txt
El modelo de lenguaje que utiliza por defecto es el pequeño (small) y hay los siguientes modelos (de menor a mayor precisión e indicación de VRAM necesaria):
    tiny - 1GB
    base - 1GB
    small - 2GB
    medium - 5GB
    large - 10GB
Si quieres utilizar un modelo que no sea el pequeño, lo puedes indicar así:
whisper podcast.mp3 --language Spanish --model medium > archivo-medio.txt