Esta escueta guía es un documento personal y práctico que comparto con los pasos que he seguido para instalar Whisper de OpenAI en una máquina virtual (en Virtual Box) corriendo Ubuntu 22.04.
La idea es tener un documento de fácil acceso con todos los comandos necesarios para partiendo de una máquina virtual fresca poder llegar a tener funcionando Whisper, el modelo de OpenAI de reconocimiento, transcripción y traducción de de voz-texto de código libre (licencia MIT).
El modelo de lenguaje que utiliza por defecto es el pequeño (small) y hay los siguientes modelos (de menor a mayor precisión e indicación de VRAM necesaria):
tiny - 1GB
base - 1GB
small - 2GB
medium - 5GB
large - 10GB
Si quieres utilizar un modelo que no sea el pequeño, lo puedes indicar así:
whisper podcast.mp3 --language Spanish --model medium > archivo-medio.txt