Instalar Whisper de Open Ai en Ubuntu

Fotografía de OpenAi

Esta escueta guía es un documento personal y práctico que comparto con los pasos que he seguido para instalar Whisper de OpenAI en una máquina virtual (en Virtual Box) corriendo Ubuntu 22.04.

La idea es tener un documento de fácil acceso con todos los comandos necesarios para partiendo de una máquina virtual fresca poder llegar a tener funcionando Whisper, el modelo de OpenAI de reconocimiento, transcripción y traducción de de voz-texto de código libre (licencia MIT).

Fuente: https://github.com/openai/whisper

Instalación

Preparar el equipo:

Vamos a necesitar tener pip instalado. Empezamos con ello:

sudo apt update

sudo apt install python3-pip

Para ver si se ha instalado pip correctamente ejecutaremos:

pip3 --version

Instalar Whisper de OpenAI

Para instalar Whisper solo necesitaremos ejecutar el siguiente comando:

pip install -U openai-whisper

Extras necesarios

Vamos a necesitar instalar ffmpeg y Rust. Lo hacemos así:

Instalar ffmpeg:

sudo apt update && sudo apt install ffmpeg

Instalar rust:

Puede que haga falta instalar curl en la máquina:

sudo apt install curl

Ahora ya podemos instalar Rust:

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

Al terminar añadimos cargo al $PATH:

source "$HOME/.cargo/env"

Luego instalamos las siguientes herramientas vía pip:

pip install setuptools-rust

Utilizar Whisper:

Con esto instalado, abrimos una terminal en la carpeta donde tengamos el archivo de audio que queramos transcribir y entonces:

Así primero te procesará el audio y luego te empezará a imprimir en terminal el resultado. Si quieres enviarlo a un archivo de texto directamente:

whisper podcast.mp3 --language Spanish > archivo.txt

Si lo que quieres es que traduzca el audio al inglés entonces:

whisper podcast.mp3 --language Spanish --task translate > archivo-traducido.txt

El modelo de lenguaje que utiliza por defecto es el pequeño (small) y hay los siguientes modelos (de menor a mayor precisión e indicación de VRAM necesaria):

tiny - 1GB

base - 1GB

small - 2GB

medium - 5GB

large - 10GB

Si quieres utilizar un modelo que no sea el pequeño, lo puedes indicar así:

whisper podcast.mp3 --language Spanish --model medium > archivo-medio.txt

Containing:Instalar Whisper de Open Ai en Ubuntu

Instalación

Utilizar Whisper:

Published:2 yr. ago Wednesday, October 11th, 2023

Author:

z6MktRPL...Kzm9Wv9o

First Version

Open in Mintter app