Glossary
OpenAI Whisper

¿Qué puede hacer OpenAI Whisper por el reconocimiento robusto del habla?

OpenAI Whisper es un modelo de transcripción y traducción de código abierto. Es compatible con más de 90 idiomas. He aquí lo que puede hacer, cómo utilizarlo y aplicaciones en el mundo real.

Resumen rápido

OpenAI Whisper es un modelo de reconocimiento automático del habla (ASR) de última generación para el reconocimiento multilingüe del habla, la traducción del habla y la identificación de idiomas, que ha sido entrenado con 680.000 horas de audio y 99 idiomas.
El modelo utiliza una arquitectura de codificador-decodificador Transformer para ser más adaptable y rendir mejor en distintos acentos y entornos difíciles, al tiempo que ofrece funciones como marcas de tiempo a nivel de palabra y generación de subtítulos multilingües.
La API de Whisper es fácil de usar e integrar, lo que permite a los desarrolladores utilizar sus funcionalidades para la transcripción y traducción en tiempo real, bajo la permisiva licencia MIT, que admite tanto el uso individual como el comercial.

¿Qué es OpenAI Whisper?

Arquitectura del modelo OpenAI Whisper : Fuente Open AI: https://openai.com/index/whisper/](https://images.ctfassets.net/kftzwdyauwt9/d9c13138-366f-49d3-a1a563abddc1/8acfb590df46923b021026207ff1a438/asr-summary-of-model-architecture-desktop.svg?w=3840&q=90)

OpenAI Whisper es un modelo de reconocimiento de voz (también conocido como ASR) y puede hacer reconocimiento de voz multilingüe. Es uno de los mejores en el ámbito del ASR porque se ha entrenado con 680.000 horas de datos de audio multilingües supervisados y admite 99 idiomas oficialmente. Eso significa que puede manejar un montón de acentos y vocabularios con gran precisión y trabajar sin problemas en diferentes idiomas. Y es uno de los mejores modelos del mercado.

Y también tiene IA generativa, que le ayuda a manejar muchos acentos y vocabularios. OpenAI está realmente ampliando los límites de lo que es posible con el reconocimiento de voz, por lo que es una gran herramienta para desarrolladores y empresas.

Características principales de Whisper

Una de las mejores características del modelo Whisper es la transcripción y traducción multilingüe, más de 90 idiomas. Esto lo convierte en una gran herramienta para casos de uso global, desde la transcripción de conferencias telefónicas internacionales hasta la traducción de medios de comunicación en idiomas extranjeros al inglés. Whisper funciona bien incluso en condiciones difíciles, entornos ruidosos o con múltiples acentos, por lo que es perfecto para su uso en el mundo real.

Además, Whisper puede generar subtítulos multilingües para todos los formatos multimedia, de modo que su contenido sea accesible para una audiencia global. El modelo también puede proporcionar marcas de tiempo a nivel de palabra para que las transcripciones coincidan con el audio, lo que resulta muy útil para la edición de vídeo y la creación de contenidos.

Son muchas funciones estupendas.

Cómo funciona Whisper

Arquitectura de Whisper: Fuente de IA Abierta](https://images.surferseo.art/1c9f09ab-4c6c-4176-a74d-e5eaf225b731.svg+xml)

El modelo Whisper utiliza una arquitectura de red neuronal que ha sido pre-entrenada en una amplia gama de datos de audio para que pueda adaptarse a diferentes estilos de habla. En su núcleo utiliza una arquitectura Transformer codificador-decodificador, un diseño elegante que combina múltiples tareas en un solo modelo, por lo que no tiene que lidiar con la complejidad de los sistemas ASR.

Whisper procesa las entradas de audio a través de una estructura codificador-decodificador y predice el texto a partir de las codificaciones de audio. Durante la descodificación se utilizan tokens específicos para cada tarea, por lo que el modelo puede realizar muchas tareas de PLN.

Estos tokens actúan como especificadores de tareas u objetivos de clasificación, lo que permite a Whisper realizar tareas adicionales como la identificación de idiomas, marcas de tiempo a nivel de frase, transcripción de voz multilingüe y traducción de voz al inglés.

Modelos disponibles y su rendimiento

Whisper dispone de seis modelos, para diferentes casos de uso. Cuatro de ellos son modelos exclusivamente en inglés, cuyo rendimiento suele ser mejor que el de los modelos multilingües. El gran conjunto de datos de entrenamiento (más de 680.000 horas de audio) influye mucho en el rendimiento de los modelos en todos los idiomas.

El rendimiento de los modelos se evalúa mediante las tasas de error de palabras (WER) y de caracteres (CER) de cada idioma. El modelo turbo es una versión más rápida del modelo grande, es más rápido con una pérdida mínima de precisión, un equilibrio entre velocidad y precisión. Esta variedad de modelos le permite elegir el que mejor se adapte a sus necesidades de velocidad y precisión.

La disponibilidad de modelos sólo en inglés y multilingües garantiza que los usuarios puedan elegir el modelo que mejor se adapte a sus necesidades específicas. Tanto si se trata de una transcripción de alta precisión en inglés como de un sólido soporte multilingüe, la variada gama de modelos de Whisper ofrece una solución para cada situación.

Instalación y configuración

Se utilizó Python 3.9.9 y PyTorch 1.10.1 para entrenar y probar el modelo, pero Whisper es compatible con las versiones de Python 3.8 a 3.11. También hay una dependencia de algunos paquetes de Python, concretamente tiktoken de OpenAI para la implementación del tokenizador. Instalar con el siguiente comando:

pip install -U openai-whisper

Un componente importante para la instalación es FFmpeg, una herramienta de línea de comandos necesaria para el procesamiento de audio, que se puede instalar utilizando comandos específicos para el sistema operativo. Además, en caso de que tiktoken no proporcione una rueda pre-construida para tu plataforma, necesitarás instalar Rust también.

Usando Whisper a través de la línea de comandos

Para aquellos que prefieren utilizar Whisper a través de la línea de comandos, el proceso es sencillo. Los usuarios pueden subir archivos de audio a Google Colab para su transcripción sin necesidad de configurar un entorno local. Para transcribir un archivo de audio es necesario cargar el modelo Whisper y utilizar la función de transcripción. La configuración predeterminada emplea el modelo turbo para una transcripción eficiente.

Además, los usuarios pueden especificar el idioma para transcribir el habla no inglesa con la opción -language, o traducir el habla al inglés utilizando el comando -task translate. Whisper admite una gran variedad de formatos de audio, siempre que sean compatibles con FFmpeg. Esta flexibilidad hace de Whisper una herramienta accesible para usuarios con distintos niveles de conocimientos técnicos.

Para transcribir voz en archivos de audio:

whisper audio.flac audio.mp3 audio.wav --model turbo

Para transcribir en un idioma como el japonés:

whisper japanese.wav --language japonés

Añadiendo la tarea translate:

whisper japanese.wav --language Japonés --task traducir

Implementación de Whisper en Python

Implementar Whisper en Python implica configurar un entorno virtual y asegurarse de que se cumplen todas las dependencias. Los usuarios necesitan crear un entorno virtual usando conda e instalar los paquetes necesarios como PyTorch con soporte CUDA. Esta configuración permite a Whisper procesar audio con una ventana deslizante de 30 segundos, realizando predicciones autorregresivas para transcripciones precisas.

La función transcribe puede tomar la ruta del archivo de audio y el idioma como parámetros para transcribir el audio hablado. Whisper también proporciona una función detect_language, que identifica el idioma hablado junto con puntuaciones de probabilidad para cada idioma detectado.

La función de decodificación convierte además los espectrogramas log-Mel en transcripciones, garantizando una experiencia fluida de voz a texto.

importar whisper

model = whisper.load_model("turbo")

# carga el audio y recórtalo para que se ajuste a 30 segundos
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)

# haz el espectrograma log-Mel y muévelo al mismo dispositivo que el modelo
mel = whisper.log_mel_spectrogram(audio, n_mels=model.dims.n_mels).to(model.device)

# detectar el lenguaje hablado
_, probs = model.detect_language(mel)
print(f "Idioma detectado: {max(probs, key=probs.get)}")

# decodificar el audio
options = whisper.DecodingOptions()
resultado = whisper.decode(model, mel, options)

# imprimir el texto reconocido
print(resultado.texto)

Aplicaciones reales de Whisper

Aplicaciones reales del modelo Whisper en el reconocimiento del habla](https://images.surferseo.art/ccb4eb21-c523-417c-be79-bd432fcb2316.png)

El potente reconocimiento del habla de Whisper lo hace útil en muchas aplicaciones del mundo real. Por ejemplo, puede transcribir debates en reuniones, convertir contenidos educativos en texto y subtitular vídeos automáticamente. Las empresas utilizan Whisper para automatizar la transcripción y ahorrar tiempo y recursos.

En los servicios de atención al cliente, Whisper permite la comunicación multilingüe en tiempo real. Las instituciones educativas utilizan Whisper para ayudar en el aprendizaje de idiomas, proporcionando transcripciones y traducciones precisas de las conferencias. En la sanidad, ayuda a transcribir las interacciones con los pacientes, agilizar la documentación y reducir los trámites administrativos.

Este modelo maneja mejor que otros el audio de larga duración, por lo que las transcripciones son claras y precisas. La diarización de locutores (el proceso de identificar y etiquetar a los locutores en una grabación de audio) puede mejorar aún más la claridad de la transcripción en situaciones con varios locutores. La transcripción en tiempo real mejora la experiencia del usuario durante eventos y llamadas en directo, por lo que Whisper es imprescindible en muchas tareas de procesamiento del habla.

Limitaciones y consideraciones

Whisper es genial, pero no perfecto. La API de Whisper no admite la transmisión de archivos de audio y sólo procesa archivos completos. Los archivos de audio de más de 25 MB deben comprimirse o dividirse en partes más pequeñas para procesarlos. El límite de archivos de audio de 30 segundos significa que puede ser necesario dividir grabaciones más largas.

La precisión de la transcripción se ve afectada por una calidad de audio deficiente y demasiado ruido de fondo. Whisper no funciona bien con todos los dialectos y acentos, especialmente con los menos comunes. OpenAI tiene políticas de contenido que restringen los tipos de contenido que se pueden transcribir utilizando la API de Whisper.

La ampliación de Whisper también puede suponer un reto debido a la necesidad de experiencia en IA y a los considerables gastos en hardware.

Alternativas a OpenAI Whisper

Comparación de varios modelos de reconocimiento del habla, incluido Whisper](https://images.surferseo.art/2bd289bc-ba19-4b5c-91dc-49b3a2edd451.png)

A la hora de elegir alternativas a OpenAI Whisper hay que tener en cuenta el caso de uso, el presupuesto y los requisitos del proyecto. Los modelos de código abierto como Kaldi, Wav2vec 2.0, Vosk, SpeechBrain y Nvidia Nemo tienen características y capacidades diferentes. Kaldi es un modelo ASR tradicional que utiliza un canal de varios componentes, lo que puede resultar menos sencillo para el usuario.

Wav2vec 2.0 tiene una arquitectura única con un front-end de extracción de características, pero se entrena con audiolibros. Whisper es preciso, pero más lento que otras alternativas como Wav2vec 2.0, que procesa el audio con mayor rapidez.

Para comparar modelos ASR hay que tener en cuenta la facilidad de uso, la arquitectura del modelo, los datos de entrenamiento y la velocidad de inferencia.

Mejores prácticas para optimizar Whisper

Puede ajustar el modelo a su caso de uso específico y obtener una mayor precisión y velocidad. El ajuste fino puede suponer una gran diferencia si se adapta el modelo al audio y al idioma que se está procesando. Reducir el ruido de fondo es clave para obtener mejores resultados con Whisper.

Ejecutar Whisper en entornos de audio controlados minimizará los errores y las alucinaciones en las transcripciones. Estas buenas prácticas le permitirán sacar el máximo partido de Whisper para todas sus necesidades de procesamiento del habla.

API Whisper de OpenAI

Descripción general de la interfaz de la API OpenAI Whisper](https://images.surferseo.art/1c3605dc-7e17-40b3-9f50-9776fcdbbd2b.png)

La API OpenAI Whisper está diseñada para que sea fácil de usar y pueda integrarse en su software actual. Los desarrolladores pueden utilizar la API para permitir la transcripción en tiempo real y la traducción de idiomas en sus aplicaciones. La API admite varios idiomas para que puedas llegar a una base de usuarios global.

Al ser un proyecto de código abierto, puede modificar y personalizar el software para su caso de uso. El uso de API que aumentan Whisper puede ofrecerle funciones que el modelo original no tiene y, en general, un mejor rendimiento.

Documentación y recursos de soporte disponibles para ponerlo en marcha.

Licencia y condiciones de uso

OpenAI Whisper está licenciado bajo la Licencia MIT. Puede utilizar, modificar y distribuir el código libremente siempre que incluya el aviso de licencia original en todas las copias. Esto significa que puede utilizar Whisper en proyectos personales o comerciales e integrarlo en su propio software propietario sin tener que abrir su propio código.

Sin embargo, debe incluir el aviso de copyright original y el texto de la licencia en cualquier distribución de Whisper para cumplir con la Licencia MIT. No hay garantía, por lo que no puede responsabilizar a los autores de cualquier problema que surja al utilizar el código.

Eso es todo.

Resumen

En resumen OpenAI Whisper es un gran paso adelante en el reconocimiento de voz. Su potencia, soporte multilingüe y flexibilidad lo convierten en una herramienta para muchas aplicaciones, desde la automatización de negocios hasta el apoyo educativo. A pesar de sus limitaciones Whisper es mejor que muchos otros y es una necesidad en el espacio ASR.

A medida que avancemos en las tecnologías de reconocimiento de voz, el enfoque de Whisper y su naturaleza de código abierto permitirán futuros desarrollos. Con Whisper, los desarrolladores y las empresas pueden romper las barreras lingüísticas y comunicarse a escala mundial.

Preguntas más frecuentes

¿Qué es OpenAI Whisper?

OpenAI Whisper es un potente modelo de reconocimiento automático del habla (ASR) compatible con 99 idiomas, lo que lo hace muy versátil para aplicaciones multilingües. Su robusto diseño mejora la precisión en las tareas de reconocimiento del habla.

¿Cómo gestiona Whisper los entornos ruidosos?

Whisper gestiona eficazmente los entornos ruidosos manteniendo una alta precisión, lo que lo hace adecuado para diversas aplicaciones del mundo real a pesar de las condiciones difíciles.

¿Cuáles son las limitaciones de Whisper?

Whisper se enfrenta a limitaciones como la imposibilidad de transmitir archivos de audio, una duración máxima del audio de 30 segundos y una menor precisión cuando se trata de audio de mala calidad o dialectos poco comunes. Estos factores pueden afectar significativamente a su usabilidad en diversos contextos.

¿Cómo puede optimizarse Whisper para mejorar su rendimiento?

Para optimizar Whisper y mejorar su rendimiento, es esencial ajustar el modelo a los requisitos específicos de la aplicación y minimizar el ruido de fondo, estrategias que pueden mejorar enormemente su precisión y velocidad de procesamiento.

¿Qué condiciones de licencia se aplican a Whisper?

Whisper está licenciado bajo la licencia MIT, que permite a los usuarios utilizar, modificar y distribuir libremente el código con restricciones mínimas. Esto ofrece una gran flexibilidad tanto a desarrolladores como a usuarios. Arquitectura del modelo Whisper de OpenAI](https://assets.zilliz.com/Open_AI_Whisper_Model_Architecture_02ef363410.svg)

Contenido

Comienza Gratis, Escala Fácilmente

Prueba la base de datos vectorial completamente gestionada construida para tus aplicaciones GenAI.

Prueba Zilliz Cloud Gratis

Comparte este artículo

Recursos relacionados

Evaluación del rendimiento de Milvus 2023

En este tutorial aprenderá sobre los datos no estructurados basados en texto.

Un sistema de gestión de datos vectoriales a medida

La indexación plana y los índices de archivos invertidos (IVF) son dos estrategias básicas de indexación.

Modelos de coherencia para bases de datos vectoriales

Descubrir la coherencia de los datos y los cuatro modelos de coherencia que ofrece Milvus.