Glossary
OpenAI Whisper

Que peut faire OpenAI Whisper pour une reconnaissance vocale robuste ?

OpenAI Whisper est un modèle de transcription et de traduction open source. Il prend en charge plus de 90 langues. Voici ce qu'il peut faire, comment l'utiliser et des applications concrètes.

Résumé rapide

OpenAI Whisper est un modèle de reconnaissance automatique de la parole (ASR) de pointe pour la reconnaissance de la parole multilingue, la traduction de la parole et l'identification de la langue. Il a été entraîné sur 680 000 heures d'audio, 99 langues.
Le modèle utilise une architecture codeur-décodeur Transformer pour être plus adaptable et performant à travers différents accents et environnements difficiles, tout en offrant des fonctionnalités telles que les horodatages au niveau des mots et la génération de sous-titres multilingues.
L'API de Whisper est conviviale et facilement intégrable, permettant aux développeurs d'utiliser ses fonctionnalités pour la transcription et la traduction en temps réel, sous la licence MIT, qui supporte à la fois l'utilisation individuelle et commerciale.

Qu'est-ce que OpenAI Whisper ?

Architecture du modèle OpenAI Whisper : Source Open AI : https://openai.com/index/whisper/

OpenAI Whisper est un modèle de reconnaissance vocale (également connu sous le nom de ASR) et peut effectuer une reconnaissance vocale multilingue. C'est l'un des meilleurs modèles dans le domaine de la reconnaissance vocale, car il a été entraîné sur 680 000 heures de données audio multilingues supervisées et prend officiellement en charge 99 langues. Cela signifie qu'il peut gérer une multitude d'accents et de vocabulaires avec une grande précision et travailler de manière transparente dans différentes langues. Il s'agit en outre de l'un des meilleurs modèles disponibles sur le marché.

Il dispose également d'une IA générative qui l'aide à gérer de nombreux accents et vocabulaires. OpenAI repousse vraiment les limites de ce qui est possible avec la reconnaissance vocale, c'est donc un outil formidable pour les développeurs et les entreprises.

Caractéristiques principales de Whisper

L'une des meilleures caractéristiques du modèle Whisper est la transcription et la traduction multilingues, dans plus de 90 langues. Cela en fait un outil idéal pour les cas d'utilisation à l'échelle mondiale, de la transcription de conférences téléphoniques internationales à la traduction de médias en langue étrangère vers l'anglais. Whisper fonctionne même dans des conditions difficiles, dans des environnements bruyants ou avec des accents multiples, il est donc parfait pour une utilisation dans le monde réel.

De plus, Whisper peut générer des sous-titres multilingues pour tous les formats de médias, afin que votre contenu soit accessible à un public mondial. Le modèle peut également fournir des horodatages au niveau des mots afin que les transcriptions correspondent à l'audio, ce qui est très utile pour l'édition vidéo et la création de contenu.

Voilà donc un grand nombre de fonctionnalités intéressantes.

Comment fonctionne Whisper

Architecture de Whisper : Source Open AI

Le modèle Whisper utilise une architecture de réseau neuronal qui a été pré-entraînée sur une large gamme de données audio afin qu'il puisse s'adapter à différents styles d'expression. A la base, il utilise une architecture encoder-décoder Transformer, une conception fantaisiste qui combine plusieurs tâches en un seul modèle, de sorte que vous n'avez pas à faire face à la complexité des systèmes ASR.

Lorsque vous utilisez Whisper, il traite les entrées audio à travers une structure codeur-décodeur, prédit le texte à partir des codages audio. Des jetons spécifiques à certaines tâches sont utilisés lors du décodage, ce qui permet au modèle d'effectuer de nombreuses tâches NLP.

Ces jetons agissent comme des spécificateurs de tâches ou des cibles de classification, permettant à Whisper de gérer des tâches supplémentaires telles que l'identification de la langue, l'horodatage au niveau de la phrase, la transcription multilingue de la parole et la traduction de la parole vers l'anglais.

Modèles disponibles et leurs performances

Whisper dispose de six modèles, pour différents cas d'utilisation. Quatre d'entre eux sont des modèles en anglais uniquement, qui sont généralement plus performants que les modèles multilingues. Le grand ensemble de données d'entraînement (plus de 680 000 heures d'audio) a un impact important sur la performance des modèles dans les différentes langues.

Les performances des modèles sont évaluées à l'aide des taux d'erreurs de mots (WER) et de caractères (CER) pour chaque langue. Le modèle turbo est une version plus rapide du grand modèle, il est plus rapide avec une perte de précision minimale, un équilibre entre la vitesse et la précision. Cette variété de modèles vous permet de choisir celui qui correspond à vos besoins en termes de vitesse et de précision.

La disponibilité de modèles en anglais uniquement et multilingues permet aux utilisateurs de choisir le modèle qui répond le mieux à leurs besoins spécifiques. Qu'il s'agisse d'une transcription anglaise de haute précision ou d'un support multilingue robuste, la gamme diversifiée de modèles Whisper offre une solution pour chaque scénario.

Installation et configuration

Python 3.9.9 et PyTorch 1.10.1 ont été utilisés pour entraîner et tester le modèle, mais Whisper est compatible avec les versions 3.8 à 3.11 de Python. Il y a également une dépendance de quelques paquets Python, notamment OpenAI's tiktoken pour l'implémentation du tokenizer. L'installation se fait à l'aide de la commande suivante :

pip install -U openai-whisper

Un composant important pour l'installation est FFmpeg, un outil en ligne de commande nécessaire pour le traitement audio, qui peut être installé en utilisant des commandes spécifiques au système d'exploitation. De plus, au cas où tiktoken ne fournirait pas de roue pré-construite pour votre plateforme, vous devrez également installer Rust.

Utiliser Whisper en ligne de commande

Pour ceux qui préfèrent utiliser Whisper via la ligne de commande, le processus est simple. Les utilisateurs peuvent télécharger des fichiers audio vers Google Colab pour la transcription sans avoir besoin de configurer un environnement local. Pour transcrire un fichier audio, il suffit de charger le modèle Whisper et d'utiliser la fonction de transcription. La configuration par défaut utilise le modèle turbo pour une transcription efficace.

En outre, les utilisateurs peuvent spécifier la langue pour la transcription de discours non anglais avec l'option -language, ou traduire le discours en anglais en utilisant la commande -task translate. Whisper supporte une variété de formats audio, à condition qu'ils soient compatibles avec FFmpeg. Cette flexibilité fait de Whisper un outil accessible aux utilisateurs ayant différents niveaux d'expertise technique.

Pour transcrire la parole dans des fichiers audio :

whisper audio.flac audio.mp3 audio.wav --model turbo

Transcrire dans une langue comme le japonais :

whisper japanese.wav --language Japanese

Ajout de la tâche translate :

whisper japanese.wav --language Japanese --task translate

Implémentation de Whisper en Python

L'implémentation de Whisper en Python implique la mise en place d'un environnement virtuel et l'assurance que toutes les dépendances sont respectées. Les utilisateurs doivent créer un environnement virtuel en utilisant conda et installer les paquets nécessaires comme PyTorch avec le support CUDA. Cette configuration permet à Whisper de traiter l'audio avec une fenêtre glissante de 30 secondes, en effectuant des prédictions autorégressives pour des transcriptions précises.

La fonction de transcription peut prendre le chemin du fichier audio et la langue comme paramètres pour transcrire la parole. Whisper fournit également une fonction detect_language, qui identifie la langue parlée avec des scores de probabilité pour chaque langue détectée.

La fonction de décodage convertit les spectrogrammes log-Mel en transcriptions, garantissant ainsi une expérience de conversion de la parole au texte.

import whisper

model = whisper.load_model("turbo")

# charger l'audio et le découper pour qu'il tienne sur 30 secondes
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)

# créer un spectrogramme log-Mel et le déplacer sur le même appareil que le modèle
mel = whisper.log_mel_spectrogram(audio, n_mels=model.dims.n_mels).to(model.device)

# détecter la langue parlée
_, probs = model.detect_language(mel)
print(f "Langue détectée : {max(probs, key=probs.get)}")

# décodage de l'audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# imprimer le texte reconnu
print(result.text)

Applications de Whisper dans le monde réel

Applications réelles du modèle Whisper en reconnaissance vocale

La puissance de la reconnaissance vocale de Whisper signifie qu'il est utile dans de nombreuses applications du monde réel. Par exemple, il peut transcrire des discussions de réunion, convertir du contenu éducatif en texte et sous-titrer automatiquement des vidéos. Les entreprises utilisent Whisper pour automatiser la transcription et économiser du temps et des ressources.

Dans les scénarios de service à la clientèle, Whisper permet une communication multilingue en temps réel. Les établissements d'enseignement utilisent Whisper pour faciliter l'apprentissage des langues en fournissant des transcriptions et des traductions précises des cours. Dans le secteur de la santé, Whisper permet de transcrire les interactions avec les patients, de rationaliser la documentation et de réduire les tâches administratives.

Le modèle est plus performant que d'autres pour traiter les documents audio de longue durée, de sorte que les transcriptions sont claires et précises. La diarisation des locuteurs (processus d'identification et d'étiquetage des locuteurs dans un enregistrement audio) peut encore améliorer la clarté de la transcription dans les scénarios à plusieurs locuteurs. La transcription en temps réel signifie une meilleure expérience pour l'utilisateur lors d'événements et d'appels en direct, Whisper est donc indispensable pour de nombreuses tâches de traitement de la parole.

Limites et considérations

Whisper est excellent mais pas parfait. L'API de Whisper ne supporte pas le streaming de fichiers audio et ne traite que des fichiers complets. Les fichiers audio de plus de 25 Mo doivent être compressés ou divisés en plus petites parties pour être traités. La limite de 30 secondes pour les fichiers audio signifie que vous devrez peut-être diviser des enregistrements plus longs.

La précision de la transcription est affectée par une mauvaise qualité audio et trop de bruit de fond. Whisper ne fonctionne pas bien avec tous les dialectes et accents, en particulier les moins courants. OpenAI a des politiques de contenu qui limitent les types de contenu qui peuvent être transcrits en utilisant l'API Whisper.

La mise à l'échelle de Whisper peut également s'avérer difficile en raison de la nécessité de disposer d'une expertise en matière d'IA et de dépenses matérielles substantielles.

Alternatives à OpenAI Whisper

Comparaison de divers modèles de reconnaissance vocale, y compris Whisper

Lorsque vous choisissez des alternatives à OpenAI Whisper, vous devez prendre en compte le cas d'utilisation, le budget et les exigences du projet. Les modèles open-source tels que Kaldi, Wav2vec 2.0, Vosk, SpeechBrain et Nvidia Nemo ont des caractéristiques et des capacités différentes. Kaldi est un modèle ASR traditionnel qui utilise un pipeline composé de plusieurs éléments, ce qui peut être moins convivial.

Wav2vec 2.0 a une architecture unique avec un frontal d'extraction de caractéristiques, mais il est formé sur des livres audio. Whisper est précis mais plus lent que des alternatives comme Wav2vec 2.0 qui traite l'audio plus rapidement.

La comparaison des modèles ASR implique la prise en compte de la facilité d'utilisation, de l'architecture du modèle, des données d'entraînement et de la vitesse d'inférence.

Meilleures pratiques pour optimiser Whisper

Vous pouvez affiner le modèle pour votre cas d'utilisation spécifique et obtenir une meilleure précision et une plus grande vitesse. Le réglage fin peut faire une grande différence en adaptant le modèle à l'audio et à la langue traités. La réduction du bruit de fond est essentielle pour obtenir de meilleurs résultats avec Whisper.

L'exécution de Whisper dans des environnements audio contrôlés minimisera les erreurs et les hallucinations dans les transcriptions. Ces bonnes pratiques vous permettront de tirer le meilleur parti de Whisper pour tous vos besoins de traitement de la parole.

OpenAI Whisper API

Une vue d'ensemble de l'interface API Whisper de l'OpenAI

L'API Whisper d'OpenAI est conçue pour être facile à utiliser afin que vous puissiez l'intégrer dans votre logiciel existant. Les développeurs peuvent utiliser l'API pour permettre la transcription en temps réel et la traduction linguistique dans leurs applications. L'API prend en charge plusieurs langues, ce qui vous permet d'atteindre une base d'utilisateurs mondiale.

En tant que projet open source, vous pouvez modifier et personnaliser le logiciel en fonction de vos besoins. L'utilisation d'API qui augmentent Whisper peut vous donner des fonctionnalités que le modèle original n'a pas et une meilleure performance globale.

Documentation et ressources de support disponibles pour vous aider à démarrer.

Licences et conditions d'utilisation

OpenAI Whisper est sous licence MIT. Vous pouvez utiliser, modifier et distribuer le code librement tant que vous incluez la notice de la licence originale dans toutes les copies. Cela signifie que vous pouvez utiliser Whisper dans des projets personnels ou commerciaux et l'intégrer dans votre propre logiciel propriétaire sans avoir à ouvrir votre propre code.

Cependant, vous devez inclure l'avis de copyright original et le texte de la licence dans toute distribution de Whisper pour vous conformer à la licence MIT. Il n'y a pas de garantie, vous ne pouvez donc pas tenir les auteurs pour responsables des problèmes qui pourraient survenir lors de l'utilisation du code.

Voilà, c'est tout.

Résumé

En résumé, OpenAI Whisper est un grand pas en avant dans le domaine de la reconnaissance vocale. Sa puissance, son support multilingue et sa flexibilité en font un outil pour de nombreuses applications, de l'automatisation des affaires au support éducatif. Malgré ses limites, Whisper est meilleur que beaucoup d'autres et constitue un outil indispensable dans le domaine de la reconnaissance vocale.

Au fur et à mesure que nous avançons dans les technologies de reconnaissance vocale, l'approche de Whisper et sa nature open source permettront de futurs développements. En utilisant Whisper, les développeurs et les entreprises peuvent franchir les barrières linguistiques et communiquer à l'échelle mondiale.

Foire aux questions

Qu'est-ce que OpenAI Whisper ?

OpenAI Whisper est un puissant modèle de reconnaissance automatique de la parole (ASR) qui prend en charge 99 langues, ce qui le rend très polyvalent pour les applications multilingues. Sa conception robuste améliore la précision des tâches de reconnaissance vocale.

Comment Whisper gère-t-il les environnements bruyants ?

Whisper gère efficacement les environnements bruyants en maintenant une grande précision, ce qui le rend adapté à diverses applications du monde réel malgré des conditions difficiles.

Quelles sont les limites de Whisper ?

Whisper est confronté à des limitations telles que l'impossibilité de diffuser des fichiers audio en continu, une durée maximale de 30 secondes et une précision réduite en cas de mauvaise qualité audio ou de dialectes peu courants. Ces facteurs peuvent affecter de manière significative son utilisation dans des contextes variés.

Comment optimiser Whisper pour de meilleures performances ?

Pour optimiser les performances de Whisper, il est essentiel d'adapter le modèle aux exigences spécifiques de l'application et de minimiser les bruits de fond afin d'améliorer considérablement la précision et la vitesse de traitement.

Quelles sont les conditions de licence applicables à Whisper ?

Whisper est sous licence MIT, ce qui permet aux utilisateurs d'utiliser, de modifier et de distribuer librement le code avec un minimum de restrictions. Cela offre une grande flexibilité pour les développeurs et les utilisateurs. Architecture du modèle OpenAI Whisper

Contenu

Commencez gratuitement, évoluez facilement

Essayez la base de données vectorielle entièrement managée conçue pour vos applications GenAI.

Essayer Zilliz Cloud gratuitement

Partager cet article

Ressources connexes

Évaluation des performances de Milvus 2023

Ce tutoriel vous permettra d'en savoir plus sur les données textuelles non structurées.

Un système de gestion des données vectorielles conçu à cet effet

L'indexation plate et l'indexation par fichier inversé (IVF) sont deux stratégies d'indexation de base.

Comprendre les modèles de cohérence pour les bases de données vectorielles

Découverte de la cohérence des données et des quatre modèles de cohérence proposés par Milvus.