Glossary
Large Language Models (LLMs)

Qu’est-ce qu’un grand modèle de langage ? Une référence pour les développeurs

Qu’est-ce qu’un grand modèle de langage ? Une référence pour les développeurs

Un grand modèle de langage (LLM) est une intelligence artificielle (IA) capable d’exécuter diverses tâches de traitement automatique du langage naturel (NLP), notamment la traduction, les questions-réponses conversationnelles, ainsi que la classification et la génération de mots. La désignation « grand » correspond au nombre étendu de paramètres au sein de son architecture, les LLM les plus connus affichant des milliards de paramètres.

Un LLM incarne un programme d’IA entraîné sur de vastes jeux de données afin de comprendre les subtilités du langage humain. Le modèle prédit le mot suivant le plus probable en analysant d’énormes quantités de données, souvent issues d’Internet ou de bases de données d’entreprise propriétaires. Par conséquent, les LLM ont suscité une attention et une adoption considérables dans diverses applications NLP.

Les LLM fonctionnent sur la base du deep learning, un sous-ensemble du machine learning rendu possible par les réseaux neuronaux, en particulier les modèles transformer. Le deep learning facilite l’analyse probabiliste des données non structurées, permettant aux LLM de discerner de manière autonome les relations nuancées entre les caractères, les mots et les phrases. En outre, les LLM subissent un entraînement supplémentaire via le fine-tuning ou le prompt-tuning, les adaptant à des tâches telles que l’interprétation de questions ou la traduction de texte. Ces avancées de l’IA représentent un bond en avant dans la compréhension et la génération de contenu textuel. En exploitant de grands jeux de données et des techniques sophistiquées de deep learning, les LLM peuvent comprendre et produire des réponses semblables à celles d’un humain rapidement et avec précision. Leur importance s’étend à divers domaines, grâce à leur capacité à saisir des nuances linguistiques complexes et à générer du contenu contextuellement pertinent.

En outre, l’émergence des modèles de fondation, un terme inventé pour désigner des LLM exceptionnellement grands et influents, souligne l’impact profond de ces technologies. Ces modèles fondamentaux constituent le socle de progrès supplémentaires et de spécialisations dans des applications spécifiques, consolidant leur statut de pierre angulaire des innovations portées par l’IA.

Fonctionnalités clés des LLM et leur fonctionnement

La plupart des LLM actuels reposent sur des architectures transformer et utilisent un mécanisme d’auto-attention pour capturer les dépendances entre les mots, ce qui leur permet de comprendre les contextes. Ils utilisent également la génération autorégressive pour produire du texte à partir de mots précédemment générés, appelés tokens.

Décomposons tout cela pour mieux comprendre le fonctionnement d’un grand modèle de langage.

Architecture basée sur les transformers

Les machines capables de comprendre du texte utilisent généralement un modèle basé sur des réseaux neuronaux récurrents ou RNN. Ce modèle traite un mot à la fois et capture récursivement la relation entre les mots, ou « tokens », dans une séquence. Cependant, il a souvent besoin de se souvenir du début de la séquence lorsqu’il en atteint la fin. C’est là qu’intervient l’architecture basée sur les transformers.

Contrairement aux RNN, les réseaux neuronaux transformer qui sont au cœur de la plupart des modèles de traitement du langage utilisent l’auto-attention pour capturer les relations.

Mécanisme d’attention

Contrairement aux réseaux neuronaux récurrents qui voient une phrase ou un paragraphe un mot à la fois, le mécanisme d’attention permet au modèle de voir toute la phrase simultanément. Cela permet au modèle de mieux comprendre le contexte. La plupart des modèles de traitement du langage suivent l’architecture transformer qui utilise le mécanisme d’attention. Certains LLM combinent ces deux éléments avec la génération autorégressive.

Génération autorégressive

Un modèle transformer traite l’entrée textuelle en la tokenisant en une séquence de mots. Ensuite, les tokens sont encodés sous forme de nombres et transformés en embeddings. Considérez les embeddings comme des représentations dans un espace vectoriel de ces tokens et de leurs informations syntaxiques et sémantiques.

Ensuite, un encodeur transforme les embeddings d’entrée en un vecteur de contexte en analysant l’entrée et en créant des états cachés qui capturent sa signification et son contexte. Le vecteur de contexte est ce que le décodeur du transformer utilise pour générer la sortie. Le décodeur permet la génération autorégressive, où le modèle utilise les tokens précédemment générés pour produire des sorties séquentielles. Ce processus est répété pour produire le paragraphe entier, avec la phrase initiale comme point de départ. C’est ainsi que fonctionne un grand modèle de langage.

Avantages des grands modèles de langage

Les grands modèles de langage offrent plusieurs avantages grâce à leur polyvalence pour traiter divers problèmes et présenter les informations de manière claire et conviviale. Applications diverses : Ces modèles sont utiles dans de nombreux domaines, notamment la traduction linguistique, la complétion de phrases, l’analyse des sentiments, les réponses aux questions, les calculs mathématiques, et au-delà.

Amélioration continue : Les performances des grands modèles de langage font l’objet d’une amélioration continue grâce à l’ajout de davantage de données et de paramètres. Ce processus d’apprentissage itératif se traduit par des capacités améliorées au fil du temps. De plus, les grands modèles de langage présentent un « apprentissage en contexte », ce qui leur permet de tirer des enseignements des prompts sans nécessiter de paramètres supplémentaires. Ce mécanisme d’apprentissage continu contribue à leur développement et à leur perfectionnement constants.

Apprentissage rapide : Les grands modèles de langage démontrent des capacités d’apprentissage rapide, en particulier leur aptitude à l’apprentissage en contexte. En exploitant les paramètres et les ressources existants, ils acquièrent rapidement de nouvelles connaissances et informations sans nécessiter de vastes données d’entraînement. Cette agilité leur permet d’apprendre efficacement avec un minimum d’exemples.

Limites et défis des grands modèles de langage

Les grands modèles de langage, bien qu’ils semblent comprendre le sens et répondre avec précision, sont fondamentalement des outils technologiques et sont donc confrontés à divers défis.

Hallucinations : Ces modèles peuvent générer des sorties fausses ou s’écarter de l’intention de l’utilisateur, un phénomène connu sous le nom d’« hallucination ». En raison de leur nature prédictive axée sur la correction syntaxique, ils peuvent mal interpréter le sens humain, ce qui entraîne des réponses inexactes ou dénuées de sens.

Préoccupations en matière de sécurité : Une gestion inadéquate des grands modèles de langage présente des risques de sécurité importants, notamment des atteintes à la vie privée, la participation à des escroqueries par phishing et la génération de spam. Des utilisateurs malveillants peuvent exploiter ces modèles pour propager de la désinformation ou manipuler du contenu, causant potentiellement des dommages à grande échelle.

Biais dans les sorties : Les biais présents dans les données d’entraînement influencent directement les sorties générées par les modèles de langage. Des jeux de données limités ou homogènes peuvent entraîner des sorties manquant de diversité et d’inclusivité, perpétuant les biais existants dans les réponses du modèle.

Problèmes de consentement : Les grands modèles de langage utilisent souvent des jeux de données obtenus sans consentement explicite, ce qui soulève des préoccupations éthiques concernant la propriété des données et les droits de propriété intellectuelle. La collecte non autorisée de données peut entraîner des violations du droit d’auteur et de la vie privée, exposant les utilisateurs à des responsabilités juridiques.

Défis de mise à l’échelle : La mise à l’échelle et la maintenance des grands modèles de langage peuvent être ardues, exigeant beaucoup de temps, de ressources et d’expertise technique. Garantir des performances et une fiabilité optimales dans divers cas d’utilisation nécessite une infrastructure robuste et une gestion méticuleuse.

Déploiement complexe : Le déploiement de grands modèles de langage nécessite une infrastructure sophistiquée, notamment des cadres d’apprentissage profond, des modèles transformer et des systèmes distribués. Une expertise technique est essentielle pour mettre en œuvre et maintenir avec succès ces systèmes complexes.

À quoi servent les LLM ?

Comme mentionné précédemment, un LLM peut être utilisé de diverses manières dans de nombreux secteurs, notamment les suivants :

Des chatbots conversationnels capables de répondre aux questions fréquemment posées 24/7 pour un meilleur service client
Génération de texte pour des articles, des blogs et des descriptions de produits, en particulier pour les boutiques de commerce électronique
Traduction de contenu dans différentes langues afin d’atteindre un public plus large
Analyse des sentiments pour analyser les retours des clients issus des avis sur les produits, des publications sur les réseaux sociaux et des e-mails, et pour comprendre l’intention de différents éléments de contenu.
Résumer et réécrire des blocs de texte
Catégoriser et classer du texte pour une analyse et un traitement plus efficaces

Certains des grands modèles de langage les plus courants incluent les suivants :

BERT

Développé par Google, Bidirectional Encoder Representations from Transformers (BERT) est un LLM célèbre doté de deux tailles de modèle. Alors que le modèle de base BERT compte 110 millions de paramètres, le grand modèle BERT en compte 340 millions. Comme d’autres LLM, il peut comprendre les contextes et produire des réponses significatives. BERT peut également être utilisé pour générer des embeddings pour du texte.

GPT-3

Generative Pretrained Transformer 3, ou GPT-3, est sans doute le LLM le plus populaire, en partie grâce à ChatGPT, qui est basé sur GPT-3.5 et GPT-4. Les chiffres, dans ce cas, indiquent la version du modèle, GPT-3 étant la troisième. C’est l’un des plus grands LLM. OpenAI l’a développé et il compte 175 milliards de paramètres.

RoBERTa

RoBERTa signifie Robustly Optimized BERT Approach. C’est une version améliorée du modèle BERT de Google développée par Meta AI (anciennement Facebook Artificial Intelligence Research, ou FAIR). Grâce à un nombre de paramètres plus élevé, RoBERTa obtient de meilleurs résultats sur de nombreuses tâches linguistiques. Tout comme BERT, RoBERTa possède également deux tailles de modèle. La version de base compte 123 millions de paramètres, tandis que la grande version en compte 354 millions.

BLOOM

Les LLM open source ont permis aux développeurs, aux entreprises et aux chercheurs de créer plus facilement des applications utilisant ces modèles gratuitement. Un exemple d’un tel LLM est BLOOM. Il s’agit du premier LLM ayant impliqué la plus importante collaboration de chercheurs en IA dans un projet et il est entraîné en toute transparence. Il a été entraîné sur 1,6 téraoctet de données, compte 176 milliards de paramètres et peut générer des résultats dans 13 langages de programmation et 46 langues naturelles.

T5

Un autre LLM développé par Google est T5, ou Text-to-Text Transfer Transformer, qui est entraîné sur diverses tâches linguistiques. Sa version de base compte 220 millions de paramètres, tandis que la grande version compte 770 millions de paramètres.

Foire aux questions sur les LLM

Comment fonctionnent les grands modèles de langage ?

Les grands modèles de langage sont basés sur l’architecture transformer et utilisent l’auto-attention pour capturer les relations entre les mots ou « tokens ». Ils calculent une somme pondérée pour une entrée et déterminent comment les tokens de l’entrée sont liés les uns aux autres. Les scores d’attention sont ensuite utilisés pour calculer les relations entre les tokens, et la génération autorégressive est utilisée pour produire la sortie en fonction d’une entrée donnée. La plupart des LLM sont entraînés sur d’immenses quantités de données textuelles disponibles sur Internet, mais vous pouvez également leur fournir des données d’entreprise propriétaires afin de mieux servir vos clients.

Quelle est la différence entre le traitement automatique du langage naturel et les grands modèles de langage ?

Le traitement automatique du langage naturel (NLP) est un domaine de l’intelligence artificielle qui se concentre sur le traitement et la compréhension du langage humain. Parallèlement, un grand modèle de langage désigne un modèle au sein du NLP qui peut effectuer diverses tâches liées au langage, comme répondre à des questions, résumer du texte et traduire des phrases d’une langue à une autre.

Comment créer un grand modèle de langage ?

Créer un grand modèle de langage à partir de zéro implique de l’entraîner sur un immense corpus de données avec des milliards de paramètres. Cela signifie que vous devez disposer d’une infrastructure avec plusieurs GPU prenant en charge le calcul parallèle et distribué. Sa mise en place peut être coûteuse, c’est pourquoi la plupart des chercheurs commencent à créer un LLM avec une architecture de LLM existante et ses hyperparamètres, comme GPT-3. Ensuite, ils ajustent les hyperparamètres, le jeu de données et l’architecture pour créer un nouveau LLM.

Qu’est-ce que l’IA générative par rapport aux grands modèles de langage ?

« IA générative » est un terme générique qui désigne un ensemble d’algorithmes capables de générer dynamiquement une sortie une fois entraînés. La caractéristique distinctive de l’IA générative est sa capacité à produire des formes de sortie complexes, comme des images, du code, des poèmes, etc. Parmi les exemples d’IA générative figurent DALL-E, ChatGPT, Bard, Midjourney et MusicLM.

Un grand modèle de langage est une IA générative. Contrairement à DALL-E, ChatGPT et d’autres outils d’IA générative, les grands modèles de langage sont entraînés sur des données textuelles et produisent de nouveaux textes pouvant être utilisés à diverses fins.

Contenu

Commencez gratuitement, évoluez facilement

Essayez la base de données vectorielle entièrement managée conçue pour vos applications GenAI.

Essayer Zilliz Cloud gratuitement

Partager cet article

Ressources connexes

DiskANN : une solution ANNS basée sur un disque

avec un rappel élevé et un QPS élevé sur un ensemble de données à l'échelle du milliard

Recherche de similarité vectorielle avec Milvus

Apprendre à construire un moteur de recherche par similarité sémantique

Du texte à l'image : Principes de base de CLIP

Comment récupérer des images à partir de textes, ou des services de conversion de texte en image.