Le guide du multilinguisme-e5-grand modèle

Tous les modèles
Microsoft / multilingual-e5-large

Microsoft / multilingual-e5-large

AI Model Milvus Integrated

Tâche: Intégration

Modalité: Texte

Métrique de similarité: Tous (normalisés)

Licence: Mit

Dimensions: 1024

Tokens d'entrée max: 512

Prix: Gratuit

Introduction au modèle d'intégration multilingue-e5-large

Conçu pour les documents multilingues ; prend en charge plus de 100 langues ; idéal pour la recherche d'informations multilingues et les tâches de [recherche sémantique] (https://zilliz.com/glossary/semantic-search).

Le modèle "multilingue-e5-large" est un modèle d'intégration de texte de pointe développé par Microsoft et basé sur l'architecture XLM-RoBERTa-large. Avec sa structure à 24 couches et 560 millions de paramètres, le modèle multilingual-e5-large génère des enchâssements à 1024 dimensions et supporte 100 langues, offrant ainsi une performance robuste même dans des contextes multilingues.

Entraîné sur un milliard de paires de textes faiblement supervisés et affiné sur des ensembles de données spécifiques, le modèle excelle dans les tâches de recherche d'informations multilingues et de recherche sémantique. Il traite les entrées textuelles préfixées par "query :" ou "passage :" pour créer des enchâssements qui reflètent avec précision le contenu sémantique. Ce modèle démontre des performances supérieures dans les benchmarks multilingues, surpassant les modèles plus petits et les méthodes traditionnelles, ce qui le rend idéal pour l'analyse de textes multilingues, le regroupement et les comparaisons de similarité.

Comment créer des embeddings vectoriels avec le modèle multilingual-e5-large

Il y a deux façons principales de créer des encastrements vectoriels avec le modèle multilingual-e5-large :

PyMilvus : le SDK Python pour Milvus qui s'intègre de manière transparente au modèle multilingual-e5-large.
Bibliothèque SentenceTransformer : la bibliothèque Python de sentence-transformer.

Une fois que les embeddings vectoriels sont générés, ils peuvent être stockés dans Zilliz Cloud (un service de base de données vectorielles entièrement géré par Milvus) et utilisés pour la [recherche de similarité sémantique] (https://zilliz.com/glossary/semantic-search). Voici les quatre étapes clés :

Sign up pour un compte Zilliz Cloud gratuit.
Configurer un cluster sans serveur et obtenir le Point de terminaison public et la clé API.
Créer une collection de vecteurs et insérer vos embeddings vectoriels.
Exécutez une recherche sémantique sur les embeddings stockés.

Générer des embeddings vectoriels via PyMilvus et les insérer dans Zilliz Cloud pour une recherche sémantique.

from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
from pymilvus import MilvusClient

ef = SentenceTransformerEmbeddingFunction("intfloat/multilingual-e5-large")
    
docs = [
   "passage : L'intelligence artificielle a été fondée en tant que discipline académique en 1956",
   "passage : Alan Turing war die erste Person, die umfassende Forschungen im Bereich der künstlichen Intelligenz durchgeführt hat.", "passage : Alan Turing est la première personne à avoir réalisé des recherches approfondies dans le domaine de l'intelligence artificielle.",
   "passage : 图灵出生在伦敦的梅达维尔，他在英格兰南部长大。".
]
    
# Générer des embeddings pour les documents
docs_embeddings = ef(docs)
    
queries = ["query : Quand l'intelligence artificielle a-t-elle été fondée ?
           "requête : Wo wurde Alan Turing geboren ?"]
               
# Générer des embeddings pour les requêtes
query_embeddings = ef(queries)

# Se connecter au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
    client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
    nom_de_la_collection=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings) :
    client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
    
results = client.search(
    nom_de_la_collection=COLLECTION,
    data=query_embeddings,
    niveau de cohérence="Fort",
    output_fields=["text"])

Pour plus d'informations, consultez notre [documentation sur le modèle d'intégration PyMilvus] (https://milvus.io/docs/embeddings.md).

Générer des embeddings vectoriels via SentenceTransformer et les insérer dans Zilliz Cloud pour la recherche sémantique.

from sentence_transformers import SentenceTransformer
from pymilvus import MilvusClient

model = SentenceTransformer("intfloat/multilingual-e5-large")

docs = [
   "passage : L'intelligence artificielle a été fondée en tant que discipline académique en 1956",
   "passage : Alan Turing war die erste Person, die umfassende Forschungen im Bereich der künstlichen Intelligenz durchgeführt hat.", "passage : Alan Turing est la première personne à avoir réalisé des recherches approfondies dans le domaine de l'intelligence artificielle.",
   "passage : 图灵出生在伦敦的梅达维尔，他在英格兰南部长大。".
]
# Générer des embeddings pour les documents
docs_embeddings = model.encode(docs, normalize_embeddings=True)

queries = ["query : Quand l'intelligence artificielle a-t-elle été fondée ?
           "requête : Wo wurde Alan Turing geboren ?" ]
# Générer des embeddings pour les requêtes
query_embeddings = model.encode(queries, normalize_embeddings=True)

# Se connecter au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
    client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
    nom_de_la_collection=COLLECTION,
    dimension=1024,
    auto_id=True)

pour doc, embedding dans zip(docs, docs_embeddings) :
    client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
    
results = client.search(
    nom_de_la_collection=COLLECTION,
    data=query_embeddings,
    niveau de cohérence="Fort",
    output_fields=["text"])

Pour plus d'informations, reportez-vous à [SentenceTransformer documentation] (https://sbert.net/docs/sentence_transformer/pretrained_models.html).

Contenu

Workflows IA fluides

Des embeddings à la recherche IA évolutive - Zilliz Cloud vous permet de stocker, indexer et récupérer des embeddings avec une vitesse et une efficacité inégalées.

Essayer Zilliz Cloud gratuitement

Estimez rapidement votre coût d'embedding

Introduction au modèle d'intégration multilingue-e5-large

Comment créer des embeddings vectoriels avec le modèle multilingual-e5-large

Générer des embeddings vectoriels via PyMilvus et les insérer dans Zilliz Cloud pour une recherche sémantique.

Générer des embeddings vectoriels via SentenceTransformer et les insérer dans Zilliz Cloud pour la recherche sémantique.

Contenu

Workflows IA fluides

Ressources connexes

Évaluer votre modèle d'intégration

Formation de votre propre modèle d'intégration de texte

Créer des applications d'IA avec Retrieval Augmented Generation (RAG)