Microsoft / multilingual-e5-large
Milvus Integrated
Tâche: Intégration
Modalité: Texte
Métrique de similarité: Tous (normalisés)
Licence: Mit
Dimensions: 1024
Tokens d'entrée max: 512
Prix: Gratuit
Introduction au modèle d'intégration multilingue-e5-large
- Conçu pour les documents multilingues ; prend en charge plus de 100 langues ; idéal pour la recherche d'informations multilingues et les tâches de [recherche sémantique] (https://zilliz.com/glossary/semantic-search).
Le modèle "multilingue-e5-large" est un modèle d'intégration de texte de pointe développé par Microsoft et basé sur l'architecture XLM-RoBERTa-large. Avec sa structure à 24 couches et 560 millions de paramètres, le modèle multilingual-e5-large génère des enchâssements à 1024 dimensions et supporte 100 langues, offrant ainsi une performance robuste même dans des contextes multilingues.
Entraîné sur un milliard de paires de textes faiblement supervisés et affiné sur des ensembles de données spécifiques, le modèle excelle dans les tâches de recherche d'informations multilingues et de recherche sémantique. Il traite les entrées textuelles préfixées par "query :" ou "passage :" pour créer des enchâssements qui reflètent avec précision le contenu sémantique. Ce modèle démontre des performances supérieures dans les benchmarks multilingues, surpassant les modèles plus petits et les méthodes traditionnelles, ce qui le rend idéal pour l'analyse de textes multilingues, le regroupement et les comparaisons de similarité.
Comment créer des embeddings vectoriels avec le modèle multilingual-e5-large
Il y a deux façons principales de créer des encastrements vectoriels avec le modèle multilingual-e5-large :
- PyMilvus : le SDK Python pour Milvus qui s'intègre de manière transparente au modèle
multilingual-e5-large. - Bibliothèque SentenceTransformer : la bibliothèque Python de
sentence-transformer.
Une fois que les embeddings vectoriels sont générés, ils peuvent être stockés dans Zilliz Cloud (un service de base de données vectorielles entièrement géré par Milvus) et utilisés pour la [recherche de similarité sémantique] (https://zilliz.com/glossary/semantic-search). Voici les quatre étapes clés :
- Sign up pour un compte Zilliz Cloud gratuit.
- Configurer un cluster sans serveur et obtenir le Point de terminaison public et la clé API.
- Créer une collection de vecteurs et insérer vos embeddings vectoriels.
- Exécutez une recherche sémantique sur les embeddings stockés.
Générer des embeddings vectoriels via PyMilvus et les insérer dans Zilliz Cloud pour une recherche sémantique.
from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
from pymilvus import MilvusClient
ef = SentenceTransformerEmbeddingFunction("intfloat/multilingual-e5-large")
docs = [
"passage : L'intelligence artificielle a été fondée en tant que discipline académique en 1956",
"passage : Alan Turing war die erste Person, die umfassende Forschungen im Bereich der künstlichen Intelligenz durchgeführt hat.", "passage : Alan Turing est la première personne à avoir réalisé des recherches approfondies dans le domaine de l'intelligence artificielle.",
"passage : 图灵出生在伦敦的梅达维尔,他在英格兰南部长大。".
]
# Générer des embeddings pour les documents
docs_embeddings = ef(docs)
queries = ["query : Quand l'intelligence artificielle a-t-elle été fondée ?
"requête : Wo wurde Alan Turing geboren ?"]
# Générer des embeddings pour les requêtes
query_embeddings = ef(queries)
# Se connecter au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
nom_de_la_collection=COLLECTION,
dimension=ef.dim,
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings) :
client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
results = client.search(
nom_de_la_collection=COLLECTION,
data=query_embeddings,
niveau de cohérence="Fort",
output_fields=["text"])
Pour plus d'informations, consultez notre [documentation sur le modèle d'intégration PyMilvus] (https://milvus.io/docs/embeddings.md).
Générer des embeddings vectoriels via SentenceTransformer et les insérer dans Zilliz Cloud pour la recherche sémantique.
from sentence_transformers import SentenceTransformer
from pymilvus import MilvusClient
model = SentenceTransformer("intfloat/multilingual-e5-large")
docs = [
"passage : L'intelligence artificielle a été fondée en tant que discipline académique en 1956",
"passage : Alan Turing war die erste Person, die umfassende Forschungen im Bereich der künstlichen Intelligenz durchgeführt hat.", "passage : Alan Turing est la première personne à avoir réalisé des recherches approfondies dans le domaine de l'intelligence artificielle.",
"passage : 图灵出生在伦敦的梅达维尔,他在英格兰南部长大。".
]
# Générer des embeddings pour les documents
docs_embeddings = model.encode(docs, normalize_embeddings=True)
queries = ["query : Quand l'intelligence artificielle a-t-elle été fondée ?
"requête : Wo wurde Alan Turing geboren ?" ]
# Générer des embeddings pour les requêtes
query_embeddings = model.encode(queries, normalize_embeddings=True)
# Se connecter au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
nom_de_la_collection=COLLECTION,
dimension=1024,
auto_id=True)
pour doc, embedding dans zip(docs, docs_embeddings) :
client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
results = client.search(
nom_de_la_collection=COLLECTION,
data=query_embeddings,
niveau de cohérence="Fort",
output_fields=["text"])
Pour plus d'informations, reportez-vous à [SentenceTransformer documentation] (https://sbert.net/docs/sentence_transformer/pretrained_models.html).
- Introduction au modèle d'intégration multilingue-e5-large
- Comment créer des embeddings vectoriels avec le modèle multilingual-e5-large
Contenu
Workflows IA fluides
Des embeddings à la recherche IA évolutive - Zilliz Cloud vous permet de stocker, indexer et récupérer des embeddings avec une vitesse et une efficacité inégalées.
Essayer Zilliz Cloud gratuitement

