Le guide du modèle embed-multilingual-v3.0

Tous les modèles
Cohère / embed-multilingual-v3.0

Cohère / embed-multilingual-v3.0

AI Model Milvus Integrated

Tâche: Intégration

Modalité: Texte

Métrique de similarité: Tous (normalisés)

Licence: Propriétaire

Dimensions: 1024

Tokens d'entrée max: 512

Prix: 0,10 $ / 1 million de jetons

Introduction à embed-multilingual-v3.0

embed-multilingual-v3.0 est un modèle d'intégration de haute performance conçu pour les textes multilingues et fait partie de la famille de modèles Embed V3 récemment publiée par Cohere. Il prend en charge plus de 100 langues et peut être utilisé pour effectuer des recherches au sein d'une langue (par exemple, une recherche avec une requête en français sur des documents français) et entre les langues (par exemple, une recherche avec une requête en chinois sur des documents finlandais). Il est idéal pour la [recherche sémantique] (https://zilliz.com/glossary/semantic-search) multilingue, la [génération augmentée de recherche] (https://zilliz.com/learn/Retrieval-Augmented-Generation) (RAG), la classification de textes et le regroupement de documents.

Comparaison de tous les modèles d'intégration de la série Embed V3.

| | | | | | ----------------------------- | :------------ : | :----------------------------------: | :-------------------------------------: | | Nom du modèle | Dimensions | MTEB Performance (plus c'est élevé, mieux c'est) | BEIR Performance (plus c'est élevé, mieux c'est) | | embed-english-v3.0 | 1024 | 64.5 | 55.9 | | embed-english-light-3.0 | 384 | 62.0 | 52.0 | embed-multilingual-v3.0 | embed-multilingual-v3.0 | 1024 | 64.0 | 54.6 | embed-multilingual-light-3.0 | 384 | 62.0 | 52.0 | embed-multilingual-light-3.0 | embed-multilingual-light-v3.0 | 384 | 60.1 | 50.9 | | embed-multilingual-v2.0 | 1024 | 64.0 | 54.6 | | embed-multilingual-v2.0 | 768 | 58.5 | 47.1 |

MTEB : vaste ensemble de données pour l'évaluation des recherches, de la classification et du regroupement (56 ensembles de données)
BEIR : ensemble de données axé sur les recherches hors domaine (14 ensembles de données)

Comment créer des embeddings vectoriels avec embed-multilingual-v3.0

Il y a deux façons principales de créer des embeddings vectoriels :

PyMilvus : le SDK Python pour Milvus qui intègre de manière transparente le modèle embed-multilingual-v3.0.
Cohere python SDK : le SDK python proposé par Cohere.

Une fois les ancrages vectoriels générés, ils peuvent être stockés dans Zilliz Cloud (un service de base de données vectorielles entièrement géré par Milvus) et utilisés pour la recherche de similarité sémantique. Voici les quatre étapes clés :

Sign up pour un compte Zilliz Cloud gratuit.
Configurer un cluster sans serveur et obtenir le Point de terminaison public et la clé API.
Créer une collection de vecteurs et insérer vos embeddings vectoriels.
Exécutez une recherche sémantique sur les embeddings stockés.

Générer des embeddings vectoriels via PyMilvus et les insérer dans Zilliz Cloud pour une recherche sémantique.

from pymilvus.model.dense import CohereEmbeddingFunction

COHERE_API_KEY = "your-cohere-api-key"
ef = CohereEmbeddingFunction("embed-multilingual-v3.0", api_key=COHERE_API_KEY)

docs = [
   "L'intelligence artificielle a été fondée en tant que discipline universitaire en 1956",
   "Alan Turing a été la première personne à mener des recherches substantielles sur l'intelligence artificielle,
   "Né à Maida Vale, Londres, Turing a grandi dans le sud de l'Angleterre."
]

# Générer des embeddings pour les documents
docs_embeddings = ef.encode_documents(docs)

queries = ["Quand l'intelligence artificielle a-t-elle été fondée ?
          "Où est né Alan Turing ?"]

# Génère des embeddings pour les requêtes
query_embeddings = ef.encode_queries(queries)

# Se connecter au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
    client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
    nom_de_la_collection=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings) :
    client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
    
results = client.search(
    nom_de_la_collection=COLLECTION,
    data=query_embeddings,
    niveau de cohérence="Fort",
    output_fields=["text"])

Pour plus d'informations, consultez notre [documentation PyMilvus Embedding Model] (https://milvus.io/docs/embeddings.md).

Générer des embeddings vectoriels via Cohere Python SDK et les insérer dans Zilliz Cloud pour la recherche sémantique.

import cohere
from pymilvus import MilvusClient

COHERE_API_KEY = "votre-cohere-api-key"
co = cohere.Client(COHERE_API_KEY)

docs = [
   "L'intelligence artificielle a été fondée en tant que discipline universitaire en 1956",
   "Alan Turing a été la première personne à mener des recherches substantielles sur l'intelligence artificielle,
   "Né à Maida Vale, Londres, Turing a grandi dans le sud de l'Angleterre."
]

docs_embeddings = co.embed(
    texts=docs, model="embed-multilingual-v3.0", input_type="search_document"
).embeddings

queries = ["Quand l'intelligence artificielle a-t-elle été fondée ?
          "Où est né Alan Turing ?"]

query_embeddings = co.embed(
    texts=docs, model="embed-english-v3.0", input_type="search_query"
).embeddings

# Connexion au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
    client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
    nom_de_la_collection=COLLECTION,
    dimension=1024,
    auto_id=True)

pour doc, embedding dans zip(docs, docs_embeddings) :
    client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
    
results = client.search(
    nom_de_la_collection=COLLECTION,
    data=query_embeddings,
    niveau de cohérence="Fort",
    output_fields=["text"])

Pour plus d'informations, consultez [Cohere documentation] (https://docs.cohere.com/docs/cohere-embed).

Contenu

Workflows IA fluides

Des embeddings à la recherche IA évolutive - Zilliz Cloud vous permet de stocker, indexer et récupérer des embeddings avec une vitesse et une efficacité inégalées.

Essayer Zilliz Cloud gratuitement

Estimez rapidement votre coût d'embedding