La guida al modello embed-multilingue-v3.0

Tutti i modelli
Cohere / embed-multilingual-v3.0

Cohere / embed-multilingual-v3.0

AI Model Milvus Integrated

Compito: Incorporazione

Modalità: Testo

Metrica di Similarità: Qualsiasi (normalizzato)

Licenza: Proprietario

Dimensioni: 1024

Token di Input Massimi: 512

Prezzo: $0,10 / 1M di gettoni

Introduzione a embed-multilingual-v3.0

embed-multilingual-v3.0 è un modello di incorporamento ad alte prestazioni, adattato per testi multilingue, e fa parte della famiglia di modelli Embed V3, recentemente rilasciata da Cohere. Supporta oltre 100 lingue e può essere utilizzato per effettuare ricerche all'interno di una lingua (ad esempio, ricerche con una query francese su documenti francesi) e tra le lingue (ad esempio, ricerche con una query cinese su documenti finlandesi). È ideale per la ricerca semantica, retrieval augmented generation (RAG), la classificazione dei testi e il clustering dei documenti.

Confronto tra tutti i modelli di embedding della serie Embed V3.


Nome del modello	Dimensioni	Prestazioni MTEB (più alte sono migliori)	Prestazioni BEIR (più alte sono migliori)
embed-english-v3.0	1024	64.5	55.9
embed-english-light-3.0	384	62.0	52.0
embed-multilingual-v3.0	1024	64.0	54.6
embed-multilingual-light-v3.0	384	60.1	50.9
embed-multilingual-v2.0	768	58,5	47,1

MTEB: ampio set di dati per la valutazione dei recuperi, della classificazione e del clustering (56 set di dati).
BEIR: set di dati incentrato sui recuperi fuori dal dominio (14 set di dati)

Come creare embeddings vettoriali con embed-multilingual-v3.0

Esistono due modi principali per creare embeddings vettoriali:

PyMilvus: l'SDK Python per Milvus che integra perfettamente il modello embed-multilingual-v3.0.
Cohere python SDK: l'SDK python offerto da Cohere.

Una volta generate le incorporazioni vettoriali, queste possono essere archiviate in Zilliz Cloud (un servizio di database vettoriale completamente gestito da Milvus) e utilizzate per la ricerca di similarità semantica. Ecco i quattro passaggi chiave:

Iscriviti per un account Zilliz Cloud gratuito.
Configurare un cluster serverless e ottenere il Public Endpoint and API Key.
Creare una collezione di vettori e inserire i propri embeddings vettoriali.
Eseguire una ricerca semantica sugli embeddings memorizzati.

Generare embeddings vettoriali tramite PyMilvus e inserirli in Zilliz Cloud per la ricerca semantica.

da pymilvus.model.dense import CohereEmbeddingFunction

COHERE_API_KEY = "your-cohere-api-key"
ef = CohereEmbeddingFunction("embed-multilingual-v3.0", api_key=COHERE_API_KEY)

docs = [
   "L'intelligenza artificiale è stata fondata come disciplina accademica nel 1956",
   "Alan Turing è stato il primo a condurre una ricerca sostanziale sull'intelligenza artificiale",
   "Nato a Maida Vale, Londra, Turing è cresciuto nel sud dell'Inghilterra".
]

# Generare le incorporazioni per i documenti
docs_embeddings = ef.encode_documents(docs)

query = ["Quando è stata fondata l'intelligenza artificiale",
          "Dove è nato Alan Turing?"]

# Generare embeddings per le query
query_embeddings = ef.encode_queries(queries)

# Connettersi a Zilliz Cloud con l'endpoint pubblico e la chiave API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLEZIONE = "documenti"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(nome_raccolta=COLLEZIONE)
client.create_collection(
    nome_collezione=COLLEZIONE,
    dimensione=ef.dim,
    auto_id=True)

per doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
risultati = client.search(
    nome_collezione=COLLEZIONE,
    dati=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Per ulteriori informazioni, consultare la nostra [documentazione sul modello di inclusione di PyMilvus] (https://milvus.io/docs/embeddings.md).

Generare embeddings vettoriali tramite Cohere Python SDK e inserirli in Zilliz Cloud per la ricerca semantica

importare cohere
da pymilvus import MilvusClient

COHERE_API_KEY = "la tua-cohere-api-key"
co = cohere.Client(COHERE_API_KEY)

docs = [
   "L'intelligenza artificiale è stata fondata come disciplina accademica nel 1956",
   "Alan Turing è stato il primo a condurre una ricerca sostanziale sull'intelligenza artificiale",
   "Nato a Maida Vale, Londra, Turing è cresciuto nel sud dell'Inghilterra".
]

docs_embeddings = co.embed(
    texts=docs, model="embed-multilingual-v3.0", input_type="search_document"
).embeddings

queries = ["Quando è stata fondata l'intelligenza artificiale",
          "Dove è nato Alan Turing?"]

query_embeddings = co.embed(
    texts=docs, model="embed-english-v3.0", input_type="search_query"
).embeddings

# Connettersi a Zilliz Cloud con l'endpoint pubblico e la chiave API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLEZIONE = "documenti"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(nome_raccolta=COLLEZIONE)
client.create_collection(
    nome_collezione=COLLEZIONE,
    dimensione=1024,
    auto_id=True)

per doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
risultati = client.search(
    nome_collezione=COLLEZIONE,
    dati=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Per ulteriori informazioni, consultare Documentazione di Cohere.

Contenuto

Flussi di lavoro AI senza interruzioni

Dalle embedding alla ricerca AI scalabile—Zilliz Cloud ti consente di memorizzare, indicizzare e recuperare embedding con velocità e efficienza senza pari.

Prova Zilliz Cloud gratuitamente

Condividi questo articolo

Stima rapidamente il costo delle tue embedding

Introduzione a embed-multilingual-v3.0

Come creare embeddings vettoriali con embed-multilingual-v3.0

Generare embeddings vettoriali tramite PyMilvus e inserirli in Zilliz Cloud per la ricerca semantica.

Generare embeddings vettoriali tramite Cohere Python SDK e inserirli in Zilliz Cloud per la ricerca semantica

Contenuto

Flussi di lavoro AI senza interruzioni

Condividi questo articolo

Risorse Correlate

Valutazione del modello di incorporazione

Addestrare il proprio modello di incorporazione del testo

Costruire applicazioni di intelligenza artificiale con la RAG (Retrieval Augmented Generation)