Cohere / embed-multilingual-v3.0
Milvus Integrated
Compito: Incorporazione
Modalità: Testo
Metrica di Similarità: Qualsiasi (normalizzato)
Licenza: Proprietario
Dimensioni: 1024
Token di Input Massimi: 512
Prezzo: $0,10 / 1M di gettoni
Introduzione a embed-multilingual-v3.0
embed-multilingual-v3.0 è un modello di incorporamento ad alte prestazioni, adattato per testi multilingue, e fa parte della famiglia di modelli Embed V3, recentemente rilasciata da Cohere. Supporta oltre 100 lingue e può essere utilizzato per effettuare ricerche all'interno di una lingua (ad esempio, ricerche con una query francese su documenti francesi) e tra le lingue (ad esempio, ricerche con una query cinese su documenti finlandesi). È ideale per la ricerca semantica, retrieval augmented generation (RAG), la classificazione dei testi e il clustering dei documenti.
Confronto tra tutti i modelli di embedding della serie Embed V3.
| Nome del modello | Dimensioni | Prestazioni MTEB (più alte sono migliori) | Prestazioni BEIR (più alte sono migliori) |
| embed-english-v3.0 | 1024 | 64.5 | 55.9 |
| embed-english-light-3.0 | 384 | 62.0 | 52.0 |
| embed-multilingual-v3.0 | 1024 | 64.0 | 54.6 |
| embed-multilingual-light-v3.0 | 384 | 60.1 | 50.9 |
| embed-multilingual-v2.0 | 768 | 58,5 | 47,1 |
- MTEB: ampio set di dati per la valutazione dei recuperi, della classificazione e del clustering (56 set di dati).
- BEIR: set di dati incentrato sui recuperi fuori dal dominio (14 set di dati)
Come creare embeddings vettoriali con embed-multilingual-v3.0
Esistono due modi principali per creare embeddings vettoriali:
- PyMilvus: l'SDK Python per Milvus che integra perfettamente il modello
embed-multilingual-v3.0. - Cohere python SDK: l'SDK python offerto da Cohere.
Una volta generate le incorporazioni vettoriali, queste possono essere archiviate in Zilliz Cloud (un servizio di database vettoriale completamente gestito da Milvus) e utilizzate per la ricerca di similarità semantica. Ecco i quattro passaggi chiave:
- Iscriviti per un account Zilliz Cloud gratuito.
- Configurare un cluster serverless e ottenere il Public Endpoint and API Key.
- Creare una collezione di vettori e inserire i propri embeddings vettoriali.
- Eseguire una ricerca semantica sugli embeddings memorizzati.
Generare embeddings vettoriali tramite PyMilvus e inserirli in Zilliz Cloud per la ricerca semantica.
da pymilvus.model.dense import CohereEmbeddingFunction
COHERE_API_KEY = "your-cohere-api-key"
ef = CohereEmbeddingFunction("embed-multilingual-v3.0", api_key=COHERE_API_KEY)
docs = [
"L'intelligenza artificiale è stata fondata come disciplina accademica nel 1956",
"Alan Turing è stato il primo a condurre una ricerca sostanziale sull'intelligenza artificiale",
"Nato a Maida Vale, Londra, Turing è cresciuto nel sud dell'Inghilterra".
]
# Generare le incorporazioni per i documenti
docs_embeddings = ef.encode_documents(docs)
query = ["Quando è stata fondata l'intelligenza artificiale",
"Dove è nato Alan Turing?"]
# Generare embeddings per le query
query_embeddings = ef.encode_queries(queries)
# Connettersi a Zilliz Cloud con l'endpoint pubblico e la chiave API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLEZIONE = "documenti"
if client.has_collection(collection_name=COLLECTION):
client.drop_collection(nome_raccolta=COLLEZIONE)
client.create_collection(
nome_collezione=COLLEZIONE,
dimensione=ef.dim,
auto_id=True)
per doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vector": embedding})
risultati = client.search(
nome_collezione=COLLEZIONE,
dati=query_embeddings,
consistency_level="Strong",
output_fields=["text"])
Per ulteriori informazioni, consultare la nostra [documentazione sul modello di inclusione di PyMilvus] (https://milvus.io/docs/embeddings.md).
Generare embeddings vettoriali tramite Cohere Python SDK e inserirli in Zilliz Cloud per la ricerca semantica
importare cohere
da pymilvus import MilvusClient
COHERE_API_KEY = "la tua-cohere-api-key"
co = cohere.Client(COHERE_API_KEY)
docs = [
"L'intelligenza artificiale è stata fondata come disciplina accademica nel 1956",
"Alan Turing è stato il primo a condurre una ricerca sostanziale sull'intelligenza artificiale",
"Nato a Maida Vale, Londra, Turing è cresciuto nel sud dell'Inghilterra".
]
docs_embeddings = co.embed(
texts=docs, model="embed-multilingual-v3.0", input_type="search_document"
).embeddings
queries = ["Quando è stata fondata l'intelligenza artificiale",
"Dove è nato Alan Turing?"]
query_embeddings = co.embed(
texts=docs, model="embed-english-v3.0", input_type="search_query"
).embeddings
# Connettersi a Zilliz Cloud con l'endpoint pubblico e la chiave API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLEZIONE = "documenti"
if client.has_collection(collection_name=COLLECTION):
client.drop_collection(nome_raccolta=COLLEZIONE)
client.create_collection(
nome_collezione=COLLEZIONE,
dimensione=1024,
auto_id=True)
per doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vector": embedding})
risultati = client.search(
nome_collezione=COLLEZIONE,
dati=query_embeddings,
consistency_level="Strong",
output_fields=["text"])
Per ulteriori informazioni, consultare Documentazione di Cohere.
- Introduzione a embed-multilingual-v3.0
- Come creare embeddings vettoriali con embed-multilingual-v3.0
Contenuto
Flussi di lavoro AI senza interruzioni
Dalle embedding alla ricerca AI scalabile—Zilliz Cloud ti consente di memorizzare, indicizzare e recuperare embedding con velocità e efficienza senza pari.
Prova Zilliz Cloud gratuitamente

