Jina AI / jina-embeddings-v3
Milvus Integrated
Compito: Incorporazione
Modalità: Testo
Metrica di Similarità: Qualsiasi (normalizzato)
Licenza: CC BY-NC 4.0
Dimensioni: 1024
Token di Input Massimi: 8192
Prezzo:
jina-embeddings-v3 Panoramica
Il modello jina-embeddings-v3 è il nuovo strumento di incorporazione del testo multilingue di JinaAI con 570 milioni di parametri e una lunghezza massima di input di 8192 token. È in grado di gestire l'elaborazione di dati multilingue e il reperimento di testi lunghi, raggiungendo prestazioni allo stato dell'arte (SOTA) in 94 lingue. Questo modello crea incorporazioni adatte a una serie di compiti, tra cui il reperimento di query e documenti, il clustering, la [classificazione] (https://zilliz.com/glossary/classification) e la corrispondenza tra testi.
Jina-embeddings-v3 supporta anche Matryoshka Embeddings, che consente di personalizzare la dimensione dell'embedding in uscita in base alle proprie esigenze. Mentre la dimensione di uscita predefinita è 1024, è possibile ridurla a 32, 64, 128, 256, 512 o 768 senza perdere troppe prestazioni, rendendola adattabile a varie applicazioni.
Confronta jina-embeddings-v3 con i modelli Jina v2:
| Modello | Dimensione dei parametri | Dimensione dell'incorporamento | Testo |
|---|---|---|---|
| jina-embeddings-v3 | 570M | dimensione di incorporamento flessibile (predefinita: 1024) | incorporazioni di testo multilingue; supporta 94 lingue in totale |
| jina-embeddings-v2-small-en | 33M | 512 | incorporazioni monolingui in inglese |
| jina-embeddings-v2-base-en | 137M | 768 | embeddings monolingue inglese |
| jina-embeddings-v2-base-zh | 161M | 768 | Abbinamenti bilingue cinese-inglese |
| jina-embeddings-v2-base-de | 161M | 768 | Embeddings bilingue tedesco-inglese |
| jina-embeddings-v2-base-code | 161M | 768 | Inglese e linguaggi di programmazione |
Come creare embeddings con jina-embeddings-v3
Esistono due modi principali per generare embeddings vettoriali:
- PyMilvus: l'SDK Python per Milvus che integra perfettamente il modello
jina-embeddings-v3. - Libreria SentenceTransformer: la libreria Python
sentence-transformer.
Una volta generate le incorporazioni vettoriali, queste possono essere archiviate in Zilliz Cloud (un servizio di database vettoriale completamente gestito da Milvus) e utilizzate per la ricerca di similarità semantica. Ecco i quattro passaggi chiave:
- Iscriversi per un account Zilliz Cloud gratuito.
- Configurare un cluster serverless](https://docs.zilliz.com/docs/create-cluster#set-up-a-free-cluster) e ottenere Endpoint pubblico e chiave API.
- Creare una collezione di vettori e inserire gli embeddings vettoriali.
- Eseguire una ricerca semantica sugli embeddings memorizzati.
Creare embeddings tramite PyMilvus e inserirli in Zilliz Cloud per la ricerca semantica.
da pymilvus.model.dense import SentenceTransformerEmbeddingFunction
da pymilvus import MilvusClient
ef = SentenceTransformerEmbeddingFunction("jinaai/jina-embeddings-v3", trust_remote_code=True)
docs = [
"L'intelligenza artificiale è stata fondata come disciplina accademica nel 1956",
"Alan Turing è stato il primo a condurre una ricerca sostanziale sull'intelligenza artificiale",
"Nato a Maida Vale, Londra, Turing è cresciuto nel sud dell'Inghilterra".
]
# Generare le incorporazioni per i documenti
docs_embeddings = ef(docs)
queries = ["Quando è stata fondata l'intelligenza artificiale",
"Dove è nato Alan Turing?"]
# Generare embeddings per le query
query_embeddings = ef(queries)
# Connettersi a Zilliz Cloud con l'endpoint pubblico e la chiave API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLEZIONE = "documenti"
if client.has_collection(collection_name=COLLECTION):
client.drop_collection(nome_raccolta=COLLEZIONE)
client.create_collection(
nome_collezione=COLLEZIONE,
dimensione=ef.dim,
auto_id=True)
per doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vector": embedding})
risultati = client.search(
nome_collezione=COLLEZIONE,
dati=query_embeddings,
consistency_level="Strong",
output_fields=["text"])
Per maggiori dettagli, consultare questa pagina di documentazione di Jina AI.
Creare embeddings tramite Sentence Transformer e inserirli in Zilliz Cloud per la ricerca semantica
da sentence_transformers import SentenceTransformer
da pymilvus import MilvusClient
model = SentenceTransformer("jinaai/jina-embeddings-v3", trust_remote_code=True)
docs = [
"L'intelligenza artificiale è stata fondata come disciplina accademica nel 1956",
"Alan Turing è stato il primo a condurre una ricerca sostanziale sull'intelligenza artificiale",
"Nato a Maida Vale, Londra, Turing è cresciuto nel sud dell'Inghilterra".
]
# Generare le incorporazioni per i documenti
docs_embeddings = model.encode(docs, normalize_embeddings=True)
query = ["query: Quando è stata fondata l'intelligenza artificiale",
"query: Wo wurde Alan Turing geboren?" ]
# Generare le incorporazioni per le query
query_embeddings = model.encode(queries, normalize_embeddings=True)
# Connettersi a Zilliz Cloud con l'endpoint pubblico e la chiave API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLEZIONE = "documenti"
if client.has_collection(collection_name=COLLECTION):
client.drop_collection(nome_raccolta=COLLEZIONE)
client.create_collection(
nome_collezione=COLLEZIONE,
dimensione=512,
auto_id=True)
per doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vector": embedding})
risultati = client.search(
nome_collezione=COLLEZIONE,
dati=query_embeddings,
consistency_level="Strong",
output_fields=["text"])
Ulteriori letture
- Formazione di Text Embeddings con Jina AI
- Apprendimento generale della rappresentazione testo-immagine per la ricerca e la RAG multimodale
- Scegliere il giusto modello di incorporamento per i propri dati
- Valutazione del modello di incorporamento
- Addestrare il proprio modello di incorporazione del testo
- Guida per principianti al chunking e all'incorporamento di siti web per le applicazioni RAG
- Cos'è il RAG?
- jina-embeddings-v3 Panoramica
- Come creare embeddings con jina-embeddings-v3
- Creare embeddings tramite Sentence Transformer e inserirli in Zilliz Cloud per la ricerca semantica
- Ulteriori letture
Contenuto
Flussi di lavoro AI senza interruzioni
Dalle embedding alla ricerca AI scalabile—Zilliz Cloud ti consente di memorizzare, indicizzare e recuperare embedding con velocità e efficienza senza pari.
Prova Zilliz Cloud gratuitamente

