La guida a jina-embeddings-v2-base-zh

Tutti i modelli
Jina AI / jina-embeddings-v2-base-zh

Jina AI / jina-embeddings-v2-base-zh

AI Model Milvus Integrated

Compito: Incorporazione

Modalità: Testo

Metrica di Similarità: Qualsiasi (normalizzato)

Licenza: Apache 2.0

Dimensioni: 768

Token di Input Massimi: 8192

Prezzo: Gratuito

Introduzione ai modelli Jina Embedding v2

I modelli Jina Embeddings v2 sono progettati per gestire documenti lunghi con una dimensione massima di input estesa a 8.192 token. A partire da ottobre 2024, Jina AI Embedding V2 ha le seguenti varianti, ognuna delle quali risponde a diverse esigenze di incorporazione.

Cos'è jina-embeddings-v2-base-zh

jina-embeddings-v2-base-zh è uno strumento di incorporazione di testo bilingue (cinese/inglese) che può elaborare fino a 8192 token per sequenza. È costruito su un'architettura BERT specializzata (chiamata JinaBERT) per applicazioni monolingui e multilingue.

Confronto tra jina-embeddings-v2-base-zh e altri modelli di incorporazione Jina.

Modello	Dimensione dei parametri	Dimensione dell'incorporamento	Testo
jina-embeddings-v3	570M	dimensione di incorporamento flessibile (predefinita: 1024)	incorporazioni di testo multilingue; supporta 94 lingue in totale
jina-embeddings-v2-small-en	33M	512	incorporazioni monolingui in inglese
jina-embeddings-v2-base-en	137M	768	embeddings monolingue inglese
jina-embeddings-v2-base-zh	161M	768	Abbinamenti bilingue cinese-inglese
jina-embeddings-v2-base-de	161M	768	Embeddings bilingue tedesco-inglese
jina-embeddings-v2-base-code	161M	768	Inglese e linguaggi di programmazione

Come creare embeddings usando jina-embeddings-v2-base-zh

Esistono due modi principali per generare embeddings vettoriali:

**PyMilvus: l'SDK Python per Milvus che integra perfettamente il modello jina-embeddings-v2-base-zh.
Libreria SentenceTransformer: la libreria Python sentence-transformer.

Una volta create le incorporazioni vettoriali, queste possono essere memorizzate in un database vettoriale come Zilliz Cloud (un database vettoriale completamente gestito da Milvus) e utilizzate per la ricerca di similarità semantica.

Ecco i quattro passaggi chiave:

Iscriversi per un account Zilliz Cloud gratuito.
Configurare un cluster serverless](https://docs.zilliz.com/docs/create-cluster#set-up-a-free-cluster) e ottenere Endpoint pubblico e chiave API.
Creare una collezione di vettori e inserire gli embeddings vettoriali.
Eseguire una ricerca semantica sugli embeddings memorizzati.

Creare embeddings tramite PyMilvus e inserirli in Zilliz Cloud per la ricerca semantica.

da pymilvus.model.dense import SentenceTransformerEmbeddingFunction
da pymilvus import MilvusClient

ef = SentenceTransformerEmbeddingFunction("jinaai/jina-embeddings-v2-base-zh", trust_remote_code=True)

docs = [
   "人工智能于1956年作为一门学术学科成立。",
   "艾伦-图灵是第一位在人工智能领域进行实质性研究的人。",
   "图灵出生于伦敦的梅达韦尔，在英格兰南部长大↪PO_300"
]
# Generare embeddings per i documenti
docs_embeddings = ef(docs)

query = ["人工智能是什么时候创立的？",
          "艾伦-图灵出生在哪里？"]
# Generare le incorporazioni per le query
query_embeddings = ef(queries)

# Connettersi a Zilliz Cloud con l'endpoint pubblico e la chiave API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLEZIONE = "documenti"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(nome_raccolta=COLLEZIONE)
client.create_collection(
    nome_collezione=COLLEZIONE,
    dimensione=ef.dim,
    auto_id=True)

per doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
risultati = client.search(
    nome_collezione=COLLEZIONE,
    dati=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Per maggiori dettagli, consultare la nostra [PyMilvus Embedding Model documentation](Per maggiori informazioni, consultare la nostra PyMilvus Embedding Model documentation.).

Creare embeddings tramite la libreria SentenceTransformer e inserirli in Zilliz Cloud per la ricerca semantica

da sentence_transformers import SentenceTransformer
da pymilvus import MilvusClient

model = SentenceTransformer("jinaai/jina-embeddings-v2-base-zh", trust_remote_code=True)

docs = [
   "人工智能于1956年作为一门学术学科成立。",
   "艾伦-图灵是第一位在人工智能领域进行实质性研究的人。",
   "图灵出生于伦敦的梅达韦尔，在英格兰南部长大↪PO_300"
]
# Generare embeddings per i documenti
docs_embeddings = model.encode(docs, normalize_embeddings=True)

query = ["人工智能是什么时候创立的？",
          "艾伦-图灵出生在哪里？"]
# Generare le incorporazioni per le query
query_embeddings = model.encode(queries, normalize_embeddings=True)

# Connettersi a Zilliz Cloud con l'endpoint pubblico e la chiave API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLEZIONE = "documenti"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(nome_raccolta=COLLEZIONE)
client.create_collection(
    nome_collezione=COLLEZIONE,
    dimensione=512,
    auto_id=True)

per doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
risultati = client.search(
    nome_collezione=COLLEZIONE,
    dati=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Contenuto

Flussi di lavoro AI senza interruzioni

Dalle embedding alla ricerca AI scalabile—Zilliz Cloud ti consente di memorizzare, indicizzare e recuperare embedding con velocità e efficienza senza pari.

Prova Zilliz Cloud gratuitamente

Stima rapidamente il costo delle tue embedding

Introduzione ai modelli Jina Embedding v2

Cos'è jina-embeddings-v2-base-zh

Come creare embeddings usando jina-embeddings-v2-base-zh

Creare embeddings tramite PyMilvus e inserirli in Zilliz Cloud per la ricerca semantica.

Creare embeddings tramite la libreria SentenceTransformer e inserirli in Zilliz Cloud per la ricerca semantica

Contenuto

Flussi di lavoro AI senza interruzioni

Risorse Correlate

Valutazione del modello di incorporazione

Addestrare il proprio modello di incorporazione del testo

Costruire applicazioni di intelligenza artificiale con la RAG (Retrieval Augmented Generation)