Jina AI / jina-embeddings-v2-base-zh
Milvus Integrated
Tâche: Intégration
Modalité: Texte
Métrique de similarité: Tous (normalisés)
Licence: Apache 2.0
Dimensions: 768
Tokens d'entrée max: 8192
Prix: Gratuit
Introduction aux modèles Jina Embedding v2
Les modèles Jina Embeddings v2 sont conçus pour traiter de longs documents avec une taille d'entrée maximale étendue à 8 192 tokens. En octobre 2024, Jina AI Embedding V2 dispose des variantes suivantes, chacune répondant à des besoins d'intégration différents.
Qu'est-ce que jina-embeddings-v2-base-zh ?
jina-embeddings-v2-base-zh est un outil d'incorporation de texte bilingue (chinois/anglais) qui peut traiter jusqu'à 8192 tokens par séquence. Il est construit sur une architecture BERT spécialisée (appelée JinaBERT) pour des applications monolingues et interlingues.
Comparaison de jina-embeddings-v2-base-zh avec d'autres modèles d'intégration Jina.
| Modèle d'intégration de données - Taille des paramètres - Dimension d'intégration de données - Texte - Modèle d'intégration de données - Taille des paramètres - Dimension d'intégration de données - Texte | ---------------------------- | -------------- | --------------------------------------- | ----------------------------------------------------------- | | Jina-embeddings-v3](https://zilliz.com/ai-models/jina-embeddings-v3) | 570M | taille d'incorporation flexible (par défaut : 1024) | incorporation de texte multilingue ; supporte 94 langues au total. | jina-embeddings-v2-small-fr | 33M | 512 | Embarquements monolingues en anglais | jina-embeddings-v2-base-fr | 137M | 768 | Embarquements monolingues en anglais | jina-embeddings-v2-base-fr | jina-embeddings-v2-base-zh | 161M | 768 | Embarquements bilingues chinois-anglais | jina-embeddings-v2-base-de | 161M | 768 | Embarquements bilingues allemand-anglais | jina-embeddings-v2-base-de | 161M | 768 | Embarquements bilingues allemand-anglais | jina-embeddings-v2-base-code | 161M | 768 | Anglais et langages de programmation |
Comment créer des embeddings en utilisant jina-embeddings-v2-base-zh
Il existe deux façons principales de générer des embeddings vectoriels :
- **PyMilvus](https://github.com/milvus-io/pymilvus) : le SDK Python pour Milvus qui intègre de manière transparente le modèle
jina-embeddings-v2-base-zh. - SentenceTransformer library : la bibliothèque Python
sentence-transformer.
Une fois les embeddings vectoriels créés, ils peuvent être stockés dans une base de données vectorielle comme [Zilliz Cloud] (https://zilliz.com/cloud) (une base de données vectorielle entièrement gérée par Milvus) et utilisés pour [la recherche de similarité sémantique] (https://zilliz.com/glossary/semantic-search).
Voici les quatre étapes clés :
- S'inscrire pour un compte Zilliz Cloud gratuit.
- Configurez un cluster sans serveur (https://docs.zilliz.com/docs/create-cluster#set-up-a-free-cluster) et obtenez le point de terminaison public et la clé API (https://docs.zilliz.com/docs/on-zilliz-cloud-console#free-cluster-details).
- Créez une collection de vecteurs et insérez vos embeddings vectoriels.
- Exécutez une recherche sémantique sur les encastrements stockés.
Créer des embeddings via PyMilvus et les insérer dans Zilliz Cloud pour la recherche sémantique.
from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
from pymilvus import MilvusClient
ef = SentenceTransformerEmbeddingFunction("jinaai/jina-embeddings-v2-base-zh", trust_remote_code=True)
docs = [
"人工智能于1956年作为一门学术学科成立。",
"艾伦-图灵是第一位在人工智能领域进行实质性研究的人。",
"图灵出生于伦敦的梅达韦尔,在英格兰南部长大。"
]
# Générer des embeddings pour les documents
docs_embeddings = ef(docs)
queries = ["人工智能是什么时候创立的?",
"艾伦-图灵出生在哪里?"]
# Générer des embeddings pour les requêtes
query_embeddings = ef(queries)
# Se connecter au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
nom_de_la_collection=COLLECTION,
dimension=ef.dim,
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings) :
client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
results = client.search(
nom_de_la_collection=COLLECTION,
data=query_embeddings,
niveau de cohérence="Fort",
output_fields=["text"])
Pour plus de détails, reportez-vous à la [documentation du modèle d'intégration PyMilvus](Pour plus d'informations, reportez-vous à la documentation du modèle d'intégration PyMilvus.).
Créer des embeddings via la bibliothèque SentenceTransformer et les insérer dans Zilliz Cloud pour la recherche sémantique
from sentence_transformers import SentenceTransformer
from pymilvus import MilvusClient
model = SentenceTransformer("jinaai/jina-embeddings-v2-base-zh", trust_remote_code=True)
docs = [
"人工智能于1956年作为一门学术学科成立。",
"艾伦-图灵是第一位在人工智能领域进行实质性研究的人。",
"图灵出生于伦敦的梅达韦尔,在英格兰南部长大。"
]
# Générer des embeddings pour les documents
docs_embeddings = model.encode(docs, normalize_embeddings=True)
queries = ["人工智能是什么时候创立的?",
"艾伦-图灵出生在哪里?"]
# Générer des embeddings pour les requêtes
query_embeddings = model.encode(queries, normalize_embeddings=True)
# Se connecter au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
nom_de_la_collection=COLLECTION,
dimension=512,
auto_id=True)
pour doc, embedding dans zip(docs, docs_embeddings) :
client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
results = client.search(
nom_de_la_collection=COLLECTION,
data=query_embeddings,
niveau de cohérence="Fort",
output_fields=["text"])
- Introduction aux modèles Jina Embedding v2
- Qu'est-ce que jina-embeddings-v2-base-zh ?
- Comment créer des embeddings en utilisant jina-embeddings-v2-base-zh
Contenu
Workflows IA fluides
Des embeddings à la recherche IA évolutive - Zilliz Cloud vous permet de stocker, indexer et récupérer des embeddings avec une vitesse et une efficacité inégalées.
Essayer Zilliz Cloud gratuitement

