Jina AI / jina-embeddings-v3
Milvus Integrated
Tâche: Intégration
Modalité: Texte
Métrique de similarité: Tous (normalisés)
Licence: CC BY-NC 4.0
Dimensions: 1024
Tokens d'entrée max: 8192
Prix:
jina-embeddings-v3 Aperçu
Le modèle jina-embeddings-v3 est le nouvel outil d'intégration de texte multilingue de JinaAI, avec 570 millions de paramètres et une longueur d'entrée maximale de 8192 tokens. Il peut traiter des données multilingues et des tâches d'extraction de textes longs, en atteignant des performances de pointe (SOTA) dans 94 langues. Ce modèle permet de créer des enchâssements adaptés à une série de tâches, notamment la recherche de documents, le regroupement, la [classification] (https://zilliz.com/glossary/classification) et la mise en correspondance de textes.
Jina-embeddings-v3 prend également en charge Matryoshka Embeddings**, ce qui vous permet de personnaliser la taille de l'intégration de sortie en fonction de vos besoins. Bien que la dimension de sortie par défaut soit de 1024, vous pouvez la réduire à 32, 64, 128, 256, 512 ou 768 sans perdre trop de performances, ce qui permet de l'adapter à diverses applications.
Comparez jina-embeddings-v3 avec les modèles Jina v2 :
| Modèle | Taille des paramètres | Dimension de l'intégration | Texte | ||||
|---|---|---|---|---|---|---|---|
| Jina-embeddings-v3](https://zilliz.com/ai-models/jina-embeddings-v3) | 570M | taille d'incorporation flexible (par défaut : 1024) | incorporation de texte multilingue ; supporte 94 langues en tout | ||||
| jina-embeddings-v2-small-fr | 33M | 512 | embeddings monolingues anglais | jina-embeddings-v2-small-fr | |||
| jina-embeddings-v2-base-fr | 137M | 768 | Embarquements monolingues en anglais | jina-embeddings-v2-base-fr | |||
| jina-embeddings-v2-base-zh | 161M | 768 | Embarquements bilingues chinois-anglais | ||||
| jina-embeddings-v2-base-de | 161M | 768 | Embarquements bilingues allemand-anglais | jina-embeddings-v2-base-de | 161M | 768 | Embarquements bilingues allemand-anglais |
| jina-embeddings-v2-base-code | 161M | 768 | Anglais et langages de programmation |
Comment créer des embeddings avec jina-embeddings-v3
Il existe deux façons principales de générer des embeddings vectoriels :
- PyMilvus](https://github.com/milvus-io/pymilvus) : le SDK Python pour Milvus qui intègre de manière transparente le modèle
jina-embeddings-v3. - Bibliothèque SentenceTransformer : la bibliothèque Python
sentence-transformer.
Une fois que les embeddings vectoriels sont générés, ils peuvent être stockés dans Zilliz Cloud (un service de base de données vectorielles entièrement géré par Milvus) et utilisés pour la recherche de similarité sémantique. Voici les quatre étapes clés :
- S'inscrire à un compte Zilliz Cloud gratuitement.
- Configurez un cluster sans serveur (https://docs.zilliz.com/docs/create-cluster#set-up-a-free-cluster) et obtenez le point de terminaison public et la clé API (https://docs.zilliz.com/docs/on-zilliz-cloud-console#free-cluster-details).
- Créez une collection de vecteurs et insérez vos embeddings vectoriels.
- Exécutez une recherche sémantique sur les encastrements stockés.
Créer des embeddings via PyMilvus et les insérer dans Zilliz Cloud pour la recherche sémantique.
from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
from pymilvus import MilvusClient
ef = SentenceTransformerEmbeddingFunction("jinaai/jina-embeddings-v3", trust_remote_code=True)
docs = [
"L'intelligence artificielle a été fondée en tant que discipline universitaire en 1956,
"Alan Turing a été la première personne à mener des recherches substantielles sur l'intelligence artificielle,
"Né à Maida Vale, Londres, Turing a grandi dans le sud de l'Angleterre."
]
# Générer des embeddings pour les documents
docs_embeddings = ef(docs)
queries = ["Quand l'intelligence artificielle a-t-elle été créée",
"Où est né Alan Turing ?"]
# Génère des embeddings pour les requêtes
query_embeddings = ef(queries)
# Se connecter au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
nom_de_la_collection=COLLECTION,
dimension=ef.dim,
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings) :
client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
results = client.search(
nom_de_la_collection=COLLECTION,
data=query_embeddings,
niveau de cohérence="Fort",
output_fields=["text"])
Pour plus de détails, consultez cette [page de documentation de Jina AI] (https://milvus.io/docs/integrate_with_jina.md).
Créer des embeddings via Sentence Transformer et les insérer dans Zilliz Cloud pour la recherche sémantique
from sentence_transformers import SentenceTransformer
from pymilvus import MilvusClient
model = SentenceTransformer("jinaai/jina-embeddings-v3", trust_remote_code=True)
docs = [
"L'intelligence artificielle a été fondée en tant que discipline universitaire en 1956,
"Alan Turing a été la première personne à mener des recherches substantielles sur l'intelligence artificielle,
"Né à Maida Vale, Londres, Turing a grandi dans le sud de l'Angleterre."
]
# Générer des embeddings pour les documents
docs_embeddings = model.encode(docs, normalize_embeddings=True)
queries = ["query : Quand l'intelligence artificielle a-t-elle été fondée ?
"requête : Wo wurde Alan Turing geboren ?" ]
# Générer des embeddings pour les requêtes
query_embeddings = model.encode(queries, normalize_embeddings=True)
# Se connecter au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
nom_de_la_collection=COLLECTION,
dimension=512,
auto_id=True)
pour doc, embedding dans zip(docs, docs_embeddings) :
client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
results = client.search(
nom_de_la_collection=COLLECTION,
data=query_embeddings,
niveau de cohérence="Fort",
output_fields=["text"])
Lecture complémentaire
- Training Text Embeddings with Jina AI
- Apprentissage général de la représentation texte-image pour la recherche et le RAG multimodal
- Choisir le bon modèle d'intégration pour vos données
- Évaluation de votre modèle d'intégration
- Formation de votre propre modèle d'incorporation de texte](https://zilliz.com/learn/training-your-own-text-embedding-model)
- Guide du débutant pour le regroupement et l'intégration de sites web dans vos applications RAG] (https://zilliz.com/learn/beginner-guide-to-website-chunking-and-embedding-for-your-genai-applications)
- [Qu'est-ce que RAG ?] (https://zilliz.com/learn/Retrieval-Augmented-Generation)
- jina-embeddings-v3 Aperçu
- Comment créer des embeddings avec jina-embeddings-v3
- Créer des embeddings via Sentence Transformer et les insérer dans Zilliz Cloud pour la recherche sémantique
- Lecture complémentaire
Contenu
Workflows IA fluides
Des embeddings à la recherche IA évolutive - Zilliz Cloud vous permet de stocker, indexer et récupérer des embeddings avec une vitesse et une efficacité inégalées.
Essayer Zilliz Cloud gratuitement

