Le guide de jina-embeddings-v3

Tous les modèles
Jina AI / jina-embeddings-v3

Jina AI / jina-embeddings-v3

AI Model Milvus Integrated

Tâche: Intégration

Modalité: Texte

Métrique de similarité: Tous (normalisés)

Licence: CC BY-NC 4.0

Dimensions: 1024

Tokens d'entrée max: 8192

Prix:

jina-embeddings-v3 Aperçu

Le modèle jina-embeddings-v3 est le nouvel outil d'intégration de texte multilingue de JinaAI, avec 570 millions de paramètres et une longueur d'entrée maximale de 8192 tokens. Il peut traiter des données multilingues et des tâches d'extraction de textes longs, en atteignant des performances de pointe (SOTA) dans 94 langues. Ce modèle permet de créer des enchâssements adaptés à une série de tâches, notamment la recherche de documents, le regroupement, la [classification] (https://zilliz.com/glossary/classification) et la mise en correspondance de textes.

Jina-embeddings-v3 prend également en charge Matryoshka Embeddings**, ce qui vous permet de personnaliser la taille de l'intégration de sortie en fonction de vos besoins. Bien que la dimension de sortie par défaut soit de 1024, vous pouvez la réduire à 32, 64, 128, 256, 512 ou 768 sans perdre trop de performances, ce qui permet de l'adapter à diverses applications.

Comparez jina-embeddings-v3 avec les modèles Jina v2 :

Modèle	Taille des paramètres	Dimension de l'intégration	Texte
Jina-embeddings-v3](https://zilliz.com/ai-models/jina-embeddings-v3)	570M	taille d'incorporation flexible (par défaut : 1024)	incorporation de texte multilingue ; supporte 94 langues en tout
jina-embeddings-v2-small-fr	33M	512	embeddings monolingues anglais	jina-embeddings-v2-small-fr
jina-embeddings-v2-base-fr	137M	768	Embarquements monolingues en anglais	jina-embeddings-v2-base-fr
jina-embeddings-v2-base-zh	161M	768	Embarquements bilingues chinois-anglais
jina-embeddings-v2-base-de	161M	768	Embarquements bilingues allemand-anglais	jina-embeddings-v2-base-de	161M	768	Embarquements bilingues allemand-anglais
jina-embeddings-v2-base-code	161M	768	Anglais et langages de programmation

Comment créer des embeddings avec jina-embeddings-v3

Il existe deux façons principales de générer des embeddings vectoriels :

PyMilvus](https://github.com/milvus-io/pymilvus) : le SDK Python pour Milvus qui intègre de manière transparente le modèle jina-embeddings-v3.
Bibliothèque SentenceTransformer : la bibliothèque Python sentence-transformer.

Une fois que les embeddings vectoriels sont générés, ils peuvent être stockés dans Zilliz Cloud (un service de base de données vectorielles entièrement géré par Milvus) et utilisés pour la recherche de similarité sémantique. Voici les quatre étapes clés :

S'inscrire à un compte Zilliz Cloud gratuitement.
Configurez un cluster sans serveur (https://docs.zilliz.com/docs/create-cluster#set-up-a-free-cluster) et obtenez le point de terminaison public et la clé API (https://docs.zilliz.com/docs/on-zilliz-cloud-console#free-cluster-details).
Créez une collection de vecteurs et insérez vos embeddings vectoriels.
Exécutez une recherche sémantique sur les encastrements stockés.

Créer des embeddings via PyMilvus et les insérer dans Zilliz Cloud pour la recherche sémantique.

from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
from pymilvus import MilvusClient

ef = SentenceTransformerEmbeddingFunction("jinaai/jina-embeddings-v3", trust_remote_code=True)

docs = [
   "L'intelligence artificielle a été fondée en tant que discipline universitaire en 1956,
   "Alan Turing a été la première personne à mener des recherches substantielles sur l'intelligence artificielle,
   "Né à Maida Vale, Londres, Turing a grandi dans le sud de l'Angleterre."
]
# Générer des embeddings pour les documents
docs_embeddings = ef(docs)

queries = ["Quand l'intelligence artificielle a-t-elle été créée",
          "Où est né Alan Turing ?"]
# Génère des embeddings pour les requêtes
query_embeddings = ef(queries)

# Se connecter au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
    client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
    nom_de_la_collection=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings) :
    client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
    
results = client.search(
    nom_de_la_collection=COLLECTION,
    data=query_embeddings,
    niveau de cohérence="Fort",
    output_fields=["text"])

Pour plus de détails, consultez cette [page de documentation de Jina AI] (https://milvus.io/docs/integrate_with_jina.md).

Créer des embeddings via Sentence Transformer et les insérer dans Zilliz Cloud pour la recherche sémantique

from sentence_transformers import SentenceTransformer
from pymilvus import MilvusClient

model = SentenceTransformer("jinaai/jina-embeddings-v3", trust_remote_code=True)

docs = [
   "L'intelligence artificielle a été fondée en tant que discipline universitaire en 1956,
   "Alan Turing a été la première personne à mener des recherches substantielles sur l'intelligence artificielle,
   "Né à Maida Vale, Londres, Turing a grandi dans le sud de l'Angleterre."
]
# Générer des embeddings pour les documents
docs_embeddings = model.encode(docs, normalize_embeddings=True)

queries = ["query : Quand l'intelligence artificielle a-t-elle été fondée ?
           "requête : Wo wurde Alan Turing geboren ?" ]
# Générer des embeddings pour les requêtes
query_embeddings = model.encode(queries, normalize_embeddings=True)

# Se connecter au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
    client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
    nom_de_la_collection=COLLECTION,
    dimension=512,
    auto_id=True)

pour doc, embedding dans zip(docs, docs_embeddings) :
    client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
    
results = client.search(
    nom_de_la_collection=COLLECTION,
    data=query_embeddings,
    niveau de cohérence="Fort",
    output_fields=["text"])

Lecture complémentaire

Training Text Embeddings with Jina AI
Apprentissage général de la représentation texte-image pour la recherche et le RAG multimodal
Choisir le bon modèle d'intégration pour vos données
Évaluation de votre modèle d'intégration
Formation de votre propre modèle d'incorporation de texte](https://zilliz.com/learn/training-your-own-text-embedding-model)
Guide du débutant pour le regroupement et l'intégration de sites web dans vos applications RAG] (https://zilliz.com/learn/beginner-guide-to-website-chunking-and-embedding-for-your-genai-applications)
[Qu'est-ce que RAG ?] (https://zilliz.com/learn/Retrieval-Augmented-Generation)

Contenu

Workflows IA fluides

Des embeddings à la recherche IA évolutive - Zilliz Cloud vous permet de stocker, indexer et récupérer des embeddings avec une vitesse et une efficacité inégalées.

Essayer Zilliz Cloud gratuitement

Estimez rapidement votre coût d'embedding

jina-embeddings-v3 Aperçu

Comment créer des embeddings avec jina-embeddings-v3

Créer des embeddings via PyMilvus et les insérer dans Zilliz Cloud pour la recherche sémantique.

Créer des embeddings via Sentence Transformer et les insérer dans Zilliz Cloud pour la recherche sémantique

Lecture complémentaire

Contenu

Workflows IA fluides

Ressources connexes

Évaluer votre modèle d'intégration

Formation de votre propre modèle d'intégration de texte

Créer des applications d'IA avec Retrieval Augmented Generation (RAG)