Jina AI / jina-embeddings-v2-base-en
Milvus Integrated
Tâche: Intégration
Modalité: Texte
Métrique de similarité: Tous (normalisés)
Licence: Apache 2.0
Dimensions: 768
Tokens d'entrée max: 8192
Prix: Gratuit
Introduction aux modèles Jina Embedding v2
Les modèles Jina Embeddings v2 sont conçus pour traiter de longs documents avec une taille d'entrée maximale étendue à 8 192 tokens. En octobre 2024, Jina AI Embedding V2 dispose des variantes suivantes, chacune répondant à des besoins d'intégration différents :
- jina-embeddings-v2-small-fr
- jina-embeddings-v2-base-fr
- jina-embeddings-v2-base-zh
- jina-embeddings-v2-base-de
- jina-embeddings-v2-base-code
Introduction à jina-embeddings-v2-base-fr
jina-embeddings-v2-base-fr est un modèle d'intégration monolingue anglais pour une longueur de séquence allant jusqu'à 8192 tokens. Il s'agit de la variante moyenne ou de base de la famille Jina Embeddings v2, qui a été entraînée avec 137 millions de paramètres et génère des embeddings à 768 dimensions.
Comparaison de jina-embeddings-v2-small-en avec d'autres modèles d'intégration Jina.
| Modèle d'intégration - Taille des paramètres - Dimension d'intégration - Texte - Taille des paramètres - Dimension d'intégration - Texte - Taille des paramètres - Dimension d'intégration - Dimension d'intégration | ---------------------------- | -------------- | --------------------------------------- | ----------------------------------------------------------- | | Jina-embeddings-v3](https://zilliz.com/ai-models/jina-embeddings-v3) | 570M | taille d'incorporation flexible (par défaut : 1024) | incorporation de texte multilingue ; supporte 94 langues au total. | jina-embeddings-v2-small-fr | 33M | 512 | Embarquements monolingues en anglais | jina-embeddings-v2-base-fr | 137M | 768 | Embarquements monolingues en anglais | jina-embeddings-v2-base-fr | jina-embeddings-v2-base-zh | 161M | 768 | Embarquements bilingues chinois-anglais | jina-embeddings-v2-base-de | 161M | 768 | Embarquements bilingues allemand-anglais | jina-embeddings-v2-base-de | 161M | 768 | Embarquements bilingues allemand-anglais | jina-embeddings-v2-base-code | 161M | 768 | Anglais et langages de programmation |
Comment créer des embeddings avec jina-embeddings-v2-base-fr
Il y a deux façons principales d'utiliser le modèle jina-embeddings-v2-base-en pour générer des embeddings vectoriels :
- PyMilvus : le SDK Python pour Milvus qui intègre de manière transparente le modèle
jina-embeddings-v2-base-en. - Bibliothèque SentenceTransformer : la bibliothèque python
sentence-transformer.
Générer des embeddings vectoriels via PyMilvus et les insérer dans Zilliz Cloud pour la recherche sémantique.
from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
from pymilvus import MilvusClient
ef = SentenceTransformerEmbeddingFunction("jinaai/jina-embeddings-v2-base-fr", trust_remote_code=True)
docs = [
"L'intelligence artificielle a été fondée en tant que discipline universitaire en 1956",
"Alan Turing a été la première personne à mener des recherches substantielles sur l'intelligence artificielle,
"Né à Maida Vale, Londres, Turing a grandi dans le sud de l'Angleterre."
]
# Générer des embeddings pour les documents
docs_embeddings = ef(docs)
queries = ["Quand l'intelligence artificielle a-t-elle été créée",
"Où est né Alan Turing ?"]
# Génère des embeddings pour les requêtes
query_embeddings = ef(queries)
# Se connecter au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
nom_de_la_collection=COLLECTION,
dimension=ef.dim,
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings) :
client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
results = client.search(
nom_de_la_collection=COLLECTION,
data=query_embeddings,
niveau de cohérence="Fort",
output_fields=["text"])
Pour plus d'informations, consultez notre [documentation PyMilvus Embedding Model] (https://milvus.io/docs/embeddings.md).
Générer des embeddings vectoriels via SentenceTransformer et les insérer dans Zilliz Cloud pour la recherche sémantique
from sentence_transformers import SentenceTransformer
from pymilvus import MilvusClient
model = SentenceTransformer("jinaai/jina-embeddings-v2-base-fr", trust_remote_code=True)
docs = [
"L'intelligence artificielle a été fondée en tant que discipline universitaire en 1956,
"Alan Turing a été la première personne à mener des recherches substantielles sur l'intelligence artificielle,
"Né à Maida Vale, Londres, Turing a grandi dans le sud de l'Angleterre."
]
# Générer des embeddings pour les documents
docs_embeddings = model.encode(docs, normalize_embeddings=True)
queries = ["query : Quand l'intelligence artificielle a-t-elle été fondée ?
"requête : Wo wurde Alan Turing geboren ?" ]
# Générer des embeddings pour les requêtes
query_embeddings = model.encode(queries, normalize_embeddings=True)
# Se connecter au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
nom_de_la_collection=COLLECTION,
dimension=768,
auto_id=True)
pour doc, embedding dans zip(docs, docs_embeddings) :
client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
results = client.search(
nom_de_la_collection=COLLECTION,
data=query_embeddings,
niveau de cohérence="Fort",
output_fields=["text"])
Pour plus d'informations, consultez [SentenceTransformer documentation] (https://sbert.net/docs/sentence_transformer/pretrained_models.html).
- Introduction aux modèles Jina Embedding v2
- Introduction à jina-embeddings-v2-base-fr
- Comment créer des embeddings avec jina-embeddings-v2-base-fr
Contenu
Workflows IA fluides
Des embeddings à la recherche IA évolutive - Zilliz Cloud vous permet de stocker, indexer et récupérer des embeddings avec une vitesse et une efficacité inégalées.
Essayer Zilliz Cloud gratuitement

