Le guide de bge-base-fr-v1.5

Tous les modèles
BAAI / bge-base-en-v1.5

BAAI / bge-base-en-v1.5

AI Model Milvus Integrated

Tâche: Intégration

Modalité: Texte

Métrique de similarité: Tous (normalisés)

Licence: Apache 2.0

Dimensions: 768

Tokens d'entrée max: 512

Prix: Gratuit

Introduction à bge-base-fr-v1.5

bge-base-fr-v1.5 est un modèle d'intégration générale BAAI (BGE) qui transforme n'importe quel texte anglais en un vecteur compact.

Comparez bge-base-en-v1.5 avec d'autres modèles BGE populaires :

Modèle | Dimensions | Max Tokens | MTEB avg | Max Tokens | Max Tokens | Max Tokens | Max Tokens avg | | ----------------- | -------------- | -------------- | ---------------- | bge-large-fr-v1.5 | 1024 | 512 | 64.23 | bge-large-fr-v1.5 | 1024 | 512 | 64.23 | bge-large-fr-v1.5 | bge-large-fr | 1024 | 512 | 63.98 | | bge-base-fr-v1.5 | bge-base-fr-v1.5 | 768 | 512 | 63.55 | bge-base-fr | 768 | 512 | 63.55 | bge-base-fr | 64.23 | bge-base-fr | 768 | 512 | 63.36 | | bge-small-en-v1.5 bge-small-fr-v1.5 | 384 | 512 | 62.17 | bge-small-fr-v1.5 | 384 | 512 | 62.17 | bge-small-fr-v1.5 | bge-small-fr | 384 | 512 | 62.11 | bge-small-fr-v1.5

Comment créer des embeddings avec bge-base-fr-v1.5

Il y a deux façons principales de créer des embeddings vectoriels :

PyMilvus : le SDK Python pour Milvus qui intègre de manière transparente la bge-base-en-v1.5.
FlagEmbedding : le SDK Python officiel proposé par BAAI.

Ces méthodes permettent aux développeurs d'incorporer facilement des capacités avancées d'incorporation de texte dans leurs applications.

Une fois les encastrements vectoriels générés, ils peuvent être stockés dans Zilliz Cloud (un service de base de données vectorielles entièrement géré par Milvus) et utilisés pour la recherche de similarité sémantique. Voici les quatre étapes clés :

S'inscrire pour un compte Zilliz Cloud gratuit.
Configurez un cluster sans serveur et obtenez le Point de terminaison public et la clé API.
Créer une collection de vecteurs et insérer vos embeddings vectoriels.
Exécutez une recherche sémantique sur les embeddings stockés.

Générer des embeddings vectoriels via PyMilvus et les insérer dans Zilliz Cloud pour une recherche sémantique.

from pymilvus import model, MilvusClient

ef = model.dense.SentenceTransformerEmbeddingFunction(
   nom_du_modèle="BAAI/bge-base-fr-v1.5",
   device="cpu",
   query_instruction="Représentez cette phrase pour rechercher des passages pertinents :"
   )

# Générer des embeddings pour les documents
docs = [
   "L'intelligence artificielle a été fondée en tant que discipline universitaire en 1956",
   "Alan Turing a été la première personne à mener des recherches substantielles sur l'intelligence artificielle,
   "Né à Maida Vale, Londres, Turing a grandi dans le sud de l'Angleterre."
]

docs_embeddings = ef.encode_documents(docs)

# Générer des embeddings pour les requêtes
queries = ["Quand l'intelligence artificielle a-t-elle été fondée ?
          "Où est né Alan Turing ?"]

query_embeddings = ef.encode_queries(queries)

# Connexion au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
    client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
    nom_de_la_collection=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings) :
    client.insert(COLLECTION, {"text" : doc, "vector" : embedding})
    
results = client.search(
    nom_de_la_collection=COLLECTION,
    data=query_embeddings,
    niveau de cohérence="Fort",
    output_fields=["text"])

Pour plus d'informations, consultez notre [documentation PyMilvus Embedding Model] (https://milvus.io/docs/embeddings.md).

Générer des embeddings vectoriels via la bibliothèque Python FlagEmbedding et les insérer dans Zilliz Cloud pour la recherche sémantique.

from FlagEmbedding import FlagModel
from pymilvus import MilvusClient

model = FlagModel("BAAI/bge-base-fr-v1.5",
                  query_instruction_for_retrieval="Représentez cette phrase pour rechercher des passages pertinents :",
                  use_fp16=False)

# Générer des embeddings pour les documents
docs = [
   "L'intelligence artificielle a été fondée en tant que discipline universitaire en 1958,
   "Alan Turing a été la première personne à mener des recherches substantielles sur l'IA,
   "Né à Maida Vale, Londres, Turing a grandi dans le sud de l'Angleterre."
]
docs_embeddings = model.encode(docs)

# Générer des embeddings pour les requêtes
queries = ["Quand l'intelligence artificielle a-t-elle été créée ?
          "Où est né Alan Turing ?"]
query_embeddings = model.encode_queries(queries)

# Connexion au nuage Zilliz avec le point de terminaison public et la clé API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION) :
    client.drop_collection(nom_de_la_collection=COLLECTION)
client.create_collection(
    nom_de_la_collection=COLLECTION,
    dimension=768,
    auto_id=True)

pour doc, embedding dans zip(docs, docs_embeddings) :
    client.insert(COLLECTION, {"text" : doc, "vector" : embedding})

results = client.search(
    nom_de_la_collection=COLLECTION,
    data=query_embeddings,
    niveau de cohérence="Fort",
    output_fields=["text"])

Pour plus d'informations, voir [la page modèle sur HuggingFace] (https://huggingface.co/BAAI/bge-base-en-v1.5).

Contenu

Workflows IA fluides

Des embeddings à la recherche IA évolutive - Zilliz Cloud vous permet de stocker, indexer et récupérer des embeddings avec une vitesse et une efficacité inégalées.

Essayer Zilliz Cloud gratuitement

Estimez rapidement votre coût d'embedding