Руководство по bge-base-en-v1.5

Все модели
БААИ / bge-base-en-v1.5

БААИ / bge-base-en-v1.5

AI Model Milvus Integrated

Задача: Встраивание

Модальность: Текст

Метрика сходства: Любой (нормализованный)

Лицензия: Apache 2.0

Размерности: 768

Максимальное количество входных токенов: 512

Цена: Бесплатно

Введение в bge-base-en-v1.5

bge-base-en-v1.5 - это модель BAAI general embedding (BGE), которая преобразует любой заданный английский текст в компактный вектор.

Сравните bge-base-en-v1.5 с другими популярными моделями BGE:

Модель	Размеры	Max Tokens	MTEB avg
bge-large-en-v1.5	1024	512	64.23
bge-large-en	1024	512	63.98
bge-base-en-v1.5	768	512	63.55
bge-base-en	768	512	63.36
bge-small-en-v1.5	384	512	62.17
bge-small-en	384	512	62.11

Как создавать вкрапления с помощью bge-base-en-v1.5

Существует два основных способа создания векторных вкраплений:

PyMilvus: Python SDK для Milvus, который легко интегрирует bge-base-en-v1.5.
FlagEmbedding: официальный Python SDK, предлагаемый BAAI.

Эти методы позволяют разработчикам легко внедрять расширенные возможности встраивания текста в свои приложения.

После создания векторных вкраплений они могут быть сохранены в Zilliz Cloud (полностью управляемый сервис векторных баз данных на базе Milvus) и использованы для поиска семантического сходства. Вот четыре ключевых шага:

Зарегистрируйтесь для получения бесплатной учетной записи Zilliz Cloud.
Создайте бессерверный кластер и получите Публичную конечную точку и ключ API.
Создайте коллекцию векторов и вставьте в нее свои векторные вкрапления.
Запустите семантический поиск по сохраненным вкраплениям.

Генерировать векторные вкрапления с помощью PyMilvus и вставлять их в Zilliz Cloud для семантического поиска

из pymilvus import model, MilvusClient

ef = model.dense.SentenceTransformerEmbeddingFunction(
   model_name="BAAI/bge-base-en-v1.5",
   device="cpu",
   query_instruction="Represent this sentence for search relevant passages:"
   )

# Генерируем вкрапления для документов
docs = [
   "Искусственный интеллект был основан как академическая дисциплина в 1956 году",
   "Алан Тьюринг был первым человеком, который провел серьезные исследования в области искусственного интеллекта",
   "Тьюринг родился в Майда-Вейл, Лондон, и вырос на юге Англии".
]

docs_embeddings = ef.encode_documents(docs)

# Генерируем вкрапления для запросов
запросы = ["Когда был основан искусственный интеллект",
          "Где родился Алан Тьюринг?"]

query_embeddings = ef.encode_queries(queries)

# Подключение к облаку Zilliz с помощью публичной конечной точки и ключа API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

КОЛЛЕКЦИЯ = "документы"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    имя_коллекции=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

для doc, embedding в zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    имя_коллекции=КОЛЛЕКЦИЯ,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Для получения дополнительной информации обратитесь к нашей документации PyMilvus Embedding Model.

Генерируем векторные вкрапления с помощью Python-библиотеки FlagEmbedding и вставляем их в Zilliz Cloud для семантического поиска

from FlagEmbedding import FlagModel
from pymilvus import MilvusClient

model = FlagModel("BAAI/bge-base-en-v1.5",
                  query_instruction_for_retrieval="Представьте это предложение для поиска релевантных отрывков:",
                  use_fp16=False)

# Генерируем вкрапления для документов
docs = [
   "Искусственный интеллект был основан как академическая дисциплина в 1958 году",
   "Алан Тьюринг был первым человеком, который провел серьезные исследования в области искусственного интеллекта",
   "Тьюринг родился в Майда-Вейл, Лондон, и вырос на юге Англии".
]
docs_embeddings = model.encode(docs)

# Генерируем вкрапления для запросов
queries = ["Когда был основан искусственный интеллект",
          "Где родился Алан Тьюринг?"]
query_embeddings = model.encode_queries(queries)

# Подключение к облаку Zilliz с помощью публичной конечной точки и ключа API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

КОЛЛЕКЦИЯ = "документы"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    имя_коллекции=COLLECTION,
    dimension=768,
    auto_id=True)

для doc, embedding в zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})

results = client.search(
    имя_коллекции=КОЛЛЕКЦИЯ,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Для получения дополнительной информации обратитесь к странице модели HuggingFace.

Контент

Беспрерывные AI рабочие процессы

От встраиваний до масштабируемого AI поиска—Zilliz Cloud позволяет вам хранить, индексировать и извлекать встраивания с непревзойденной скоростью и эффективностью.

Попробуйте Zilliz Cloud Бесплатно

Быстро оцените стоимость вашего внедрения

Введение в bge-base-en-v1.5

Как создавать вкрапления с помощью bge-base-en-v1.5

Генерировать векторные вкрапления с помощью PyMilvus и вставлять их в Zilliz Cloud для семантического поиска

Генерируем векторные вкрапления с помощью Python-библиотеки FlagEmbedding и вставляем их в Zilliz Cloud для семантического поиска

Контент

Беспрерывные AI рабочие процессы

Связанные ресурсы

Оценка модели встраивания

Обучение собственной модели встраивания текста

Создавайте приложения для искусственного интеллекта с помощью технологии Retrieval Augmented Generation (RAG)