БААИ / bge-base-en-v1.5
Milvus Integrated
Задача: Встраивание
Модальность: Текст
Метрика сходства: Любой (нормализованный)
Лицензия: Apache 2.0
Размерности: 768
Максимальное количество входных токенов: 512
Цена: Бесплатно
Введение в bge-base-en-v1.5
bge-base-en-v1.5 - это модель BAAI general embedding (BGE), которая преобразует любой заданный английский текст в компактный вектор.
Сравните bge-base-en-v1.5 с другими популярными моделями BGE:
| Модель | Размеры | Max Tokens | MTEB avg |
|---|---|---|---|
| bge-large-en-v1.5 | 1024 | 512 | 64.23 |
| bge-large-en | 1024 | 512 | 63.98 |
| bge-base-en-v1.5 | 768 | 512 | 63.55 |
| bge-base-en | 768 | 512 | 63.36 |
| bge-small-en-v1.5 | 384 | 512 | 62.17 |
| bge-small-en | 384 | 512 | 62.11 |
Как создавать вкрапления с помощью bge-base-en-v1.5
Существует два основных способа создания векторных вкраплений:
- PyMilvus: Python SDK для Milvus, который легко интегрирует
bge-base-en-v1.5. - FlagEmbedding: официальный Python SDK, предлагаемый BAAI.
Эти методы позволяют разработчикам легко внедрять расширенные возможности встраивания текста в свои приложения.
После создания векторных вкраплений они могут быть сохранены в Zilliz Cloud (полностью управляемый сервис векторных баз данных на базе Milvus) и использованы для поиска семантического сходства. Вот четыре ключевых шага:
- Зарегистрируйтесь для получения бесплатной учетной записи Zilliz Cloud.
- Создайте бессерверный кластер и получите Публичную конечную точку и ключ API.
- Создайте коллекцию векторов и вставьте в нее свои векторные вкрапления.
- Запустите семантический поиск по сохраненным вкраплениям.
Генерировать векторные вкрапления с помощью PyMilvus и вставлять их в Zilliz Cloud для семантического поиска
из pymilvus import model, MilvusClient
ef = model.dense.SentenceTransformerEmbeddingFunction(
model_name="BAAI/bge-base-en-v1.5",
device="cpu",
query_instruction="Represent this sentence for search relevant passages:"
)
# Генерируем вкрапления для документов
docs = [
"Искусственный интеллект был основан как академическая дисциплина в 1956 году",
"Алан Тьюринг был первым человеком, который провел серьезные исследования в области искусственного интеллекта",
"Тьюринг родился в Майда-Вейл, Лондон, и вырос на юге Англии".
]
docs_embeddings = ef.encode_documents(docs)
# Генерируем вкрапления для запросов
запросы = ["Когда был основан искусственный интеллект",
"Где родился Алан Тьюринг?"]
query_embeddings = ef.encode_queries(queries)
# Подключение к облаку Zilliz с помощью публичной конечной точки и ключа API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
КОЛЛЕКЦИЯ = "документы"
if client.has_collection(collection_name=COLLECTION):
client.drop_collection(collection_name=COLLECTION)
client.create_collection(
имя_коллекции=COLLECTION,
dimension=ef.dim,
auto_id=True)
для doc, embedding в zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vector": embedding})
results = client.search(
имя_коллекции=КОЛЛЕКЦИЯ,
data=query_embeddings,
consistency_level="Strong",
output_fields=["text"])
Для получения дополнительной информации обратитесь к нашей документации PyMilvus Embedding Model.
Генерируем векторные вкрапления с помощью Python-библиотеки FlagEmbedding и вставляем их в Zilliz Cloud для семантического поиска
from FlagEmbedding import FlagModel
from pymilvus import MilvusClient
model = FlagModel("BAAI/bge-base-en-v1.5",
query_instruction_for_retrieval="Представьте это предложение для поиска релевантных отрывков:",
use_fp16=False)
# Генерируем вкрапления для документов
docs = [
"Искусственный интеллект был основан как академическая дисциплина в 1958 году",
"Алан Тьюринг был первым человеком, который провел серьезные исследования в области искусственного интеллекта",
"Тьюринг родился в Майда-Вейл, Лондон, и вырос на юге Англии".
]
docs_embeddings = model.encode(docs)
# Генерируем вкрапления для запросов
queries = ["Когда был основан искусственный интеллект",
"Где родился Алан Тьюринг?"]
query_embeddings = model.encode_queries(queries)
# Подключение к облаку Zilliz с помощью публичной конечной точки и ключа API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
КОЛЛЕКЦИЯ = "документы"
if client.has_collection(collection_name=COLLECTION):
client.drop_collection(collection_name=COLLECTION)
client.create_collection(
имя_коллекции=COLLECTION,
dimension=768,
auto_id=True)
для doc, embedding в zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vector": embedding})
results = client.search(
имя_коллекции=КОЛЛЕКЦИЯ,
data=query_embeddings,
consistency_level="Strong",
output_fields=["text"])
Для получения дополнительной информации обратитесь к странице модели HuggingFace.
Беспрерывные AI рабочие процессы
От встраиваний до масштабируемого AI поиска—Zilliz Cloud позволяет вам хранить, индексировать и извлекать встраивания с непревзойденной скоростью и эффективностью.
Попробуйте Zilliz Cloud Бесплатно




