Руководство по модели e5-base-v2

Все модели
Microsoft / e5-base-v2

Microsoft / e5-base-v2

AI Model Milvus Integrated

Задача: Встраивание

Модальность: Текст

Метрика сходства: Любой (нормализованный)

Лицензия: Apache 2.0

Размерности: 768

Максимальное количество входных токенов: 512

Цена: Бесплатно

Введение в эмбеддинг e5-base-v2

e5-base-v2 - это модель, предназначенная для генерации вкраплений текста, которые могут быть использованы для решения различных задач обработки естественного языка (NLP), включая семантический поиск, расширенное генерирование поиска (RAG) и кластеризацию. Эта модель основана на слабом контрастном предварительном обучении и особенно эффективна для работы с беспорядочными данными и короткими запросами, возвращающими отрывки текста средней длины.

Модель требует, чтобы входные тексты были снабжены префиксом "query: " для запросов и "passage: " для отрывков. Модель может быть использована с помощью таких библиотек, как Hugging Face's Transformers и Sentence Transformers, что позволяет легко интегрировать ее в приложения.

Сравнение e5-large-v2 и e5-base-v2:


Характеристика/возможности	e5-base-v2	e5-large-v2
Слои	12	24
Размер вставки	768	1024
Макс токенов	512	512
Производительность	Хорошо подходит для общих задач встраивания текста	Сильная производительность в таких бенчмарках, как BEIR и MTEB, часто превосходящая более мелкие модели
Требования к входному префиксу	"query: " для запросов, "passage: " для отрывков	"query: " для запросов, "passage: " для отрывков
Ссылка на модель	Hugging Face E5-base-v2	Hugging Face E5-large-v2

Как создавать вкрапления с помощью e5-base-v2

Существует два основных способа создания векторных вкраплений:

PyMilvus: Python SDK для Milvus, который легко интегрирует модель e5-base-v2.
Библиотека SentenceTransformer: библиотека Python `sentence-transformer.

После того как векторные вкрапления сгенерированы, их можно хранить в Zilliz Cloud (полностью управляемый сервис векторных баз данных на базе Milvus) и использовать для поиска семантического сходства. Вот четыре ключевых шага:

Зарегистрируйтесь для получения бесплатной учетной записи Zilliz Cloud.
Настройте бессерверный кластер и получите Публичную конечную точку и ключ API.
Создайте коллекцию векторов и вставьте в нее свои векторные вкрапления.
Запустите семантический поиск по сохраненным вкраплениям.

Генерировать векторные вкрапления с помощью PyMilvus и вставлять их в Zilliz Cloud для семантического поиска

from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
из pymilvus import MilvusClient

ef = SentenceTransformerEmbeddingFunction("intfloat/e5-base-v2")

docs = [
   "Искусственный интеллект был основан как академическая дисциплина в 1956 году",
   "Алан Тьюринг был первым человеком, который провел серьезные исследования в области искусственного интеллекта",
   "Тьюринг родился в Майда-Вейл, Лондон, и вырос на юге Англии".
]

# Генерируем вкрапления для документов
docs_embeddings = ef(docs)

запросы = ["Когда был основан искусственный интеллект",
          "Где родился Алан Тьюринг?"].

# Генерируем вкрапления для запросов
query_embeddings = ef(queries)

# Подключение к облаку Zilliz с помощью публичной конечной точки и ключа API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

КОЛЛЕКЦИЯ = "документы"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    имя_коллекции=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

для doc, embedding в zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    имя_коллекции=КОЛЛЕКЦИЯ,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Для получения дополнительной информации обратитесь к нашей документации PyMilvus Embedding Model.

Генерируем векторные вкрапления с помощью библиотеки SentenceTransformer и вставляем их в Zilliz Cloud для семантического поиска

from sentence_transformers import SentenceTransformer
из pymilvus import MilvusClient

model = SentenceTransformer("intfloat/e5-base-v2")

docs = [
   "Искусственный интеллект был основан как академическая дисциплина в 1956 году",
   "Алан Тьюринг был первым человеком, который провел серьезные исследования в области искусственного интеллекта",
   "Тьюринг родился в Майда-Вейл, Лондон, и вырос на юге Англии".
]

# Генерируем вкрапления для документов
docs_embeddings = model.encode(docs, normalize_embeddings=True)


запросы = ["Когда был основан искусственный интеллект",
          "Где родился Алан Тьюринг?"].

# Генерируем вкрапления для запросов
query_embeddings = model.encode(queries, normalize_embeddings=True)

# Подключение к облаку Zilliz с помощью публичной конечной точки и ключа API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

КОЛЛЕКЦИЯ = "документы"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    имя_коллекции=COLLECTION,
    dimension=768,
    auto_id=True)

для doc, embedding в zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    имя_коллекции=КОЛЛЕКЦИЯ,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Дополнительную информацию можно найти в Документация SentenceTransformer.

Контент

Беспрерывные AI рабочие процессы

От встраиваний до масштабируемого AI поиска—Zilliz Cloud позволяет вам хранить, индексировать и извлекать встраивания с непревзойденной скоростью и эффективностью.

Попробуйте Zilliz Cloud Бесплатно

Быстро оцените стоимость вашего внедрения

Введение в эмбеддинг e5-base-v2

Как создавать вкрапления с помощью e5-base-v2

Генерировать векторные вкрапления с помощью PyMilvus и вставлять их в Zilliz Cloud для семантического поиска

Генерируем векторные вкрапления с помощью библиотеки SentenceTransformer и вставляем их в Zilliz Cloud для семантического поиска

Контент

Беспрерывные AI рабочие процессы

Связанные ресурсы

Оценка модели встраивания

Обучение собственной модели встраивания текста

Создавайте приложения для искусственного интеллекта с помощью технологии Retrieval Augmented Generation (RAG)