Руководство по jina-embeddings-v2-small-en

Все модели
Джина А.И. / jina-embeddings-v2-small-en

Джина А.И. / jina-embeddings-v2-small-en

AI Model Milvus Integrated

Задача: Встраивание

Модальность: Текст

Метрика сходства: Любой (нормализованный)

Лицензия: Apache 2.0

Размерности: 512

Максимальное количество входных токенов: 8192

Цена: Бесплатно

Введение в модели Jina Embedding v2

Модели Jina Embeddings v2 предназначены для работы с длинными документами с расширенным максимальным размером входных данных 8 192 лексем. По состоянию на октябрь 2024 года, Jina AI Embedding V2 имеет следующие варианты, каждый из которых удовлетворяет различные потребности во встраивании:

Введение в jina-embeddings-v2-small-en

jina-embeddings-v2-small-en - это английская монолингвальная модель встраивания, рассчитанная на длину последовательности до 8192 лексем. Это самый маленький вариант в семействе Jina Embeddings v2, которое было обучено с 33 миллионами параметров и генерирует 512-мерные вкрапления.

Сравнение jina-embeddings-v2-small-en с другими моделями встраивания Jina.

Модель	Размер параметра	Размерность встраивания	Текст
jina-embeddings-v3	570M	гибкий размер встраивания (по умолчанию: 1024)	многоязычное встраивание текста; поддерживает 94 языка в целом
jina-embeddings-v2-small-en	33M	512	монолингвальных вкраплений на английском языке
jina-embeddings-v2-base-en	137M	768	английских одноязычных вкраплений
jina-embeddings-v2-base-zh	161M	768	Китайско-английские двуязычные вкрапления
jina-embeddings-v2-base-de	161M	768	Немецко-английские двуязычные вкрапления
jina-embeddings-v2-base-code	161M	768	Английский и языки программирования

Как создавать вкрапления с помощью jina-embeddings-v2-small-en

Существует два основных способа создания векторных вкраплений:

PyMilvus: Python SDK для Milvus, который легко интегрирует модель jina-embeddings-v2-small-en.
Библиотека SentenceTransformer: библиотека Python sentence-transformer.

После того как векторные вкрапления сгенерированы, их можно хранить в Zilliz Cloud (полностью управляемый сервис векторных баз данных на базе Milvus) и использовать для поиска семантического сходства. Вот четыре ключевых шага:

Зарегистрируйтесь для бесплатной учетной записи Zilliz Cloud.
Настройте бессерверный кластер и получите Публичную конечную точку и ключ API.
Создайте коллекцию векторов и вставьте в нее свои векторные вкрапления.
Запустите семантический поиск по сохраненным вкраплениям.

Создание вкраплений с помощью PyMilvus

из pymilvus.model.dense import SentenceTransformerEmbeddingFunction
из pymilvus import MilvusClient

ef = SentenceTransformerEmbeddingFunction("jinaai/jina-embeddings-v2-small-en", trust_remote_code=True)

docs = [
   "Искусственный интеллект был основан как академическая дисциплина в 1956 году",
   "Алан Тьюринг был первым человеком, который провел серьезные исследования в области искусственного интеллекта",
   "Тьюринг родился в Мейда-Вейл, Лондон, и вырос в южной Англии".
]
# Генерируем вкрапления для документов
docs_embeddings = ef(docs)

запросы = ["Когда был основан искусственный интеллект",
          "Где родился Алан Тьюринг?"]
# Генерируем вкрапления для запросов
query_embeddings = ef(queries)

# Подключение к облаку Zilliz с помощью публичной конечной точки и ключа API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

КОЛЛЕКЦИЯ = "документы"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    имя_коллекции=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

для doc, embedding в zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    имя_коллекции=КОЛЛЕКЦИЯ,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Для получения дополнительной информации обратитесь к нашей документации PyMilvus Embedding Model.

Создание вкраплений с помощью трансформатора предложений

from sentence_transformers import SentenceTransformer
из pymilvus import MilvusClient

model = SentenceTransformer("jinaai/jina-embeddings-v2-small-en", trust_remote_code=True)

docs = [
   "Искусственный интеллект был основан как академическая дисциплина в 1956 году",
   "Алан Тьюринг был первым человеком, который провел серьезные исследования в области искусственного интеллекта",
   "Тьюринг родился в Мейда-Вейл, Лондон, и вырос в южной Англии".
]
# Генерируем вкрапления для документов
docs_embeddings = model.encode(docs, normalize_embeddings=True)

запросы = ["запрос: Когда был основан искусственный интеллект",
           "query: Wo wurde Alan Turing geboren?" ]
# Генерируем вкрапления для запросов
query_embeddings = model.encode(queries, normalize_embeddings=True)

# Подключение к облаку Zilliz с помощью публичной конечной точки и ключа API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

КОЛЛЕКЦИЯ = "документы"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    имя_коллекции=COLLECTION,
    dimension=512,
    auto_id=True)

для doc, embedding в zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    имя_коллекции=КОЛЛЕКЦИЯ,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Более подробную информацию см. в Документация по Hugging Face.

Контент

Беспрерывные AI рабочие процессы

От встраиваний до масштабируемого AI поиска—Zilliz Cloud позволяет вам хранить, индексировать и извлекать встраивания с непревзойденной скоростью и эффективностью.

Попробуйте Zilliz Cloud Бесплатно

Поделиться этой статьей

Быстро оцените стоимость вашего внедрения

Введение в модели Jina Embedding v2

Введение в jina-embeddings-v2-small-en

Как создавать вкрапления с помощью jina-embeddings-v2-small-en

Создание вкраплений с помощью PyMilvus

Создание вкраплений с помощью трансформатора предложений

Контент

Беспрерывные AI рабочие процессы

Поделиться этой статьей

Связанные ресурсы

Оценка модели встраивания

Обучение собственной модели встраивания текста

Создавайте приложения для искусственного интеллекта с помощью технологии Retrieval Augmented Generation (RAG)