Джина А.И. / jina-embeddings-v2-base-en
Milvus Integrated
Задача: Встраивание
Модальность: Текст
Метрика сходства: Любой (нормализованный)
Лицензия: Apache 2.0
Размерности: 768
Максимальное количество входных токенов: 8192
Цена: Бесплатно
Введение в модели Jina Embedding v2
Модели Jina Embeddings v2 предназначены для работы с длинными документами с расширенным максимальным размером входных данных 8 192 лексем. По состоянию на октябрь 2024 года, Jina AI Embedding V2 имеет следующие варианты, каждый из которых удовлетворяет различные потребности во встраивании:
- jina-embeddings-v2-small-en
- jina-embeddings-v2-base-en
- jina-embeddings-v2-base-zh
- jina-embeddings-v2-base-de
- jina-embeddings-v2-base-code
Введение в jina-embeddings-v2-base-en
jina-embeddings-v2-base-en - это английская монолингвальная модель встраивания для последовательности длиной до 8192 лексем. Это средний или базовый вариант в семействе Jina Embeddings v2, который был обучен 137 миллионам параметров и генерирует 768-мерные вкрапления.
Сравнение jina-embeddings-v2-small-en с другими моделями вкраплений Jina.
| Модель | Размер параметра | Размерность встраивания | Текст |
|---|---|---|---|
| jina-embeddings-v3 | 570M | гибкий размер встраивания (по умолчанию: 1024) | многоязычное встраивание текста; поддерживает 94 языка в целом |
| jina-embeddings-v2-small-en | 33M | 512 | монолингвальных вкраплений на английском языке |
| jina-embeddings-v2-base-en | 137M | 768 | английских одноязычных вкраплений |
| jina-embeddings-v2-base-zh | 161M | 768 | Китайско-английские двуязычные вкрапления |
| jina-embeddings-v2-base-de | 161M | 768 | Немецко-английские двуязычные вкрапления |
| jina-embeddings-v2-base-code | 161M | 768 | Английский и языки программирования |
Как создавать вкрапления с помощью jina-embeddings-v2-base-en
Существует два основных способа использования модели jina-embeddings-v2-base-en для генерации векторных вкраплений:
- PyMilvus: Python SDK для Milvus, который легко интегрирует модель
jina-embeddings-v2-base-en. - Библиотека SentenceTransformer: python-библиотека
sentence-transformer.
Генерирует векторные вкрапления через PyMilvus и вставляет их в Zilliz Cloud для семантического поиска
from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
из pymilvus import MilvusClient
ef = SentenceTransformerEmbeddingFunction("jinaai/jina-embeddings-v2-base-en", trust_remote_code=True)
docs = [
"Искусственный интеллект был основан как академическая дисциплина в 1956 году",
"Алан Тьюринг был первым человеком, который провел серьезные исследования в области ИИ",
"Тьюринг родился в Мейда-Вейл, Лондон, и вырос в южной Англии".
]
# Генерируем вкрапления для документов
docs_embeddings = ef(docs)
запросы = ["Когда был основан искусственный интеллект",
"Где родился Алан Тьюринг?"]
# Генерируем вкрапления для запросов
query_embeddings = ef(queries)
# Подключение к облаку Zilliz с помощью публичной конечной точки и ключа API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
КОЛЛЕКЦИЯ = "документы"
if client.has_collection(collection_name=COLLECTION):
client.drop_collection(collection_name=COLLECTION)
client.create_collection(
имя_коллекции=COLLECTION,
dimension=ef.dim,
auto_id=True)
для doc, embedding в zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vector": embedding})
results = client.search(
имя_коллекции=КОЛЛЕКЦИЯ,
data=query_embeddings,
consistency_level="Strong",
output_fields=["text"])
Для получения дополнительной информации обратитесь к нашей документации PyMilvus Embedding Model.
Генерируем векторные вкрапления с помощью SentenceTransformer и вставляем их в Zilliz Cloud для семантического поиска
from sentence_transformers import SentenceTransformer
из pymilvus import MilvusClient
model = SentenceTransformer("jinaai/jina-embeddings-v2-base-en", trust_remote_code=True)
docs = [
"Искусственный интеллект был основан как академическая дисциплина в 1956 году",
"Алан Тьюринг был первым человеком, который провел серьезные исследования в области ИИ",
"Тьюринг родился в Мейда-Вейл, Лондон, и вырос в южной Англии".
]
# Генерируем вкрапления для документов
docs_embeddings = model.encode(docs, normalize_embeddings=True)
запросы = ["запрос: Когда был основан искусственный интеллект",
"query: Wo wurde Alan Turing geboren?" ]
# Генерируем вкрапления для запросов
query_embeddings = model.encode(queries, normalize_embeddings=True)
# Подключение к облаку Zilliz с помощью публичной конечной точки и ключа API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
КОЛЛЕКЦИЯ = "документы"
if client.has_collection(collection_name=COLLECTION):
client.drop_collection(collection_name=COLLECTION)
client.create_collection(
имя_коллекции=COLLECTION,
dimension=768,
auto_id=True)
для doc, embedding в zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vector": embedding})
results = client.search(
имя_коллекции=КОЛЛЕКЦИЯ,
data=query_embeddings,
consistency_level="Strong",
output_fields=["text"])
Дополнительную информацию можно найти в Документация SentenceTransformer.
- Введение в модели Jina Embedding v2
- Введение в jina-embeddings-v2-base-en
- Как создавать вкрапления с помощью jina-embeddings-v2-base-en
Контент
Беспрерывные AI рабочие процессы
От встраиваний до масштабируемого AI поиска—Zilliz Cloud позволяет вам хранить, индексировать и извлекать встраивания с непревзойденной скоростью и эффективностью.
Попробуйте Zilliz Cloud Бесплатно

