Джина А.И. / jina-embeddings-v3
Milvus Integrated
Задача: Встраивание
Модальность: Текст
Метрика сходства: Любой (нормализованный)
Лицензия: CC BY-NC 4.0
Размерности: 1024
Максимальное количество входных токенов: 8192
Цена:
Обзор jina-embeddings-v3
Модель jina-embeddings-v3 - это недавно выпущенный JinaAI многоязычный инструмент для встраивания текста с 570 миллионами параметров и максимальной длиной входных данных 8192 лексем. Она может обрабатывать многоязычные данные и решать задачи поиска по длинным контекстам, достигая наилучшей производительности (SOTA) на 94 языках. Эта модель создает вкрапления, пригодные для решения целого ряда задач, включая поиск по запросу-документу, кластеризацию, классификацию и сопоставление текстов.
Jina-embeddings-v3 также поддерживает Matryoshka Embeddings, что позволяет настраивать размер выходных вкраплений в зависимости от ваших потребностей. Хотя по умолчанию размер выходных данных составляет 1024, вы можете уменьшить его до 32, 64, 128, 256, 512 или 768 без потери производительности, что делает программу пригодной для различных приложений.
Сравните jina-embeddings-v3 с моделями Jina v2:
| Модель | Размер параметра | Размер встраивания | Текст |
|---|---|---|---|
| jina-embeddings-v3 | 570M | гибкий размер встраивания (по умолчанию: 1024) | многоязычное встраивание текста; поддерживает 94 языка в целом |
| jina-embeddings-v2-small-en | 33M | 512 | монолингвальных вкраплений на английском языке |
| jina-embeddings-v2-base-en | 137M | 768 | английских одноязычных вкраплений |
| jina-embeddings-v2-base-zh | 161M | 768 | Китайско-английские двуязычные вкрапления |
| jina-embeddings-v2-base-de | 161M | 768 | Немецко-английские двуязычные вкрапления |
| jina-embeddings-v2-base-code | 161M | 768 | Английский и языки программирования |
Как создавать вкрапления с помощью jina-embeddings-v3
Существует два основных способа создания векторных вкраплений:
- PyMilvus: Python SDK для Milvus, который легко интегрирует модель
jina-embeddings-v3. - Библиотека SentenceTransformer: библиотека Python
sentence-transformer.
После того как векторные вкрапления сгенерированы, их можно хранить в Zilliz Cloud (полностью управляемый сервис векторных баз данных на базе Milvus) и использовать для поиска семантического сходства. Вот четыре ключевых шага:
- Зарегистрируйтесь для бесплатной учетной записи Zilliz Cloud.
- Настройте бессерверный кластер и получите Публичную конечную точку и ключ API.
- Создайте коллекцию векторов и вставьте в нее свои векторные вкрапления.
- Запустите семантический поиск по сохраненным вкраплениям.
Создание вкраплений с помощью PyMilvus и вставка их в Zilliz Cloud для семантического поиска
from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
из pymilvus import MilvusClient
ef = SentenceTransformerEmbeddingFunction("jinaai/jina-embeddings-v3", trust_remote_code=True)
docs = [
"Искусственный интеллект был основан как академическая дисциплина в 1956 году",
"Алан Тьюринг был первым человеком, который провел серьезные исследования в области искусственного интеллекта",
"Тьюринг родился в Мейда-Вейл, Лондон, и вырос в южной Англии".
]
# Генерируем вкрапления для документов
docs_embeddings = ef(docs)
запросы = ["Когда был основан искусственный интеллект",
"Где родился Алан Тьюринг?"]
# Генерируем вкрапления для запросов
query_embeddings = ef(queries)
# Подключение к облаку Zilliz с помощью публичной конечной точки и ключа API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
КОЛЛЕКЦИЯ = "документы"
if client.has_collection(collection_name=COLLECTION):
client.drop_collection(collection_name=COLLECTION)
client.create_collection(
имя_коллекции=COLLECTION,
dimension=ef.dim,
auto_id=True)
для doc, embedding в zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vector": embedding})
results = client.search(
имя_коллекции=КОЛЛЕКЦИЯ,
data=query_embeddings,
consistency_level="Strong",
output_fields=["text"])
Более подробную информацию можно найти на этой странице документации Jina AI documentation page.
Создание вкраплений с помощью Sentence Transformer и вставка их в Zilliz Cloud для семантического поиска
from sentence_transformers import SentenceTransformer
from pymilvus import MilvusClient
model = SentenceTransformer("jinaai/jina-embeddings-v3", trust_remote_code=True)
docs = [
"Искусственный интеллект был основан как академическая дисциплина в 1956 году",
"Алан Тьюринг был первым человеком, который провел серьезные исследования в области искусственного интеллекта",
"Тьюринг родился в Мейда-Вейл, Лондон, и вырос в южной Англии".
]
# Генерируем вкрапления для документов
docs_embeddings = model.encode(docs, normalize_embeddings=True)
запросы = ["запрос: Когда был основан искусственный интеллект",
"query: Wo wurde Alan Turing geboren?" ]
# Генерируем вкрапления для запросов
query_embeddings = model.encode(queries, normalize_embeddings=True)
# Подключение к облаку Zilliz с помощью публичной конечной точки и ключа API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
КОЛЛЕКЦИЯ = "документы"
if client.has_collection(collection_name=COLLECTION):
client.drop_collection(collection_name=COLLECTION)
client.create_collection(
имя_коллекции=COLLECTION,
dimension=512,
auto_id=True)
для doc, embedding в zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vector": embedding})
results = client.search(
имя_коллекции=КОЛЛЕКЦИЯ,
data=query_embeddings,
consistency_level="Strong",
output_fields=["text"])
Дальнейшее чтение
- Обучение вкраплений текста с помощью Jina AI
- General Text-Image Representation Learning for Search and Multimodal RAG
- Выбор правильной модели встраивания для ваших данных
- Evaluating Your Embedding Model
- Training Your Own Text Embedding Model
- Руководство для начинающих по чанкингу и встраиванию веб-сайтов для ваших приложений RAG
- Что такое RAG?
- Обзор jina-embeddings-v3
- Как создавать вкрапления с помощью jina-embeddings-v3
- Создание вкраплений с помощью Sentence Transformer и вставка их в Zilliz Cloud для семантического поиска
- Дальнейшее чтение
Контент
Беспрерывные AI рабочие процессы
От встраиваний до масштабируемого AI поиска—Zilliz Cloud позволяет вам хранить, индексировать и извлекать встраивания с непревзойденной скоростью и эффективностью.
Попробуйте Zilliz Cloud Бесплатно

