Руководство по модели embed-english-v3.0

Все модели
Cohere / embed-english-v3.0

Cohere / embed-english-v3.0

AI Model Milvus Integrated

Задача: Встраивание

Модальность: Текст

Метрика сходства: Любой (нормализованный)

Лицензия: Собственные

Размерности: 1024

Максимальное количество входных токенов: 512

Цена: $0,10 / 1M токенов

Введение в модель embed-english-v3.0

embed-english-v3.0 - это высокопроизводительная модель встраивания, предназначенная для английского текста и являющаяся членом недавно выпущенного семейства моделей Embed V3 от Cohere. Она идеально подходит для семантического поиска, расширенного поиска (RAG), классификации текстов и кластеризации документов.

Сравнение всех моделей встраивания в серии моделей Embed V3.


Название модели	Размеры	МТЭБ Производительность (выше - лучше)	БЭИР Производительность (выше - лучше)
embed-english-v3.0	1024	64.5	55.9
	embed-english-light-3.0	384	62.0	52.0
embed-multilingual-v3.0	1024	64.0	54.6
embed-multilingual-light-v3.0	384	60.1	50.9
embed-multilingual-v2.0	768	58.5	47.1

MTEB: широкий набор данных для оценки поиска, классификации и кластеризации (56 наборов данных).
BEIR: набор данных, ориентированный на поиск информации вне домена (14 наборов данных).

Как создавать векторные вкрапления с помощью модели embed-english-v3.0

Существует два основных способа использования модели embed-english-v3.0 для генерации векторных вкраплений:

PyMilvus: Python SDK для Milvus, который легко интегрирует модель embed-english-v3.0.
Cohere python SDK: python SDK, предлагаемый компанией Cohere.

После того как векторные вкрапления сгенерированы, их можно хранить в Zilliz Cloud (полностью управляемый сервис векторных баз данных на базе Milvus) и использовать для поиска семантического сходства. Вот четыре ключевых шага:

Зарегистрируйтесь для получения бесплатной учетной записи Zilliz Cloud.
Настройте бессерверный кластер и получите Публичную конечную точку и ключ API.
Создайте коллекцию векторов и вставьте в нее свои векторные вкрапления.
Запустите семантический поиск по сохраненным вкраплениям.

Генерировать векторные вкрапления с помощью PyMilvus и вставлять их в Zilliz Cloud для семантического поиска

from pymilvus.model.dense import CohereEmbeddingFunction
from pymilvus import MilvusClient

COHERE_API_KEY = "your-cohere-api-key"

ef = CohereEmbeddingFunction("embed-english-v3.0", api_key=COHERE_API_KEY)

docs = [
   "Искусственный интеллект был основан как академическая дисциплина в 1956 году",
   "Алан Тьюринг был первым человеком, который провел серьезные исследования в области искусственного интеллекта",
   "Тьюринг родился в Мейда Вейл, Лондон, и вырос в южной Англии".
]

# Генерируем вкрапления для документов
docs_embeddings = ef.encode_documents(docs)

запросы = ["Когда был основан искусственный интеллект",
          "Где родился Алан Тьюринг?"].

# Генерируем вкрапления для запросов
query_embeddings = ef.encode_queries(queries)

# Подключение к облаку Zilliz с помощью публичной конечной точки и ключа API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

КОЛЛЕКЦИЯ = "документы"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    имя_коллекции=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

для doc, embedding в zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(имя_коллекции=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Для получения дополнительной информации обратитесь к нашей документации PyMilvus Embedding Model.

Генерировать векторные вкрапления с помощью Cohere python SDK и вставлять их в Zilliz Cloud для семантического поиска

импортировать cohere
from pymilvus import MilvusClient

COHERE_API_KEY = "your-cohere-api-key"
co = cohere.Client(COHERE_API_KEY)

docs = [
   "Искусственный интеллект был основан как академическая дисциплина в 1956 году",
   "Алан Тьюринг был первым человеком, который провел серьезные исследования в области искусственного интеллекта",
   "Тьюринг родился в Мейда-Вейл, Лондон, и вырос в южной Англии".
]

docs_embeddings = co.embed(
    texts=docs, model="embed-english-v3.0", input_type="search_document"
).embeddings

запросы = ["Когда был основан искусственный интеллект",
          "Где родился Алан Тьюринг?"].

query_embeddings = co.embed(
    texts=docs, model="embed-english-v3.0", input_type="search_query"
).embeddings

# Подключение к облаку Zilliz с помощью публичной конечной точки и ключа API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

КОЛЛЕКЦИЯ = "документы"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    имя_коллекции=COLLECTION,
    dimension=1024,
    auto_id=True)

для doc, embedding в zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    имя_коллекции=КОЛЛЕКЦИЯ,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Дополнительную информацию можно найти в Документация Cohere.

Контент

Беспрерывные AI рабочие процессы

От встраиваний до масштабируемого AI поиска—Zilliz Cloud позволяет вам хранить, индексировать и извлекать встраивания с непревзойденной скоростью и эффективностью.

Попробуйте Zilliz Cloud Бесплатно

Поделиться этой статьей

Быстро оцените стоимость вашего внедрения

Введение в модель embed-english-v3.0

Как создавать векторные вкрапления с помощью модели embed-english-v3.0

Генерировать векторные вкрапления с помощью PyMilvus и вставлять их в Zilliz Cloud для семантического поиска

Генерировать векторные вкрапления с помощью Cohere python SDK и вставлять их в Zilliz Cloud для семантического поиска

Контент

Беспрерывные AI рабочие процессы

Поделиться этой статьей

Связанные ресурсы

Оценка модели встраивания

Обучение собственной модели встраивания текста

Создавайте приложения для искусственного интеллекта с помощью технологии Retrieval Augmented Generation (RAG)