La guía del modelo multilingüe-e5-large

Todos los modelos
Microsoft / multilingual-e5-large

Microsoft / multilingual-e5-large

AI Model Milvus Integrated

Tarea: Inserción

Modalidad: Texto

Métrica de Similitud: Cualquiera (Normalizado)

Licencia: En

Dimensiones: 1024

Tokens de Entrada Máximos: 512

Precio: Gratis

Introducción al modelo de incrustación multilingüe-e5-large

Adaptado a documentos multilingües; admite más de 100 idiomas; ideal para tareas de recuperación de información multilingüe y búsqueda semántica.

El modelo multilingual-e5-large es un modelo de incrustación de texto de última generación desarrollado por Microsoft y basado en la arquitectura XLM-RoBERTa-large. Con su estructura de 24 capas y 560 millones de parámetros, el modelo multilingual-e5-large genera incrustaciones de 1024 dimensiones y es compatible con 100 idiomas, por lo que ofrece un rendimiento sólido incluso en contextos multilingües.

Entrenado con mil millones de pares de textos poco supervisados y perfeccionado con conjuntos de datos específicos, el modelo destaca en tareas de recuperación de información multilingüe y búsqueda semántica. Procesa entradas de texto precedidas de "query:" o "passage:" para crear incrustaciones que reflejen con precisión el contenido semántico. Este modelo demuestra un rendimiento superior en pruebas de referencia multilingües, superando a modelos más pequeños y métodos tradicionales, lo que lo hace ideal para el análisis de textos multilingües, la agrupación y las comparaciones de similitud.

Cómo crear incrustaciones vectoriales con el modelo multilingual-e5-large

Existen dos formas principales de crear incrustaciones vectoriales con el modelo multilingual-e5-large:

1. PyMilvus: el SDK de Python para Milvus que se integra perfectamente con el modelo multilingual-e5-large.
SentenceTransformer library: la biblioteca Python de sentence-transformer.

Una vez generadas las incrustaciones vectoriales, pueden almacenarse en Zilliz Cloud (un servicio de base de datos vectorial totalmente gestionado e impulsado por Milvus) y utilizarse para la búsqueda de similitud semántica. He aquí cuatro pasos clave:

Inscríbete para obtener una cuenta de Zilliz Cloud de forma gratuita.
Configura un clúster sin servidor y obtén el Public Endpoint and API Key.
Crea una colección de vectores e inserta tus incrustaciones vectoriales.
Ejecuta una búsqueda semántica en las incrustaciones almacenadas.

Generar incrustaciones vectoriales a través de PyMilvus e insertarlas en Zilliz Cloud para la búsqueda semántica.

from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
from pymilvus import MilvusClient

ef = SentenceTransformerEmbeddingFunction("intfloat/multilingual-e5-large")
    
docs = [
   " pasaje: La inteligencia artificial se fundó como disciplina académica en 1956",
   "passage: Alan Turing fue la primera persona que realizó investigaciones en el campo de la inteligencia artificial",
   "passage: 图灵出生在伦敦的梅达维尔，他在英格兰南部长大。"
]
    
# Generar incrustaciones para los documentos
docs_embeddings = ef(docs)
    
consultas = ["consulta: ¿Cuándo se fundó la inteligencia artificial?
           "query: Wo wurde Alan Turing geboren?"].
               
# Generar incrustaciones para las consultas
incrustaciones_consulta = ef(consultas)

# Conectarse a Zilliz Cloud con el punto final público y la clave API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLECCIÓN = "documentos"
if client.has_collection(nombre_coleccion=COLECCION):
    client.drop_collection(nombre_coleccion=COLECCION)
client.create_collection(
    nombre_colección=COLECCIÓN,
    dimensión=ef.dim,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"texto": doc, "vector": incrustación})
    
resultados = client.search(
    nombre_colección=COLECCIÓN,
    datos=consulta_incrustaciones,
    consistency_level="Strong",
    output_fields=["text"])

Para más información, consulte nuestra Documentación sobre el modelo de incrustación de PyMilvus.

Generar incrustaciones vectoriales mediante SentenceTransformer e insertarlas en Zilliz Cloud para la búsqueda semántica.

from sentence_transformers import SentenceTransformer
from pymilvus import MilvusClient

model = SentenceTransformer("intfloat/multilingual-e5-large")

docs = [
   " pasaje: La inteligencia artificial se fundó como disciplina académica en 1956",
   "passage: Alan Turing fue la primera persona que realizó investigaciones en el campo de la inteligencia artificial",
   "passage: 图灵出生在伦敦的梅达维尔，他在英格兰南部长大。"
]
# Generar incrustaciones para los documentos
docs_embeddings = model.encode(docs, normalize_embeddings=True)

consultas = ["consulta: ¿Cuándo se fundó la inteligencia artificial?
           "query: Wo wurde Alan Turing geboren?" ]
# Generar incrustaciones para las consultas
query_embeddings = model.encode(queries, normalize_embeddings=True)

# Conectarse a Zilliz Cloud con el punto final público y la clave API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLECCIÓN = "documentos"
if client.has_collection(nombre_coleccion=COLECCION):
    client.drop_collection(nombre_coleccion=COLECCION)
client.create_collection(
    nombre_colección=COLECCIÓN,
    dimensión=1024,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"texto": doc, "vector": incrustación})
    
resultados = client.search(
    nombre_colección=COLECCIÓN,
    datos=consulta_incrustaciones,
    consistency_level="Strong",
    output_fields=["text"])

Para más información, consulte Documentación de SentenceTransformer.

Contenido

Flujos de trabajo de IA sin interrupciones

Desde incrustaciones hasta búsqueda de IA escalable—Zilliz Cloud te permite almacenar, indexar y recuperar incrustaciones con una velocidad y eficiencia inigualables.

Prueba Zilliz Cloud Gratis

Calcule rápidamente el costo de su incrustación

Introducción al modelo de incrustación multilingüe-e5-large

Cómo crear incrustaciones vectoriales con el modelo multilingual-e5-large

Generar incrustaciones vectoriales a través de PyMilvus e insertarlas en Zilliz Cloud para la búsqueda semántica.

Generar incrustaciones vectoriales mediante SentenceTransformer e insertarlas en Zilliz Cloud para la búsqueda semántica.

Contenido

Flujos de trabajo de IA sin interrupciones

Recursos relacionados

Evaluación del modelo de incrustación

Formación de su propio modelo de incrustación de texto

Cree aplicaciones de IA con la Generación Aumentada por Recuperación (RAG)