Microsoft / multilingual-e5-large
Milvus Integrated
Tarea: Inserción
Modalidad: Texto
Métrica de Similitud: Cualquiera (Normalizado)
Licencia: En
Dimensiones: 1024
Tokens de Entrada Máximos: 512
Precio: Gratis
Introducción al modelo de incrustación multilingüe-e5-large
- Adaptado a documentos multilingües; admite más de 100 idiomas; ideal para tareas de recuperación de información multilingüe y búsqueda semántica.
El modelo multilingual-e5-large es un modelo de incrustación de texto de última generación desarrollado por Microsoft y basado en la arquitectura XLM-RoBERTa-large. Con su estructura de 24 capas y 560 millones de parámetros, el modelo multilingual-e5-large genera incrustaciones de 1024 dimensiones y es compatible con 100 idiomas, por lo que ofrece un rendimiento sólido incluso en contextos multilingües.
Entrenado con mil millones de pares de textos poco supervisados y perfeccionado con conjuntos de datos específicos, el modelo destaca en tareas de recuperación de información multilingüe y búsqueda semántica. Procesa entradas de texto precedidas de "query:" o "passage:" para crear incrustaciones que reflejen con precisión el contenido semántico. Este modelo demuestra un rendimiento superior en pruebas de referencia multilingües, superando a modelos más pequeños y métodos tradicionales, lo que lo hace ideal para el análisis de textos multilingües, la agrupación y las comparaciones de similitud.
Cómo crear incrustaciones vectoriales con el modelo multilingual-e5-large
Existen dos formas principales de crear incrustaciones vectoriales con el modelo multilingual-e5-large:
- SentenceTransformer library: la biblioteca Python de
sentence-transformer.
Una vez generadas las incrustaciones vectoriales, pueden almacenarse en Zilliz Cloud (un servicio de base de datos vectorial totalmente gestionado e impulsado por Milvus) y utilizarse para la búsqueda de similitud semántica. He aquí cuatro pasos clave:
- Inscríbete para obtener una cuenta de Zilliz Cloud de forma gratuita.
- Configura un clúster sin servidor y obtén el Public Endpoint and API Key.
- Crea una colección de vectores e inserta tus incrustaciones vectoriales.
- Ejecuta una búsqueda semántica en las incrustaciones almacenadas.
Generar incrustaciones vectoriales a través de PyMilvus e insertarlas en Zilliz Cloud para la búsqueda semántica.
from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
from pymilvus import MilvusClient
ef = SentenceTransformerEmbeddingFunction("intfloat/multilingual-e5-large")
docs = [
" pasaje: La inteligencia artificial se fundó como disciplina académica en 1956",
"passage: Alan Turing fue la primera persona que realizó investigaciones en el campo de la inteligencia artificial",
"passage: 图灵出生在伦敦的梅达维尔,他在英格兰南部长大。"
]
# Generar incrustaciones para los documentos
docs_embeddings = ef(docs)
consultas = ["consulta: ¿Cuándo se fundó la inteligencia artificial?
"query: Wo wurde Alan Turing geboren?"].
# Generar incrustaciones para las consultas
incrustaciones_consulta = ef(consultas)
# Conectarse a Zilliz Cloud con el punto final público y la clave API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLECCIÓN = "documentos"
if client.has_collection(nombre_coleccion=COLECCION):
client.drop_collection(nombre_coleccion=COLECCION)
client.create_collection(
nombre_colección=COLECCIÓN,
dimensión=ef.dim,
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"texto": doc, "vector": incrustación})
resultados = client.search(
nombre_colección=COLECCIÓN,
datos=consulta_incrustaciones,
consistency_level="Strong",
output_fields=["text"])
Para más información, consulte nuestra Documentación sobre el modelo de incrustación de PyMilvus.
Generar incrustaciones vectoriales mediante SentenceTransformer e insertarlas en Zilliz Cloud para la búsqueda semántica.
from sentence_transformers import SentenceTransformer
from pymilvus import MilvusClient
model = SentenceTransformer("intfloat/multilingual-e5-large")
docs = [
" pasaje: La inteligencia artificial se fundó como disciplina académica en 1956",
"passage: Alan Turing fue la primera persona que realizó investigaciones en el campo de la inteligencia artificial",
"passage: 图灵出生在伦敦的梅达维尔,他在英格兰南部长大。"
]
# Generar incrustaciones para los documentos
docs_embeddings = model.encode(docs, normalize_embeddings=True)
consultas = ["consulta: ¿Cuándo se fundó la inteligencia artificial?
"query: Wo wurde Alan Turing geboren?" ]
# Generar incrustaciones para las consultas
query_embeddings = model.encode(queries, normalize_embeddings=True)
# Conectarse a Zilliz Cloud con el punto final público y la clave API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLECCIÓN = "documentos"
if client.has_collection(nombre_coleccion=COLECCION):
client.drop_collection(nombre_coleccion=COLECCION)
client.create_collection(
nombre_colección=COLECCIÓN,
dimensión=1024,
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"texto": doc, "vector": incrustación})
resultados = client.search(
nombre_colección=COLECCIÓN,
datos=consulta_incrustaciones,
consistency_level="Strong",
output_fields=["text"])
Para más información, consulte Documentación de SentenceTransformer.
- Introducción al modelo de incrustación multilingüe-e5-large
- Cómo crear incrustaciones vectoriales con el modelo multilingual-e5-large
Contenido
Flujos de trabajo de IA sin interrupciones
Desde incrustaciones hasta búsqueda de IA escalable—Zilliz Cloud te permite almacenar, indexar y recuperar incrustaciones con una velocidad y eficiencia inigualables.
Prueba Zilliz Cloud Gratis

