Blog
Presentamos Functions e inferencia de modelos en Zilliz Cloud: embedding y reranking automáticos con modelos alojados

Presentamos Functions e inferencia de modelos en Zilliz Cloud: embedding y reranking automáticos con modelos alojados

Mar 31, 20267 min read

Las canalizaciones de búsqueda de IA creadas sobre bases de datos vectoriales normalmente requieren que generes embeddings por tu cuenta, los insertes en la base de datos vectorial para la recuperación por similitud, incrustes cada consulta de la misma manera y añadas un servicio de reranking separado si quieres una mejor calidad de resultados. Funciona, pero implica más código de integración y más lugares donde las cosas pueden desviarse.

Hoy anunciamos Functions and Inference Services en Zilliz Cloud — ahora en Public Preview para modelos de terceros y Private Preview para Zilliz Hosted Models. Puedes insertar texto sin procesar y buscar con lenguaje natural. Luego Zilliz Cloud se encarga automáticamente de la generación de embeddings, el almacenamiento vectorial y el reranking de resultados.

¿Qué son Functions and Inference Services en Zilliz Cloud?

A Function es una operación declarativa adjunta a una colección que indica a Zilliz Cloud cómo procesar tus datos. En lugar de enviar vectores, ahora solo necesitas enviar texto sin procesar. En lugar de incrustar consultas del lado del cliente, envías consultas de texto directamente. Luego Zilliz Cloud se encarga del resto.

Las Functions se dividen en dos categorías:

Pre-search Functions se ejecutan en el momento de la ingesta y de la consulta, convirtiendo texto en representaciones buscables. Esto incluye BM25 para búsqueda de palabras clave de texto completo (no requiere modelo) y enfoques basados en modelos que producen embeddings densos para búsqueda semántica.
Post-search Functions se ejecutan después de la recuperación, refinando y reordenando resultados. Esto incluye rankers híbridos que combinan múltiples conjuntos de resultados, rankers basados en reglas para lógica de negocio y rankers basados en modelos que puntúan la relevancia entre consultas y documentos.

El siguiente diagrama proporciona una abstracción de cómo funcionan las Functions en el flujo de trabajo de búsqueda.

Inference Services impulsan las Functions basadas en modelos. Cuando una Function necesita generar un embedding o puntuar un par consulta-documento, llama a un modelo de una de dos fuentes:

Fuente	Cómo funciona
Proveedores de terceros (OpenAI, Voyage AI, Cohere)	Tú aportas tu clave de API. Zilliz Cloud gestiona la integración.
Zilliz Hosted Models	Instancias de modelos completamente gestionadas en la infraestructura GPU de Zilliz. Tus datos nunca salen de la plataforma.

La distinción más simple: Functions definen qué sucede con tus datos. Inference Services definen qué modelo hace el trabajo.

¿Por qué trasladar los embeddings y el reranking a Zilliz Cloud?

Si hoy llamas a una API de embeddings e insertas vectores en Zilliz Cloud, eso ya funciona. Pero a medida que las aplicaciones escalan, aparecen varios puntos de fricción.

La consistencia del modelo se convierte en tu problema

Tu ruta de ingesta y tu ruta de consulta deben usar exactamente el mismo modelo. Si se desvían — por ejemplo, una implementación actualiza un lado pero no el otro — la calidad de búsqueda se degrada silenciosamente. Con Functions, la colección es dueña de la configuración del modelo. Se garantiza que la ingesta y la consulta coincidan.

El reranking se omite porque genera demasiada fricción

El reranking basado en modelos mejora significativamente la calidad de los resultados, especialmente para la búsqueda híbrida. Pero añadir otra llamada de servicio después de cada consulta — con su propia clave de API, presupuesto de latencia y gestión de fallos — genera suficiente fricción como para que muchos equipos lancen sin ello. Cuando el reranking es una Function integrada, esa fricción desaparece.

Las credenciales se dispersan entre servicios

Cada servicio que escribe o busca datos necesita la clave de API de tu proveedor de embeddings. Con Functions, las credenciales viven en Model Provider Integration de Zilliz Cloud — un único lugar para gestionar, un único lugar para rotar claves, sin secretos en el código de la aplicación.

Los datos salen de tu red en cada llamada de inferencia

Para equipos con requisitos de privacidad o cumplimiento, enviar texto sin procesar a una API externa en cada inserción y consulta es una preocupación real. Hosted Models mantiene todo — datos, inferencia, almacenamiento, búsqueda — dentro de la red privada de Zilliz.

Qué está disponible en Public Preview

Funciones de embeddings basadas en modelos

Adjunta un modelo de embeddings a una colección. A partir de ese momento:

Inserta texto sin procesar mediante Insert, Upsert o Import — Zilliz Cloud genera y almacena automáticamente embeddings vectoriales densos.
Busca con texto — el sistema incrusta tu consulta con el mismo modelo y ejecuta una búsqueda ANN.

Sin código de embeddings del lado del cliente. Sin preocupaciones por la consistencia del modelo. Tu aplicación simplemente trabaja con texto.

Funciones de reranking basadas en modelos

Selecciona un modelo de reranking y aplícalo como un paso integrado posterior a la búsqueda. Esto es especialmente potente para la búsqueda híbrida, donde combinas recuperación semántica y por palabras clave en un único conjunto de resultados.

Los rerankers basados en modelos van más allá de la similitud vectorial — leen el contenido de cada candidato y evalúan qué tan bien responde realmente a la consulta. Es la diferencia entre "estos vectores están cerca" y "este documento responde a la pregunta."

Proveedores compatibles

Proveedor	Embedding	Reranking
OpenAI	Sí	--
Voyage AI	Sí	Sí
Cohere	Sí	Sí

Integración de proveedores de modelos

Registra tus credenciales de API de terceros una sola vez en la consola de Zilliz Cloud mediante Model Provider Integration. Las colecciones hacen referencia a la integración por ID — sin claves en el código. Rota las credenciales en un único lugar; cada colección que use esa integración adopta el cambio automáticamente.

Qué está en Private Preview: Hosted Models

Para equipos donde la latencia, el costo o la residencia de datos son una prioridad, Hosted Models ejecuta instancias de modelos totalmente gestionadas en la infraestructura GPU de Zilliz. La diferencia arquitectónica: en lugar de enviar datos a una API externa, el modelo se ejecuta justo al lado de tus datos.

El siguiente diagrama muestra los procedimientos para usar modelos alojados.

Beneficio	Qué significa
Cero tarifas de transferencia de datos	La inferencia ocurre dentro de la red de Zilliz
Menor latencia	Sin viaje de ida y vuelta externo para embedding o reranking
Privacidad mejorada	El texto sin procesar nunca sale del entorno de Zilliz
Recursos dedicados	Sin problemas de rendimiento por vecinos ruidosos

Modelos disponibles

Categoría	Modelos
Embedding	Qwen3-Embedding (0.6B, 4B, 8B), serie BAAI BGE (small, base, large — EN y ZH)
Reranking	Qwen3-Reranker (0.6B, 4B, 8B), BAAI BGE Reranker (base, large)
Semantic Highlighter	zilliz/semantic-highlight-bilingual-v1 — resalta segmentos de texto relevantes en los resultados

Hosted Models está disponible bajo solicitud. Contacta con el equipo de Zilliz para obtener acceso.

Capacidades completas de Functions e inferencia de un vistazo

Funciones previas a la búsqueda

Función	Descripción	Estado
BM25	Embeddings dispersos para búsqueda de palabras clave de texto completo — no requiere modelo	GA
Embedding basado en modelo (terceros)	Embeddings densos mediante OpenAI, Voyage AI, Cohere	Vista previa pública
Embedding basado en modelo (alojado)	Embeddings densos mediante Qwen3, BGE alojados por Zilliz	Vista previa privada

Funciones posteriores a la búsqueda

Función	Descripción	Estado
Rankers híbridos	Combinan resultados de múltiples estrategias de recuperación (p. ej., semántica + palabras clave)	GA
Rankers basados en reglas	Aplican lógica de negocio — actualidad, popularidad, puntuaciones personalizadas	GA
Rankers basados en modelo (terceros)	Reranking semántico mediante Voyage AI, Cohere	Vista previa pública
Rankers basados en modelo (alojados)	Reranking semántico mediante Qwen3, BGE alojados por Zilliz	Vista previa privada

BM25, los rankers híbridos y los rankers basados en reglas han estado disponibles de forma general. El lanzamiento de hoy añade inteligencia impulsada por modelos tanto para embedding como para ranking — además de la infraestructura para ejecutar esos modelos mediante APIs de terceros o directamente en Zilliz Cloud.

Cómo empezar con Zilliz Cloud Functions

Vista previa pública (disponible ahora):

Regístrate o inicia sesión en Zilliz Cloud — las cuentas nuevas registradas con un correo electrónico de trabajo reciben $100 en créditos gratis
Configura una integración con proveedor de modelos en la consola
Crea una colección con una función de embedding
Inserta texto sin procesar y busca con texto — eso es todo

Vista previa privada (bajo solicitud):

Contáctanos para probar modelos alojados con inferencia dedicada.

Documentación completa: Guía de inferencia de funciones y modelos

Preguntas frecuentes

Algunas preguntas que surgen sobre embedding, reranking e inferencia gestionada para búsqueda vectorial:

¿Puede una base de datos vectorial generar embeddings automáticamente?

Sí. Con Zilliz Cloud Functions, adjuntas un modelo de embedding a una colección e insertas texto sin procesar — la base de datos genera y almacena embeddings vectoriales densos en tu nombre. Las consultas funcionan de la misma manera: envía una consulta de texto, y el sistema la convierte en embedding con el mismo modelo antes de ejecutar la búsqueda ANN. Esto elimina el código de embedding del lado del cliente y garantiza la coherencia del modelo entre la ingesta y la búsqueda.

¿Qué es el reranking basado en modelo y cómo mejora la búsqueda vectorial?

El reranking basado en modelo es un paso posterior a la recuperación en el que un modelo de lenguaje evalúa qué tan bien responde realmente cada documento candidato a la consulta — en lugar de depender únicamente de las puntuaciones de similitud vectorial. Es especialmente eficaz para pipelines de búsqueda híbrida que combinan recuperación por palabras clave y semántica. En Zilliz Cloud, puedes aplicar reranking basado en modelo como una función integrada usando proveedores como Voyage AI o Cohere, o mediante modelos alojados por Zilliz.

¿Cuál es la diferencia entre los modelos de embedding alojados y los de terceros?

Los modelos de terceros (OpenAI, Voyage AI, Cohere) se ejecutan en la infraestructura del proveedor — proporcionas una clave de API y pagas por llamada. Los modelos alojados se ejecutan en infraestructura GPU gestionada por Zilliz, por lo que tus datos nunca salen de la plataforma. Los modelos alojados ofrecen menor latencia, cero tarifas de transferencia de datos y cómputo dedicado sin problemas de vecinos ruidosos. La contrapartida: el pago por llamada de terceros puede ser más barato con bajo volumen, mientras que las instancias alojadas son más rentables a escala.

¿Cómo se combinan la búsqueda por palabras clave y la búsqueda semántica en una sola consulta?

En Zilliz Cloud, puedes adjuntar tanto una función BM25 (para búsqueda por palabras clave mediante incrustaciones dispersas) como una función de incrustación basada en modelos (para búsqueda semántica mediante incrustaciones densas) a la misma colección. En el momento de la consulta, un clasificador híbrido o un reclasificador basado en modelos fusiona los resultados en una única lista clasificada. La colección gestiona incrustaciones dispersas, incrustaciones densas y reclasificación en conjunto, sin necesidad de orquestación externa.

Actualizado el Jul 28, 2026

Fendy Feng
Fendy Feng is the Technical Marketing Writer at Zilliz. She has extensive experience developing and enhancing the impact of open-source projects in various global markets by producing high-quality, tailored content. Before joining Zilliz, Fendy worked as a Content Strategist at PingCAP, a fast-growing E-Series startup renowned for its open-source distributed SQL database.

Sigue leyendo

Zilliz Cloud Just Landed in Claude Code

The Zilliz Cloud Plugin brings the full power of Zilliz Cloud directly into your Claude Code terminal as natural-language conversations.

Milvus WebUI: A Visual Management Tool for Your Vector Database

Explore Milvus WebUI to monitor, manage, and optimize your vector database with real-time insights, performance tracking, and system health monitoring.

Vector Databases vs. Graph Databases

Use a vector database for AI-powered similarity search; use a graph database for complex relationship-based queries and network analysis.