Presentamos Functions e inferencia de modelos en Zilliz Cloud: embedding y reranking automáticos con modelos alojados
Las canalizaciones de búsqueda de IA creadas sobre bases de datos vectoriales normalmente requieren que generes embeddings por tu cuenta, los insertes en la base de datos vectorial para la recuperación por similitud, incrustes cada consulta de la misma manera y añadas un servicio de reranking separado si quieres una mejor calidad de resultados. Funciona, pero implica más código de integración y más lugares donde las cosas pueden desviarse.
Hoy anunciamos Functions and Inference Services en Zilliz Cloud — ahora en Public Preview para modelos de terceros y Private Preview para Zilliz Hosted Models. Puedes insertar texto sin procesar y buscar con lenguaje natural. Luego Zilliz Cloud se encarga automáticamente de la generación de embeddings, el almacenamiento vectorial y el reranking de resultados.
¿Qué son Functions and Inference Services en Zilliz Cloud?
A Function es una operación declarativa adjunta a una colección que indica a Zilliz Cloud cómo procesar tus datos. En lugar de enviar vectores, ahora solo necesitas enviar texto sin procesar. En lugar de incrustar consultas del lado del cliente, envías consultas de texto directamente. Luego Zilliz Cloud se encarga del resto.
Las Functions se dividen en dos categorías:
- Pre-search Functions se ejecutan en el momento de la ingesta y de la consulta, convirtiendo texto en representaciones buscables. Esto incluye BM25 para búsqueda de palabras clave de texto completo (no requiere modelo) y enfoques basados en modelos que producen embeddings densos para búsqueda semántica.
- Post-search Functions se ejecutan después de la recuperación, refinando y reordenando resultados. Esto incluye rankers híbridos que combinan múltiples conjuntos de resultados, rankers basados en reglas para lógica de negocio y rankers basados en modelos que puntúan la relevancia entre consultas y documentos.
El siguiente diagrama proporciona una abstracción de cómo funcionan las Functions en el flujo de trabajo de búsqueda.
Inference Services impulsan las Functions basadas en modelos. Cuando una Function necesita generar un embedding o puntuar un par consulta-documento, llama a un modelo de una de dos fuentes:
| Fuente | Cómo funciona |
|---|---|
| Proveedores de terceros (OpenAI, Voyage AI, Cohere) | Tú aportas tu clave de API. Zilliz Cloud gestiona la integración. |
| Zilliz Hosted Models | Instancias de modelos completamente gestionadas en la infraestructura GPU de Zilliz. Tus datos nunca salen de la plataforma. |
La distinción más simple: Functions definen qué sucede con tus datos. Inference Services definen qué modelo hace el trabajo.
¿Por qué trasladar los embeddings y el reranking a Zilliz Cloud?
Si hoy llamas a una API de embeddings e insertas vectores en Zilliz Cloud, eso ya funciona. Pero a medida que las aplicaciones escalan, aparecen varios puntos de fricción.
La consistencia del modelo se convierte en tu problema
Tu ruta de ingesta y tu ruta de consulta deben usar exactamente el mismo modelo. Si se desvían — por ejemplo, una implementación actualiza un lado pero no el otro — la calidad de búsqueda se degrada silenciosamente. Con Functions, la colección es dueña de la configuración del modelo. Se garantiza que la ingesta y la consulta coincidan.
El reranking se omite porque genera demasiada fricción
El reranking basado en modelos mejora significativamente la calidad de los resultados, especialmente para la búsqueda híbrida. Pero añadir otra llamada de servicio después de cada consulta — con su propia clave de API, presupuesto de latencia y gestión de fallos — genera suficiente fricción como para que muchos equipos lancen sin ello. Cuando el reranking es una Function integrada, esa fricción desaparece.
Las credenciales se dispersan entre servicios
Cada servicio que escribe o busca datos necesita la clave de API de tu proveedor de embeddings. Con Functions, las credenciales viven en Model Provider Integration de Zilliz Cloud — un único lugar para gestionar, un único lugar para rotar claves, sin secretos en el código de la aplicación.
Los datos salen de tu red en cada llamada de inferencia
Para equipos con requisitos de privacidad o cumplimiento, enviar texto sin procesar a una API externa en cada inserción y consulta es una preocupación real. Hosted Models mantiene todo — datos, inferencia, almacenamiento, búsqueda — dentro de la red privada de Zilliz.
Qué está disponible en Public Preview
Funciones de embeddings basadas en modelos
Adjunta un modelo de embeddings a una colección. A partir de ese momento:
- Inserta texto sin procesar mediante Insert, Upsert o Import — Zilliz Cloud genera y almacena automáticamente embeddings vectoriales densos.
- Busca con texto — el sistema incrusta tu consulta con el mismo modelo y ejecuta una búsqueda ANN.
Sin código de embeddings del lado del cliente. Sin preocupaciones por la consistencia del modelo. Tu aplicación simplemente trabaja con texto.
Funciones de reranking basadas en modelos
Selecciona un modelo de reranking y aplícalo como un paso integrado posterior a la búsqueda. Esto es especialmente potente para la búsqueda híbrida, donde combinas recuperación semántica y por palabras clave en un único conjunto de resultados.
Los rerankers basados en modelos van más allá de la similitud vectorial — leen el contenido de cada candidato y evalúan qué tan bien responde realmente a la consulta. Es la diferencia entre "estos vectores están cerca" y "este documento responde a la pregunta."
Proveedores compatibles
| Proveedor | Embedding | Reranking |
|---|---|---|
| OpenAI | Sí | -- |
| Voyage AI | Sí | Sí |
| Cohere | Sí | Sí |
Integración de proveedores de modelos
Registra tus credenciales de API de terceros una sola vez en la consola de Zilliz Cloud mediante Model Provider Integration. Las colecciones hacen referencia a la integración por ID — sin claves en el código. Rota las credenciales en un único lugar; cada colección que use esa integración adopta el cambio automáticamente.
Qué está en Private Preview: Hosted Models
Para equipos donde la latencia, el costo o la residencia de datos son una prioridad, Hosted Models ejecuta instancias de modelos totalmente gestionadas en la infraestructura GPU de Zilliz. La diferencia arquitectónica: en lugar de enviar datos a una API externa, el modelo se ejecuta justo al lado de tus datos.
El siguiente diagrama muestra los procedimientos para usar modelos alojados.
| Beneficio | Qué significa |
|---|---|
| Cero tarifas de transferencia de datos | La inferencia ocurre dentro de la red de Zilliz |
| Menor latencia | Sin viaje de ida y vuelta externo para embedding o reranking |
| Privacidad mejorada | El texto sin procesar nunca sale del entorno de Zilliz |
| Recursos dedicados | Sin problemas de rendimiento por vecinos ruidosos |
Modelos disponibles
| Categoría | Modelos |
|---|---|
| Embedding | Qwen3-Embedding (0.6B, 4B, 8B), serie BAAI BGE (small, base, large — EN y ZH) |
| Reranking | Qwen3-Reranker (0.6B, 4B, 8B), BAAI BGE Reranker (base, large) |
| Semantic Highlighter | zilliz/semantic-highlight-bilingual-v1 — resalta segmentos de texto relevantes en los resultados |
Hosted Models está disponible bajo solicitud. Contacta con el equipo de Zilliz para obtener acceso.
Capacidades completas de Functions e inferencia de un vistazo
Funciones previas a la búsqueda
| Función | Descripción | Estado |
|---|---|---|
| BM25 | Embeddings dispersos para búsqueda de palabras clave de texto completo — no requiere modelo | GA |
| Embedding basado en modelo (terceros) | Embeddings densos mediante OpenAI, Voyage AI, Cohere | Vista previa pública |
| Embedding basado en modelo (alojado) | Embeddings densos mediante Qwen3, BGE alojados por Zilliz | Vista previa privada |
Funciones posteriores a la búsqueda
| Función | Descripción | Estado |
|---|---|---|
| Rankers híbridos | Combinan resultados de múltiples estrategias de recuperación (p. ej., semántica + palabras clave) | GA |
| Rankers basados en reglas | Aplican lógica de negocio — actualidad, popularidad, puntuaciones personalizadas | GA |
| Rankers basados en modelo (terceros) | Reranking semántico mediante Voyage AI, Cohere | Vista previa pública |
| Rankers basados en modelo (alojados) | Reranking semántico mediante Qwen3, BGE alojados por Zilliz | Vista previa privada |
BM25, los rankers híbridos y los rankers basados en reglas han estado disponibles de forma general. El lanzamiento de hoy añade inteligencia impulsada por modelos tanto para embedding como para ranking — además de la infraestructura para ejecutar esos modelos mediante APIs de terceros o directamente en Zilliz Cloud.
Cómo empezar con Zilliz Cloud Functions
Vista previa pública (disponible ahora):
- Regístrate o inicia sesión en Zilliz Cloud — las cuentas nuevas registradas con un correo electrónico de trabajo reciben $100 en créditos gratis
- Configura una integración con proveedor de modelos en la consola
- Crea una colección con una función de embedding
- Inserta texto sin procesar y busca con texto — eso es todo
Vista previa privada (bajo solicitud):
Contáctanos para probar modelos alojados con inferencia dedicada.
Documentación completa: Guía de inferencia de funciones y modelos
Preguntas frecuentes
Algunas preguntas que surgen sobre embedding, reranking e inferencia gestionada para búsqueda vectorial:
¿Puede una base de datos vectorial generar embeddings automáticamente?
Sí. Con Zilliz Cloud Functions, adjuntas un modelo de embedding a una colección e insertas texto sin procesar — la base de datos genera y almacena embeddings vectoriales densos en tu nombre. Las consultas funcionan de la misma manera: envía una consulta de texto, y el sistema la convierte en embedding con el mismo modelo antes de ejecutar la búsqueda ANN. Esto elimina el código de embedding del lado del cliente y garantiza la coherencia del modelo entre la ingesta y la búsqueda.
¿Qué es el reranking basado en modelo y cómo mejora la búsqueda vectorial?
El reranking basado en modelo es un paso posterior a la recuperación en el que un modelo de lenguaje evalúa qué tan bien responde realmente cada documento candidato a la consulta — en lugar de depender únicamente de las puntuaciones de similitud vectorial. Es especialmente eficaz para pipelines de búsqueda híbrida que combinan recuperación por palabras clave y semántica. En Zilliz Cloud, puedes aplicar reranking basado en modelo como una función integrada usando proveedores como Voyage AI o Cohere, o mediante modelos alojados por Zilliz.
¿Cuál es la diferencia entre los modelos de embedding alojados y los de terceros?
Los modelos de terceros (OpenAI, Voyage AI, Cohere) se ejecutan en la infraestructura del proveedor — proporcionas una clave de API y pagas por llamada. Los modelos alojados se ejecutan en infraestructura GPU gestionada por Zilliz, por lo que tus datos nunca salen de la plataforma. Los modelos alojados ofrecen menor latencia, cero tarifas de transferencia de datos y cómputo dedicado sin problemas de vecinos ruidosos. La contrapartida: el pago por llamada de terceros puede ser más barato con bajo volumen, mientras que las instancias alojadas son más rentables a escala.
¿Cómo se combinan la búsqueda por palabras clave y la búsqueda semántica en una sola consulta?
En Zilliz Cloud, puedes adjuntar tanto una función BM25 (para búsqueda por palabras clave mediante incrustaciones dispersas) como una función de incrustación basada en modelos (para búsqueda semántica mediante incrustaciones densas) a la misma colección. En el momento de la consulta, un clasificador híbrido o un reclasificador basado en modelos fusiona los resultados en una única lista clasificada. La colección gestiona incrustaciones dispersas, incrustaciones densas y reclasificación en conjunto, sin necesidad de orquestación externa.
Sigue leyendo

Why We Built Vector Lakebase: Rethinking Unstructured Data Architecture for AI
Vector Lakebase: a unified, lake-native data foundation for AI workloads — and an answer to what happens after vector databases succeed.

Introducing Zilliz MCP Server: Natural Language Access to Your Vector Database
Developers can easily manage and query vector databases with natural language via Zilliz MCP Server in AI-native environments.

Zilliz Cloud BYOC Upgrades: Bring Enterprise-Grade Security, Networking Isolation, and More
Discover how Zilliz Cloud BYOC brings enterprise-grade security, networking isolation, and infrastructure automation to vector database deployments in AWS



