Apresentando Funções e Inferência de Modelos no Zilliz Cloud: Incorporação Automática e Reclassificação com Modelos Hospedados
Pipelines de busca com IA criados sobre bancos de dados vetoriais geralmente exigem que você gere embeddings por conta própria, insira-os no banco de dados vetorial para recuperação por similaridade, incorpore cada consulta da mesma forma e acople um serviço de reranking separado se quiser melhor qualidade de resultados. Funciona, mas isso significa mais código de integração e mais lugares onde as coisas podem divergir.
Hoje, estamos anunciando Functions and Inference Services no Zilliz Cloud — agora em Public Preview para modelos de terceiros e Private Preview para Zilliz Hosted Models. Você pode inserir texto bruto e pesquisar com linguagem natural. Então, o Zilliz Cloud lida automaticamente com a geração de embeddings, o armazenamento vetorial e o reranking de resultados.
O que são Functions and Inference Services no Zilliz Cloud?
Uma Function é uma operação declarativa anexada a uma coleção que informa ao Zilliz Cloud como processar seus dados. Em vez de enviar vetores, agora você só precisa enviar texto bruto. Em vez de incorporar consultas no lado do cliente, você envia consultas de texto diretamente. Então, o Zilliz Cloud cuida do resto.
As Functions se enquadram em duas categorias:
- Pre-search Functions são executadas no momento da ingestão e da consulta, convertendo texto em representações pesquisáveis. Isso inclui BM25 para busca por palavra-chave em texto completo (nenhum modelo necessário) e abordagens baseadas em modelos que produzem embeddings densos para busca semântica.
- Post-search Functions são executadas após a recuperação, refinando e reordenando os resultados. Isso inclui rankers híbridos que mesclam vários conjuntos de resultados, rankers baseados em regras para lógica de negócios e rankers baseados em modelos que pontuam a relevância entre consultas e documentos.
O diagrama a seguir fornece uma abstração de como as Functions funcionam no fluxo de trabalho de busca.
Os Inference Services impulsionam as Functions baseadas em modelos. Quando uma Function precisa gerar um embedding ou pontuar um par consulta-documento, ela chama um modelo de uma de duas fontes:
| Fonte | Como funciona |
|---|---|
| Provedores de terceiros (OpenAI, Voyage AI, Cohere) | Você traz sua chave de API. O Zilliz Cloud gerencia a integração. |
| Zilliz Hosted Models | Instâncias de modelo totalmente gerenciadas na infraestrutura de GPU da Zilliz. Seus dados nunca saem da plataforma. |
A distinção mais simples: Functions definem o que acontece com seus dados. Inference Services definem qual modelo faz o trabalho.
Por que mover embeddings e reranking para o Zilliz Cloud?
Se hoje você está chamando uma API de embeddings e inserindo vetores no Zilliz Cloud, isso já funciona. Mas, à medida que as aplicações escalam, surgem vários pontos de atrito.
A consistência do modelo se torna seu problema
Seu caminho de ingestão e seu caminho de consulta devem usar exatamente o mesmo modelo. Se eles divergirem — digamos, uma implantação atualiza um lado, mas não o outro — a qualidade da busca se degrada silenciosamente. Com Functions, a coleção possui a configuração do modelo. Ingestão e consulta têm correspondência garantida.
O reranking é ignorado porque há atrito demais
O reranking baseado em modelos melhora significativamente a qualidade dos resultados, especialmente para busca híbrida. Mas adicionar outra chamada de serviço após cada consulta — com sua própria chave de API, orçamento de latência e tratamento de falhas — é atrito suficiente para que muitas equipes lancem sem isso. Quando o reranking é uma Function integrada, esse atrito desaparece.
As credenciais se espalham pelos serviços
Todo serviço que grava ou pesquisa dados precisa da chave de API do seu provedor de embeddings. Com Functions, as credenciais ficam na Integração com Provedor de Modelos da Zilliz Cloud — um único lugar para gerenciar, um único lugar para rotacionar chaves, sem segredos no código da aplicação.
Os Dados Saem da Sua Rede em Cada Chamada de Inferência
Para equipes com requisitos de privacidade ou conformidade, enviar texto bruto para uma API externa a cada inserção e consulta é uma preocupação real. Os Modelos Hospedados mantêm tudo — dados, inferência, armazenamento, pesquisa — dentro da rede privada da Zilliz.
O Que Está Disponível em Prévia Pública
Funções de Embedding Baseadas em Modelo
Anexe um modelo de embedding a uma coleção. A partir desse momento:
- Insira texto bruto via Insert, Upsert ou Import — a Zilliz Cloud gera e armazena embeddings vetoriais densos automaticamente.
- Pesquise com texto — o sistema incorpora sua consulta com o mesmo modelo e executa busca ANN.
Sem código de embedding no lado do cliente. Sem preocupações com consistência de modelo. Sua aplicação simplesmente trabalha com texto.
Funções de Reranking Baseadas em Modelo
Selecione um modelo de reranking e aplique-o como uma etapa pós-pesquisa integrada. Isso é especialmente poderoso para busca híbrida, em que você combina recuperação semântica e por palavras-chave em um único conjunto de resultados.
Rerankers baseados em modelo vão além da similaridade vetorial — eles leem o conteúdo de cada candidato e avaliam o quão bem ele realmente responde à consulta. É a diferença entre "estes vetores estão próximos" e "este documento responde à pergunta."
Provedores Compatíveis
| Provedor | Embedding | Reranking |
|---|---|---|
| OpenAI | Sim | -- |
| Voyage AI | Sim | Sim |
| Cohere | Sim | Sim |
Integração com Provedor de Modelos
Registre suas credenciais de API de terceiros uma vez no console da Zilliz Cloud por meio da Integração com Provedor de Modelos. As coleções referenciam a integração por ID — sem chaves no código. Rotacione credenciais em um único lugar; toda coleção que usa essa integração recebe a alteração automaticamente.
O Que Está em Prévia Privada: Modelos Hospedados
Para equipes em que latência, custo ou residência de dados é prioridade, os Modelos Hospedados executam instâncias de modelo totalmente gerenciadas na infraestrutura de GPU da Zilliz. A diferença arquitetônica: em vez de enviar dados para uma API externa, o modelo é executado bem ao lado dos seus dados.
O diagrama a seguir mostra os procedimentos para usar modelos hospedados.
| Benefício | O Que Isso Significa |
|---|---|
| Zero taxas de transferência de dados | A inferência acontece dentro da rede da Zilliz |
| Menor latência | Sem ida e volta externa para embedding ou reranking |
| Privacidade aprimorada | O texto bruto nunca sai do ambiente da Zilliz |
| Recursos dedicados | Sem problemas de desempenho de vizinho barulhento |
Modelos Disponíveis
| Categoria | Modelos |
|---|---|
| Embedding | Qwen3-Embedding (0.6B, 4B, 8B), série BAAI BGE (small, base, large — EN & ZH) |
| Reranking | Qwen3-Reranker (0.6B, 4B, 8B), BAAI BGE Reranker (base, large) |
| Semantic Highlighter | zilliz/semantic-highlight-bilingual-v1 — destaca segmentos de texto relevantes nos resultados |
Os Modelos Hospedados estão disponíveis mediante solicitação. Entre em contato com a equipe da Zilliz para obter acesso.
Visão Geral das Capacidades Completas de Funções e Inferência
Funções de Pré-Pesquisa
| Função | Descrição | Status |
|---|---|---|
| BM25 | Embeddings esparsos para busca de palavras-chave em texto completo — nenhum modelo necessário | GA |
| Model-Based Embedding (3rd-party) | Embeddings densos via OpenAI, Voyage AI, Cohere | Public Preview |
| Model-Based Embedding (Hosted) | Embeddings densos via Qwen3, BGE hospedados pela Zilliz | Private Preview |
Funções Pós-Busca
| Função | Descrição | Status |
|---|---|---|
| Hybrid Rankers | Mesclam resultados de várias estratégias de recuperação (por exemplo, semântica + palavra-chave) | GA |
| Rule-Based Rankers | Aplicam lógica de negócios — recência, popularidade, pontuações personalizadas | GA |
| Model-Based Rankers (3rd-party) | Reranqueamento semântico via Voyage AI, Cohere | Public Preview |
| Model-Based Rankers (Hosted) | Reranqueamento semântico via Qwen3, BGE hospedados pela Zilliz | Private Preview |
BM25, hybrid rankers e rule-based rankers estão geralmente disponíveis. O lançamento de hoje adiciona inteligência baseada em modelos tanto para embeddings quanto para ranqueamento — além da infraestrutura para executar esses modelos por meio de APIs de terceiros ou diretamente na Zilliz Cloud.
Como Começar com Zilliz Cloud Functions
Public Preview (disponível agora):
- Cadastre-se ou entre na Zilliz Cloud — novas contas registradas com um email corporativo recebem US$ 100 em créditos gratuitos
- Configure uma Model Provider Integration no console
- Crie uma coleção com uma função de embedding
- Insira texto bruto e pesquise com texto — é só isso
Private Preview (mediante solicitação):
Entre em contato conosco para experimentar Hosted Models com inferência dedicada.
Documentação completa: Guia de Inferência de Funções e Modelos
Perguntas Frequentes
Algumas perguntas que surgem sobre embeddings, reranqueamento e inferência gerenciada para busca vetorial:
Um banco de dados vetorial pode gerar embeddings automaticamente?
Sim. Com Zilliz Cloud Functions, você anexa um modelo de embedding a uma coleção e insere texto bruto — o banco de dados gera e armazena embeddings vetoriais densos em seu nome. As consultas funcionam da mesma forma: envie uma consulta de texto, e o sistema a transforma em embedding com o mesmo modelo antes de executar a busca ANN. Isso elimina código de embedding no lado do cliente e garante consistência do modelo entre ingestão e busca.
O que é reranqueamento baseado em modelos, e como ele melhora a busca vetorial?
Reranqueamento baseado em modelos é uma etapa pós-recuperação em que um modelo de linguagem avalia quão bem cada documento candidato realmente responde à consulta — em vez de depender apenas das pontuações de similaridade vetorial. É especialmente eficaz para pipelines de busca híbrida que combinam recuperação por palavras-chave e semântica. Na Zilliz Cloud, você pode aplicar reranqueamento baseado em modelos como uma Function integrada usando provedores como Voyage AI ou Cohere, ou por meio dos Zilliz Hosted Models.
Qual é a diferença entre modelos de embedding hospedados e de terceiros?
Modelos de terceiros (OpenAI, Voyage AI, Cohere) são executados na infraestrutura do provedor — você fornece uma chave de API e paga por chamada. Hosted Models são executados na infraestrutura de GPU gerenciada pela Zilliz, portanto seus dados nunca saem da plataforma. Hosted Models oferecem menor latência, zero taxas de transferência de dados e computação dedicada sem problemas de vizinhos barulhentos. A compensação: pagamento por chamada de terceiros pode ser mais barato em baixo volume, enquanto instâncias hospedadas são mais econômicas em escala.
Como combinar busca por palavras-chave e busca semântica em uma única consulta?
Na Zilliz Cloud, você pode anexar tanto uma Função BM25 (para busca por palavras-chave via embeddings esparsos) quanto uma Função de embedding baseada em modelo (para busca semântica via embeddings densos) à mesma coleção. No momento da consulta, um ranqueador híbrido ou reranqueador baseado em modelo mescla os resultados em uma única lista ranqueada. A coleção lida com embeddings esparsos, embeddings densos e reranqueamento em conjunto — sem necessidade de orquestração externa.
Continue lendo

Why Teams Are Migrating from Weaviate to Zilliz Cloud — and How to Do It Seamlessly
Explore how Milvus scales for large datasets and complex queries with advanced features, and discover how to migrate from Weaviate to Zilliz Cloud.

Will Amazon S3 Vectors Kill Vector Databases—or Save Them?
AWS S3 Vectors aims for 90% cost savings for vector storage. But will it kill vectordbs like Milvus? A deep dive into costs, limits, and the future of tiered storage.

Legal Document Analysis: Harnessing Zilliz Cloud's Semantic Search and RAG for Legal Insights
Enhance legal document analysis with Zilliz Cloud’s Semantic Search and RAG. Improve accuracy, efficiency, and scalability for contracts, case law, and compliance.



