Como a UNIwise construiu uma plataforma escalável de detecção de plágio com o Milvus

Econômico
em qualquer escala
Mais de 10.000 documentos
Processamento contínuo em um único lote, com um caminho para dezenas de bilhões de vetores
Detecção de plágio mais inteligente
entre línguas europeias com pesquisa por similaridade semântica
Inovação mais rápida
com mais tempo de engenharia para criar novos recursos
Milvus transformed our ability to detect semantic plagiarism at scale. We can now process variable workloads ranging from 10 to 10,000+ documents daily while maintaining cost-effectiveness, which would have been impossible with traditional solutions.
Teis Petersen
Sobre a UNIwise
A UNIwise é uma fornecedora europeia líder de soluções de exames online, confiada por universidades há mais de 12 anos. Com sede na Dinamarca, a empresa apoia instituições em toda a Escandinávia, no Reino Unido e além. Sua plataforma principal, WISEflow, cobre todo o ciclo de vida da avaliação — desde a criação e realização de exames até a correção, feedback e integração com os Sistemas de Gestão de Aprendizagem (LMS) das universidades.
Com base nessa fundação, a UNIwise lançou o WISEflow Originality, um sistema semântico de detecção de plágio impulsionado pelo Milvus. Ao escolher o Milvus em vez de soluções concorrentes de banco de dados vetorial, a UNIwise criou uma plataforma eficiente em termos de custos que pode escalar para bilhões de documentos. Com uma arquitetura moderna e estratégias inteligentes de escalabilidade, o WISEflow Originality oferece desempenho e confiabilidade de nível empresarial, fornecendo às universidades uma ferramenta poderosa para garantir a integridade acadêmica.
O Desafio: Escalar Além da Detecção de Plágio Legada
À medida que muitas universidades europeias expandiram seu uso de avaliações digitais, muitas começaram a superar as ferramentas legadas de detecção de plágio. Sistemas existentes, como o Turnitin, dependiam fortemente de técnicas tradicionais de correspondência de texto, que eram caras de operar e tinham dificuldade para escalar com volumes crescentes de conteúdo. Esses métodos frequentemente não conseguiam capturar semelhanças semânticas, tornando desafiador detectar conteúdo parafraseado em diferentes idiomas — uma necessidade fundamental para instituições europeias.
Para atender a essa demanda, a UNIwise decidiu criar o WISEflow Originality, uma plataforma capaz de lidar com comparações entre bilhões de documentos, mantendo os custos gerenciáveis. O sistema exigia compreensão semântica além de simples correspondências de texto e precisava oferecer suporte a vários idiomas europeus, incluindo dinamarquês, norueguês, sueco, alemão, inglês e espanhol. Ao mesmo tempo, precisava se integrar perfeitamente ao WISEflow, entregar resultados dentro de um SLA de 24 horas e minimizar a sobrecarga de infraestrutura.
Do ponto de vista empresarial, a UNIwise enfrentou o desafio de competir contra atores estabelecidos com recursos significativamente maiores, usando uma pequena equipe de engenharia para construir uma plataforma complexa de processamento de dados. Eles também precisavam navegar pelos processos de licitação pública da UE para contratos universitários, mantendo a eficiência operacional e a relação custo-benefício em escala empresarial.
A Solução: Construir um Motor de Detecção Semântica com Milvus
Para dar vida ao WISEflow Originality, a UNIwise logo percebeu que bancos de dados vetoriais poderiam oferecer a comparação semântica e a escalabilidade de que precisavam por uma fração do custo das abordagens tradicionais de correspondência de texto. Eles conduziram uma avaliação minuciosa de várias soluções de busca vetorial, incluindo Milvus, Weaviate, Redis Vector Search e OpenSearch. Cada opção foi medida em relação a critérios ponderados, incluindo estabilidade, escalabilidade para grandes conjuntos de dados, otimização de desempenho, conformidade com padrões, comunidade e suporte, e compatibilidade com ferramentas existentes.
Por que o Milvus Venceu
O Milvus emergiu como a opção mais adequada em várias dimensões. A qualidade da documentação foi um dos fatores decisivos, como observou Teis Petersen, líder da equipe de engenharia da UNIwise: “Quando você precisa executar um banco de dados vetorial e não tem experiência, você realmente, realmente quer uma boa documentação. É realmente, realmente fundamental.” O Milvus forneceu documentação clara e acessível que acelerou a integração.
Tão importante quanto, o Milvus é desenvolvido especificamente para operações vetoriais — ao contrário de bancos de dados de propósito geral com recursos de busca vetorial adicionados — oferecendo escalabilidade e desempenho superiores. Sua grande e ativa comunidade open source e sua arquitetura moderna nativa da nuvem também deram à UNIwise confiança no suporte de longo prazo e em estratégias flexíveis de implantação.
Arquitetura Técnica
Com o Milvus como núcleo, a UNIwise implementou um pipeline de processamento de dados totalmente assíncrono. O sistema utiliza o Milvus, juntamente com um modelo multilíngue de similaridade de sentenças MiniLM que emprega vetores de 384 dimensões. Componentes adicionais incluem YOLO v3 para detecção de layout de documentos e modelos de OCR para extração de texto. A camada de orquestração combina serviços Go para gerenciamento de API e coordenação de workflow com serviços Python para machine learning, com suporte de um repositório de modelos MLflow. Todos os componentes são implantados em um cluster gerenciado nos serviços AWS EKS.
O workflow de ponta a ponta começa com a ingestão de documentos a partir do WISEflow, seguida pela detecção de layout para remover elementos irrelevantes, como títulos e números de página. Em seguida, o texto é extraído, segmentado e incorporado em vetores usando o modelo MiniLM. O Milvus indexa esses embeddings e realiza busca por similaridade, após o que os resultados são agregados e apresentados diretamente na interface do WISEflow.
Como o Milvus ajudou a UNIwise a entregar resultados
Ao selecionar o Milvus como a base de busca para o WISEflow Originality, a UNIwise resolveu facilmente os desafios técnicos que enfrentava. A plataforma agora combina eficiência de custos, escalabilidade e recursos avançados de detecção de maneiras que ferramentas legadas de detecção de plágio não conseguem igualar.
Mantendo os custos sob controle durante a escalabilidade
O design nativo em nuvem do Milvus deu à UNIwise a flexibilidade para escalar recursos para cima e para baixo sob demanda. Ao adotar essa abordagem, eles conseguem manter os custos de infraestrutura sustentáveis, apesar das grandes quantidades de dados.
Detecção de plágio mais inteligente com busca vetorial
Diferentemente dos sistemas legados limitados à correspondência de palavras-chave ou strings, o Milvus permite busca por similaridade semântica em conteúdo multilíngue. Combinado com o modelo MiniLM, isso permite que a UNIwise detecte plágio parafraseado e reestruturado em sete idiomas europeus.
Escalabilidade para qualquer carga de trabalho
A separação entre indexação e busca no Milvus permitiu que a UNIwise escalasse cada função de forma independente. Isso tornou possível lidar com cargas de trabalho que variam de um punhado de documentos a mais de 10.000 em um único lote, com um caminho claro para dezenas de bilhões de vetores no futuro. Agora, o sistema pode crescer de acordo com as necessidades das universidades sem exigir grandes mudanças arquitetônicas.
Confiabilidade operacional com equipes enxutas
O Milvus forneceu à UNIwise uma base confiável, entregando um tratamento de erros robusto. A disponibilidade de documentação abrangente e de uma grande comunidade open-source também facilitou a curva de aprendizado, permitindo que a pequena equipe de engenharia da UNIwise mantivesse e expandisse o sistema sem sobrecarga excessiva.
Mais tempo para recursos que importam
Com o Milvus cuidando do trabalho pesado da busca por similaridade em escala, a UNIwise pôde se concentrar em criar recursos que importam para as universidades. O ecossistema open-source continua a acelerar o desenvolvimento, garantindo que o WISEflow Originality permaneça competitivo frente aos provedores legados enquanto evolui para atender a novos requisitos acadêmicos.
Planos futuros e roadmap
A UNIwise continua a construir sobre a base estabelecida com o Milvus. No curto prazo, a equipe planeja atualizar para o Milvus 2.6 para aproveitar o armazenamento em camadas para uma otimização de custos ainda maior e se beneficiar das melhorias de desempenho mais recentes.
Juntos, esses planos refletem o compromisso da UNIwise com a melhoria contínua: reduzir custos, melhorar o desempenho e garantir conformidade, tudo isso enquanto aproveita o Milvus como o núcleo escalável de sua plataforma de detecção de originalidade.
Conclusão
A jornada da UNIwise com o WISEflow Originality demonstra como uma equipe focada pode desafiar gigantes do setor ao combinar expertise de domínio com a base tecnológica certa. Ao adotar o Milvus, a UNIwise criou uma plataforma de detecção de plágio eficiente em custos, multilíngue e escalável para bilhões de documentos — capacidades que sistemas tradicionais baseados em palavras-chave tinham dificuldade em entregar.
Esse sucesso destaca a crescente importância dos bancos de dados vetoriais na tecnologia educacional. O Milvus deu à UNIwise a capacidade de lidar com cargas de trabalho massivas, adaptar-se rapidamente a novos requisitos e investir recursos de engenharia em recursos que mais importam para as universidades.
Olhando para o futuro, a UNIwise está posicionada para continuar moldando o futuro da avaliação digital na Europa. Com o Milvus como uma base estratégica, a empresa pode expandir suas capacidades de detecção de originalidade enquanto explora novas oportunidades em pesquisa semântica e ferramentas de aprendizagem impulsionadas por IA.
If I were to choose again, I would still choose Milvus at this point. The scalability, documentation quality, and continuous innovation make it the right foundation for our plagiarism detection platform.
Teis Petersen


