Come UNIwise ha creato una piattaforma scalabile di rilevamento del plagio con Milvus

Conveniente
su qualsiasi scala
10.000+ documenti
Elaborazione fluida in un unico batch, con un percorso verso decine di miliardi di vettori
Rilevamento del plagio più intelligente
tra le lingue europee con ricerca di similarità semantica
Innovazione più rapida
con più tempo di sviluppo per creare nuove funzionalità
Milvus transformed our ability to detect semantic plagiarism at scale. We can now process variable workloads ranging from 10 to 10,000+ documents daily while maintaining cost-effectiveness, which would have been impossible with traditional solutions.
Teis Petersen
Informazioni su UNIwise
UNIwise è un importante fornitore europeo di soluzioni per esami online, considerato affidabile dalle università da oltre 12 anni. Con sede in Danimarca, l'azienda supporta istituzioni in tutta la Scandinavia, nel Regno Unito e oltre. La sua piattaforma di punta, WISEflow, copre l'intero ciclo di vita della valutazione: dalla creazione e somministrazione degli esami alla correzione, al feedback e all'integrazione con i Learning Management Systems (LMS) universitari.
Partendo da queste basi, UNIwise ha lanciato WISEflow Originality, un sistema di rilevamento del plagio semantico basato su Milvus. Scegliendo Milvus rispetto a soluzioni concorrenti di database vettoriali, UNIwise ha creato una piattaforma conveniente in grado di scalare fino a miliardi di documenti. Con un'architettura moderna e strategie di scaling intelligenti, WISEflow Originality offre prestazioni e affidabilità di livello enterprise, fornendo alle università uno strumento potente per garantire l'integrità accademica.
La sfida: scalare oltre il rilevamento del plagio legacy
Man mano che molte università europee hanno ampliato l'uso delle valutazioni digitali, molte hanno iniziato a superare i limiti degli strumenti legacy di rilevamento del plagio. I sistemi esistenti, come Turnitin, si basavano fortemente su tecniche tradizionali di corrispondenza testuale, costose da gestire e poco adatte a scalare con volumi crescenti di contenuti. Questi metodi spesso non riuscivano a cogliere le somiglianze semantiche, rendendo difficile rilevare contenuti parafrasati in lingue diverse, un'esigenza fondamentale per le istituzioni europee.
Per soddisfare questa esigenza, UNIwise ha deciso di creare WISEflow Originality, una piattaforma in grado di gestire confronti tra miliardi di documenti mantenendo i costi gestibili. Il sistema richiedeva una comprensione semantica che andasse oltre le semplici corrispondenze testuali e doveva supportare più lingue europee, tra cui danese, norvegese, svedese, tedesco, inglese e spagnolo. Allo stesso tempo, doveva integrarsi perfettamente con WISEflow, fornire risultati entro uno SLA di 24 ore e ridurre al minimo il sovraccarico infrastrutturale.
Dal punto di vista aziendale, UNIwise ha affrontato la sfida di competere con operatori consolidati dotati di risorse significativamente maggiori, utilizzando un piccolo team di ingegneri per costruire una piattaforma complessa di elaborazione dei dati. Doveva inoltre orientarsi nei processi di gara pubblica dell'UE per i contratti universitari, mantenendo al contempo efficienza operativa e convenienza su scala enterprise.
La soluzione: costruire un motore di rilevamento semantico con Milvus
Per dare vita a WISEflow Originality, UNIwise ha presto compreso che i database vettoriali potevano offrire il confronto semantico e la scalabilità di cui aveva bisogno a una frazione del costo degli approcci tradizionali basati sulla corrispondenza testuale. Ha condotto una valutazione approfondita di diverse soluzioni di ricerca vettoriale, tra cui Milvus, Weaviate, Redis Vector Search e OpenSearch. Ogni opzione è stata misurata rispetto a criteri ponderati, tra cui stabilità, scalabilità per grandi dataset, ottimizzazione delle prestazioni, conformità agli standard, community e supporto, e compatibilità con gli strumenti esistenti.
Perché Milvus ha vinto
Milvus è emerso come la soluzione più adatta sotto molteplici aspetti. La qualità della documentazione è stata uno dei fattori decisivi, come ha osservato Teis Petersen, responsabile del team di ingegneria di UNIwise: “Quando devi gestire un database vettoriale e non hai esperienza, vuoi davvero, davvero una buona documentazione. È davvero, davvero fondamentale.” Milvus ha fornito una documentazione chiara e accessibile che ha accelerato l'onboarding.
Altrettanto importante, Milvus è progettato appositamente per le operazioni vettoriali, a differenza dei database generici con funzionalità di ricerca vettoriale aggiunte, offrendo scalabilità e prestazioni superiori. La sua ampia e attiva community open source e la moderna architettura cloud-native hanno inoltre dato a UNIwise fiducia nel supporto a lungo termine e in strategie di deployment flessibili.
Architettura tecnica
Con Milvus come nucleo, UNIwise ha implementato una pipeline di elaborazione dati completamente asincrona. Il sistema utilizza Milvus, insieme a un modello multilingue MiniLM per la similarità tra frasi che impiega vettori a 384 dimensioni. Componenti aggiuntivi includono YOLO v3 per il rilevamento del layout dei documenti e modelli OCR per l’estrazione del testo. Il livello di orchestrazione combina servizi Go per la gestione delle API e il coordinamento dei workflow con servizi Python per il machine learning, supportati da un repository di modelli MLflow. Tutti i componenti sono distribuiti in un cluster gestito sui servizi AWS EKS.
Il workflow end-to-end inizia con l’ingestione dei documenti da WISEflow, seguita dal rilevamento del layout per rimuovere elementi irrilevanti come titoli e numeri di pagina. Il testo viene quindi estratto, segmentato e trasformato in vettori utilizzando il modello MiniLM. Milvus indicizza questi embedding ed esegue la ricerca per similarità, dopodiché i risultati vengono aggregati e presentati direttamente nell’interfaccia WISEflow.
Come Milvus ha aiutato UNIwise a ottenere risultati
Scegliendo Milvus come base di ricerca per WISEflow Originality, UNIwise ha affrontato facilmente le sfide tecniche che aveva di fronte. La piattaforma ora combina efficienza dei costi, scalabilità e capacità di rilevamento avanzate in modi che gli strumenti legacy di rilevamento del plagio non possono eguagliare.
Tenere i costi sotto controllo durante la scalabilità
Il design cloud-native di Milvus ha dato a UNIwise la flessibilità di aumentare e ridurre le risorse su richiesta. Adottando questo approccio, riescono a mantenere sostenibili i costi dell’infrastruttura, nonostante le grandi quantità di dati.
Rilevamento del plagio più intelligente con la ricerca vettoriale
A differenza dei sistemi legacy limitati alla corrispondenza di parole chiave o stringhe, Milvus consente la ricerca per similarità semantica su contenuti multilingue. Combinato con il modello MiniLM, ciò consente a UNIwise di rilevare il plagio parafrasato e ristrutturato in sette lingue europee.
Scalabilità per qualsiasi carico di lavoro
La separazione tra indicizzazione e ricerca in Milvus ha permesso a UNIwise di scalare ciascuna funzione in modo indipendente. Ciò ha reso possibile gestire carichi di lavoro che vanno da una manciata di documenti a più di 10.000 in un singolo batch, con un percorso chiaro verso decine di miliardi di vettori in futuro. Ora, il sistema può crescere in linea con le esigenze delle università senza richiedere importanti modifiche architetturali.
Affidabilità operativa con team snelli
Milvus ha fornito a UNIwise una base affidabile, offrendo una gestione degli errori robusta. La disponibilità di una documentazione completa e di una grande community open-source ha inoltre facilitato la curva di apprendimento, consentendo al piccolo team di ingegneria di UNIwise di mantenere ed estendere il sistema senza un sovraccarico eccessivo.
Più tempo per le funzionalità che contano
Con Milvus che gestisce il lavoro pesante della ricerca per similarità su larga scala, UNIwise ha potuto concentrarsi sulla creazione di funzionalità che contano per le università. L’ecosistema open-source continua ad accelerare lo sviluppo, garantendo che WISEflow Originality rimanga competitivo rispetto ai provider legacy mentre si evolve per soddisfare nuovi requisiti accademici.
Piani futuri e roadmap
UNIwise continua a costruire sulle fondamenta stabilite con Milvus. Nel breve termine, il team prevede di passare a Milvus 2.6 per sfruttare lo storage a livelli per un’ottimizzazione dei costi ancora maggiore e per beneficiare dei più recenti miglioramenti delle prestazioni.
Insieme, questi piani riflettono l’impegno di UNIwise per il miglioramento continuo: ridurre i costi, migliorare le prestazioni e garantire la conformità, il tutto sfruttando Milvus come nucleo scalabile della loro piattaforma di rilevamento dell’originalità.
Conclusione
Il percorso di UNIwise con WISEflow Originality dimostra come un team focalizzato possa sfidare i giganti del settore combinando competenza di dominio con la giusta base tecnologica. Adottando Milvus, UNIwise ha creato una piattaforma di rilevamento del plagio efficiente in termini di costi, multilingue e scalabile fino a miliardi di documenti—capacità che i sistemi tradizionali basati su parole chiave faticavano a offrire.
Questo successo evidenzia la crescente importanza dei database vettoriali nella tecnologia educativa. Milvus ha dato a UNIwise la capacità di gestire carichi di lavoro enormi, adattarsi rapidamente a nuovi requisiti e investire risorse ingegneristiche nelle funzionalità che contano di più per le università.
Guardando al futuro, UNIwise è in una posizione ideale per continuare a plasmare il futuro della valutazione digitale in Europa. Con Milvus come pilastro strategico, l’azienda può ampliare le proprie capacità di rilevamento dell’originalità, esplorando al contempo nuove opportunità nella ricerca semantica e negli strumenti di apprendimento basati sull’IA.
If I were to choose again, I would still choose Milvus at this point. The scalability, documentation quality, and continuous innovation make it the right foundation for our plagiarism detection platform.
Teis Petersen


