Comment UNIwise a conçu une plateforme évolutive de détection du plagiat avec Milvus

Rentable
à n'importe quelle échelle
Plus de 10 000 documents
Traitement fluide en un seul lot, avec une voie vers des dizaines de milliards de vecteurs
Détection du plagiat plus intelligente
dans les langues européennes avec une recherche par similarité sémantique
Innovation plus rapide
avec plus de temps d’ingénierie pour créer de nouvelles fonctionnalités
Milvus transformed our ability to detect semantic plagiarism at scale. We can now process variable workloads ranging from 10 to 10,000+ documents daily while maintaining cost-effectiveness, which would have been impossible with traditional solutions.
Teis Petersen
À propos de UNIwise
UNIwise est un fournisseur européen de premier plan de solutions d’examen en ligne, auquel les universités font confiance depuis plus de 12 ans. Basée au Danemark, l’entreprise accompagne des institutions dans toute la Scandinavie, au Royaume-Uni et au-delà. Sa plateforme phare, WISEflow, couvre l’ensemble du cycle de vie de l’évaluation — de la création et de la diffusion des examens à la notation, au feedback et à l’intégration avec les systèmes de gestion de l’apprentissage universitaires (LMS).
Sur cette base, UNIwise a lancé WISEflow Originality, un système de détection du plagiat sémantique alimenté par Milvus. En choisissant Milvus plutôt que des solutions concurrentes de bases de données vectorielles, UNIwise a créé une plateforme rentable capable de passer à l’échelle jusqu’à des milliards de documents. Grâce à une architecture moderne et à des stratégies de mise à l’échelle intelligentes, WISEflow Originality offre des performances et une fiabilité de niveau entreprise, fournissant aux universités un outil puissant pour garantir l’intégrité académique.
Le défi : passer à l’échelle au-delà de la détection du plagiat héritée
À mesure que de nombreuses universités européennes élargissaient leur utilisation des évaluations numériques, beaucoup ont commencé à dépasser les capacités des outils hérités de détection du plagiat. Les systèmes existants, tels que Turnitin, reposaient largement sur des techniques traditionnelles de correspondance de texte, coûteuses à exploiter et peinant à évoluer avec des volumes de contenu croissants. Ces méthodes échouaient souvent à saisir les similarités sémantiques, ce qui rendait difficile la détection de contenu paraphrasé dans différentes langues — un besoin clé pour les institutions européennes.
Pour répondre à cette demande, UNIwise a entrepris de créer WISEflow Originality, une plateforme capable de gérer des comparaisons entre des milliards de documents tout en maintenant les coûts à un niveau maîtrisé. Le système devait comprendre la sémantique au-delà des simples correspondances textuelles et prendre en charge plusieurs langues européennes, notamment le danois, le norvégien, le suédois, l’allemand, l’anglais et l’espagnol. Dans le même temps, il devait s’intégrer de manière transparente à WISEflow, fournir des résultats dans le cadre d’un SLA de 24 heures et minimiser la charge liée à l’infrastructure.
D’un point de vue commercial, UNIwise était confrontée au défi de concurrencer des acteurs établis disposant de ressources nettement plus importantes, avec une petite équipe d’ingénierie chargée de construire une plateforme complexe de traitement des données. L’entreprise devait également naviguer dans les processus d’appels d’offres publics de l’UE pour les contrats universitaires, tout en maintenant l’efficacité opérationnelle et la rentabilité à l’échelle de l’entreprise.
La solution : créer un moteur de détection sémantique avec Milvus
Pour donner vie à WISEflow Originality, UNIwise a rapidement compris que les bases de données vectorielles pouvaient fournir la comparaison sémantique et la scalabilité dont elle avait besoin, pour une fraction du coût des approches traditionnelles de correspondance de texte. L’entreprise a mené une évaluation approfondie de plusieurs solutions de recherche vectorielle, notamment Milvus, Weaviate, Redis Vector Search et OpenSearch. Chaque option a été mesurée selon des critères pondérés, notamment la stabilité, la scalabilité pour de grands jeux de données, l’optimisation des performances, la conformité aux standards, la communauté et le support, ainsi que la compatibilité avec les outils existants.
Pourquoi Milvus a gagné
Milvus s’est imposé comme la solution la plus adaptée sur plusieurs dimensions. La qualité de la documentation a été l’un des facteurs décisifs, comme l’a souligné Teis Petersen, responsable de l’équipe d’ingénierie chez UNIwise : « Quand on doit exploiter une base de données vectorielle sans avoir d’expérience, on veut vraiment, vraiment une bonne documentation. C’est vraiment, vraiment essentiel. » Milvus a fourni une documentation claire et accessible qui a accéléré l’intégration.
Tout aussi important, Milvus est conçu spécifiquement pour les opérations vectorielles — contrairement aux bases de données généralistes dotées de fonctionnalités de recherche vectorielle ajoutées — offrant une scalabilité et des performances supérieures. Sa grande communauté open source active et son architecture cloud-native moderne ont également donné à UNIwise confiance dans le support à long terme et les stratégies de déploiement flexibles.
Architecture technique
Avec Milvus comme cœur, UNIwise a mis en œuvre un pipeline de traitement des données entièrement asynchrone. Le système utilise Milvus, ainsi qu’un modèle multilingue MiniLM de similarité de phrases qui emploie des vecteurs à 384 dimensions. Les composants supplémentaires incluent YOLO v3 pour la détection de la mise en page des documents et des modèles OCR pour l’extraction de texte. La couche d’orchestration combine des services Go pour la gestion des API et la coordination des workflows avec des services Python pour l’apprentissage automatique, pris en charge par un référentiel de modèles MLflow. Tous les composants sont déployés dans un cluster géré sur les services AWS EKS.
Le workflow de bout en bout commence par l’ingestion de documents depuis WISEflow, suivie de la détection de la mise en page afin de supprimer les éléments non pertinents tels que les titres et les numéros de page. Le texte est ensuite extrait, segmenté et intégré sous forme de vecteurs à l’aide du modèle MiniLM. Milvus indexe ces embeddings et effectue une recherche de similarité, après quoi les résultats sont agrégés et présentés directement dans l’interface WISEflow.
Comment Milvus a aidé UNIwise à obtenir des résultats
En choisissant Milvus comme fondation de recherche pour WISEflow Originality, UNIwise a facilement relevé les défis techniques auxquels elle était confrontée. La plateforme combine désormais efficacité des coûts, évolutivité et capacités de détection avancées d’une manière que les outils historiques de détection du plagiat ne peuvent égaler.
Maîtriser les coûts tout en passant à l’échelle
La conception cloud-native de Milvus a donné à UNIwise la flexibilité nécessaire pour augmenter et réduire les ressources à la demande. En adoptant cette approche, ils sont en mesure de maintenir des coûts d’infrastructure durables, malgré les grandes quantités de données.
Une détection du plagiat plus intelligente grâce à la recherche vectorielle
Contrairement aux systèmes historiques limités à la correspondance de mots-clés ou de chaînes, Milvus permet la recherche de similarité sémantique dans du contenu multilingue. Combiné au modèle MiniLM, cela permet à UNIwise de détecter le plagiat paraphrasé et restructuré dans sept langues européennes.
Évolutivité pour toute charge de travail
La séparation de l’indexation et de la recherche dans Milvus a permis à UNIwise de faire évoluer chaque fonction indépendamment. Cela a rendu possible la gestion de charges de travail allant d’une poignée de documents à plus de 10 000 en un seul lot, avec une voie claire vers des dizaines de milliards de vecteurs à l’avenir. Désormais, le système peut croître en phase avec les besoins des universités sans nécessiter de changements architecturaux majeurs.
Fiabilité opérationnelle avec des équipes réduites
Milvus a fourni à UNIwise une colonne vertébrale fiable, offrant une gestion robuste des erreurs. La disponibilité d’une documentation complète et d’une vaste communauté open source a également facilité la courbe d’apprentissage, permettant à la petite équipe d’ingénierie d’UNIwise de maintenir et d’étendre le système sans surcharge excessive.
Plus de temps pour les fonctionnalités qui comptent
Avec Milvus prenant en charge le gros du travail de recherche de similarité à grande échelle, UNIwise a pu se concentrer sur la création de fonctionnalités importantes pour les universités. L’écosystème open source continue d’accélérer le développement, garantissant que WISEflow Originality reste compétitif face aux fournisseurs historiques tout en évoluant pour répondre aux nouvelles exigences académiques.
Plans futurs et feuille de route
UNIwise continue de s’appuyer sur la fondation établie avec Milvus. À court terme, l’équipe prévoit de passer à Milvus 2.6 afin de tirer parti du stockage hiérarchisé pour une optimisation des coûts encore plus importante et de bénéficier des dernières améliorations de performance.
Ensemble, ces plans reflètent l’engagement d’UNIwise envers l’amélioration continue : réduire les coûts, améliorer les performances et garantir la conformité, tout en s’appuyant sur Milvus comme cœur évolutif de leur plateforme de détection de l’originalité.
Conclusion
Le parcours d’UNIwise avec WISEflow Originality démontre comment une équipe ciblée peut défier les géants du secteur en associant une expertise métier à la bonne fondation technologique. En adoptant Milvus, UNIwise a créé une plateforme de détection du plagiat rentable, multilingue et évolutive jusqu’à des milliards de documents—des capacités que les systèmes traditionnels basés sur les mots-clés peinaient à fournir.
Ce succès souligne l’importance croissante des bases de données vectorielles dans les technologies éducatives. Milvus a donné à UNIwise la capacité de gérer des charges de travail massives, de s’adapter rapidement aux nouvelles exigences et d’investir les ressources d’ingénierie dans les fonctionnalités qui comptent le plus pour les universités.
À l’avenir, UNIwise est bien placée pour continuer à façonner l’avenir de l’évaluation numérique en Europe. Avec Milvus comme pilier stratégique, l’entreprise peut étendre ses capacités de détection de l’originalité tout en explorant de nouvelles possibilités dans la recherche sémantique et les outils d’apprentissage basés sur l’IA.
If I were to choose again, I would still choose Milvus at this point. The scalability, documentation quality, and continuous innovation make it the right foundation for our plagiarism detection platform.
Teis Petersen


