Wie UNIwise eine skalierbare Plattform zur Plagiatserkennung mit Milvus aufgebaut hat

Kosteneffizient
in jedem Maßstab
10.000+ Dokumente
Nahtlose Verarbeitung in einem einzigen Batch, mit einem Weg zu mehreren zehn Milliarden Vektoren
Intelligentere Plagiatserkennung
über europäische Sprachen hinweg mit semantischer Ähnlichkeitssuche
Schnellere Innovation
mit mehr Entwicklungszeit für den Aufbau neuer Funktionen
Milvus transformed our ability to detect semantic plagiarism at scale. We can now process variable workloads ranging from 10 to 10,000+ documents daily while maintaining cost-effectiveness, which would have been impossible with traditional solutions.
Teis Petersen
Über UNIwise
UNIwise ist ein führender europäischer Anbieter von Online-Prüfungslösungen, dem Universitäten seit mehr als 12 Jahren vertrauen. Das Unternehmen mit Hauptsitz in Dänemark unterstützt Institutionen in ganz Skandinavien, im Vereinigten Königreich und darüber hinaus. Seine Flaggschiff-Plattform WISEflow deckt den gesamten Bewertungslebenszyklus ab – von der Erstellung und Durchführung von Prüfungen bis hin zu Benotung, Feedback und Integration mit universitären Learning-Management-Systemen (LMS).
Auf dieser Grundlage brachte UNIwise WISEflow Originality auf den Markt, ein semantisches Plagiatserkennungssystem, das von Milvus unterstützt wird. Durch die Wahl von Milvus gegenüber konkurrierenden Vektordatenbanklösungen schuf UNIwise eine kosteneffiziente Plattform, die auf Milliarden von Dokumenten skalieren kann. Mit moderner Architektur und intelligenten Skalierungsstrategien bietet WISEflow Originality Leistung und Zuverlässigkeit auf Unternehmensniveau und stellt Universitäten ein leistungsstarkes Werkzeug zur Sicherstellung akademischer Integrität bereit.
Die Herausforderung: Skalierung über traditionelle Plagiatserkennung hinaus
Als viele europäische Universitäten ihre Nutzung digitaler Prüfungen ausweiteten, begannen viele, aus herkömmlichen Plagiatserkennungstools herauszuwachsen. Bestehende Systeme wie Turnitin stützten sich stark auf traditionelle Textabgleichstechniken, deren Betrieb teuer war und die Schwierigkeiten hatten, mit wachsenden Inhaltsmengen zu skalieren. Diese Methoden erfassten semantische Ähnlichkeiten oft nicht, wodurch es schwierig wurde, paraphrasierte Inhalte in verschiedenen Sprachen zu erkennen – ein zentrales Bedürfnis europäischer Institutionen.
Um dieser Nachfrage gerecht zu werden, machte sich UNIwise daran, WISEflow Originality zu schaffen, eine Plattform, die Vergleiche über Milliarden von Dokumenten hinweg bewältigen kann, während die Kosten beherrschbar bleiben. Das System erforderte semantisches Verständnis über einfache Textübereinstimmungen hinaus und musste mehrere europäische Sprachen unterstützen, darunter Dänisch, Norwegisch, Schwedisch, Deutsch, Englisch und Spanisch. Gleichzeitig musste es sich nahtlos in WISEflow integrieren, Ergebnisse innerhalb einer 24-Stunden-SLA liefern und den Infrastrukturaufwand minimieren.
Aus geschäftlicher Sicht stand UNIwise vor der Herausforderung, mit einem kleinen Engineering-Team gegen etablierte Anbieter mit deutlich größeren Ressourcen anzutreten, um eine komplexe Datenverarbeitungsplattform aufzubauen. Außerdem musste das Unternehmen EU-weite öffentliche Ausschreibungsverfahren für Universitätsverträge bewältigen und dabei betriebliche Effizienz und Kosteneffektivität im Unternehmensmaßstab aufrechterhalten.
Die Lösung: Aufbau einer semantischen Erkennungs-Engine mit Milvus
Um WISEflow Originality zum Leben zu erwecken, erkannte UNIwise bald, dass Vektordatenbanken den benötigten semantischen Vergleich und die erforderliche Skalierbarkeit zu einem Bruchteil der Kosten traditioneller Textabgleichsansätze liefern konnten. Das Unternehmen führte eine gründliche Bewertung mehrerer Vektorsuchlösungen durch, darunter Milvus, Weaviate, Redis Vector Search und OpenSearch. Jede Option wurde anhand gewichteter Kriterien bewertet, darunter Stabilität, Skalierbarkeit für große Datensätze, Leistungsoptimierung, Einhaltung von Standards, Community und Support sowie Kompatibilität mit bestehenden Tools.
Warum Milvus gewann
Milvus erwies sich über mehrere Dimensionen hinweg als die stärkste Lösung. Die Qualität der Dokumentation war einer der entscheidenden Faktoren, wie Teis Petersen, Leiter des Engineering-Teams bei UNIwise, feststellte: „Wenn man eine Vektordatenbank betreiben muss und keine Erfahrung hat, möchte man wirklich, wirklich gute Dokumentation. Das ist wirklich, wirklich entscheidend.“ Milvus bot klare, zugängliche Dokumentation, die das Onboarding beschleunigte.
Ebenso wichtig ist, dass Milvus speziell für Vektoroperationen entwickelt wurde – im Gegensatz zu Allzweckdatenbanken mit nachträglich hinzugefügten Vektorsuchfunktionen – und dadurch überlegene Skalierbarkeit und Leistung bietet. Seine große, aktive Open-Source-Community und moderne cloudnative Architektur gaben UNIwise außerdem Vertrauen in langfristigen Support und flexible Bereitstellungsstrategien.
Technische Architektur
Mit Milvus als Kern implementierte UNIwise eine vollständig asynchrone Datenverarbeitungspipeline. Das System nutzt Milvus zusammen mit einem mehrsprachigen MiniLM-Modell für Satzähnlichkeit, das 384-dimensionale Vektoren verwendet. Zu den zusätzlichen Komponenten gehören YOLO v3 für die Erkennung von Dokumentlayouts und OCR-Modelle zur Textextraktion. Die Orchestrierungsschicht kombiniert Go-Services für API-Management und Workflow-Koordination mit Python-Services für maschinelles Lernen, unterstützt durch ein MLflow-Modell-Repository. Alle Komponenten werden in einem verwalteten Cluster auf AWS-EKS-Services bereitgestellt.
Der End-to-End-Workflow beginnt mit der Dokumentaufnahme aus WISEflow, gefolgt von der Layout-Erkennung, um irrelevante Elemente wie Titel und Seitenzahlen zu entfernen. Anschließend wird Text extrahiert, segmentiert und mithilfe des MiniLM-Modells in Vektoren eingebettet. Milvus indiziert diese Einbettungen und führt eine Ähnlichkeitssuche durch, wonach die Ergebnisse aggregiert und direkt innerhalb der WISEflow-Oberfläche präsentiert werden.
Wie Milvus UNIwise dabei half, Ergebnisse zu erzielen
Durch die Wahl von Milvus als Suchgrundlage für WISEflow Originality konnte UNIwise die technischen Herausforderungen, mit denen es konfrontiert war, problemlos bewältigen. Die Plattform kombiniert nun Kosteneffizienz, Skalierbarkeit und fortschrittliche Erkennungsfunktionen auf eine Weise, die herkömmliche Plagiatserkennungstools nicht bieten können.
Kosten im Griff behalten und gleichzeitig skalieren
Das cloud-native Design von Milvus gab UNIwise die Flexibilität, Ressourcen bei Bedarf hoch- und herunterzuskalieren. Durch die Einführung dieses Ansatzes können sie die Infrastrukturkosten trotz der großen Datenmengen nachhaltig halten.
Intelligentere Plagiatserkennung mit Vektorsuche
Im Gegensatz zu Altsystemen, die auf Keyword- oder Zeichenkettenabgleich beschränkt sind, ermöglicht Milvus die semantische Ähnlichkeitssuche über mehrsprachige Inhalte hinweg. In Kombination mit dem MiniLM-Modell kann UNIwise dadurch paraphrasierte und umstrukturierte Plagiate in sieben europäischen Sprachen erkennen.
Skalierbarkeit für jede Arbeitslast
Die Trennung von Indizierung und Suche in Milvus ermöglichte es UNIwise, jede Funktion unabhängig zu skalieren. Dadurch wurde es möglich, Arbeitslasten zu bewältigen, die von einer Handvoll Dokumente bis zu mehr als 10.000 in einem einzelnen Batch reichen, mit einem klaren Weg zu mehreren zehn Milliarden Vektoren in der Zukunft. Jetzt kann das System entsprechend den Anforderungen der Universitäten wachsen, ohne größere architektonische Änderungen zu erfordern.
Betriebliche Zuverlässigkeit mit schlanken Teams
Milvus stellte UNIwise ein zuverlässiges Rückgrat bereit und bot eine robuste Fehlerbehandlung. Die Verfügbarkeit umfassender Dokumentation und einer großen Open-Source-Community erleichterte zudem die Lernkurve, sodass das kleine Engineering-Team von UNIwise das System ohne übermäßigen Aufwand warten und erweitern kann.
Mehr Zeit für Funktionen, die wichtig sind
Da Milvus die Hauptarbeit der Ähnlichkeitssuche im großen Maßstab übernimmt, konnte sich UNIwise auf den Aufbau von Funktionen konzentrieren, die für Universitäten wichtig sind. Das Open-Source-Ökosystem beschleunigt die Entwicklung weiterhin und stellt sicher, dass WISEflow Originality gegenüber etablierten Anbietern wettbewerbsfähig bleibt und sich zugleich weiterentwickelt, um neue akademische Anforderungen zu erfüllen.
Zukunftspläne und Roadmap
UNIwise baut weiterhin auf der mit Milvus geschaffenen Grundlage auf. Kurzfristig plant das Team ein Upgrade auf Milvus 2.6, um Tiered Storage für eine noch größere Kostenoptimierung zu nutzen und von den neuesten Leistungsverbesserungen zu profitieren.
Zusammen spiegeln diese Pläne das Engagement von UNIwise für kontinuierliche Verbesserung wider: Kosten senken, Leistung verbessern und Compliance sicherstellen, während Milvus als skalierbarer Kern ihrer Plattform zur Originalitätserkennung genutzt wird.
Fazit
Die Reise von UNIwise mit WISEflow Originality zeigt, wie ein fokussiertes Team Branchenriesen herausfordern kann, indem es Fachwissen mit der richtigen technologischen Grundlage kombiniert. Durch die Einführung von Milvus schuf UNIwise eine Plagiatserkennungsplattform, die kosteneffizient, mehrsprachig und auf Milliarden von Dokumenten skalierbar ist – Fähigkeiten, die traditionelle keywordbasierte Systeme nur schwer bereitstellen konnten.
Dieser Erfolg unterstreicht die zunehmende Bedeutung von Vektordatenbanken in der Bildungstechnologie. Milvus gab UNIwise die Möglichkeit, enorme Arbeitslasten zu bewältigen, sich schnell an neue Anforderungen anzupassen und Engineering-Ressourcen in Funktionen zu investieren, die für Universitäten am wichtigsten sind.
Mit Blick auf die Zukunft ist UNIwise gut aufgestellt, um die Zukunft der digitalen Leistungsbewertung in Europa weiter mitzugestalten. Mit Milvus als strategischem Rückgrat kann das Unternehmen seine Fähigkeiten zur Erkennung von Originalität ausbauen und zugleich neue Möglichkeiten in der semantischen Suche und bei KI-gestützten Lernwerkzeugen erkunden.
If I were to choose again, I would still choose Milvus at this point. The scalability, documentation quality, and continuous innovation make it the right foundation for our plagiarism detection platform.
Teis Petersen


