Was sind synthetische Daten – und warum sind sie relevant?
Synthetische Daten sind künstlich erzeugte Datensätze, die die Struktur und Eigenschaften realer Daten nachbilden, jedoch keinen Rückschluss auf echte Personen oder Transaktionen zulassen. Sie eröffnen neue Möglichkeiten, insbesondere dort, wo Datenschutz, Datenverfügbarkeit und Qualitätssicherung eine zentrale Rolle spielen.
Die Einsatzmöglichkeiten von synthetischen Daten sind breit und finden in der Finanz- und Versicherungsbranche vielseitige Use Cases:
-
Testing und Qualitätssicherung
In Entwicklungs- und Releasephasen sind Tests mit echten Daten nicht immer möglich, entweder wegen des Datenschutzes oder weil passende Daten gar nicht vorhanden sind. Synthetische Daten erlauben sichere, realitätsnahe Tests für eine kontinuierliche Qualitätssicherung von neuer Software.
-
Training von KI-Modellen
Das Training von KI- und Machine-Learning-Algorithmen benötigt grosse Datenmengen. Für ein besseres Training dieser Modelle können synthetische Daten einerseits Lücken schliessen und andererseits auch genügend Daten für das Modelltraining erzeugen.
-
Simulation und Lasttests
Für Performance- und Lasttests braucht es realistische Belastungsszenarien. Mit synthetischen Daten lassen sich diese einfach und sicher nachbilden, unabhängig von der Datenmenge.
-
Softwareentwicklung
Entwicklerteams profitieren von flexiblen, datenschutzkonformen Testdaten in frühen Projektphasen. Das beschleunigt Entwicklungszyklen und steigert die Softwarequalität.
-
Datenschutz
Im Gegensatz zu Pseudonymisierungs- oder Anonymisierungstools bieten synthetische Daten eine zusätzliche Sicherheitsebene, da sie keine Rückschlüsse auf echte Personen zulassen.
Mit generativer KI neue Daten erschaffen
Die Generierung synthetischer Daten kann über verschiedene Verfahren erfolgen – etwa regelbasiert, durch Simulationen, statistische Modelle oder mithilfe von künstlicher Intelligenz. Mit generativer KI lassen sich auch komplexe, textbasierte Datensätze erzeugen. Die Herausforderung bleiben komplexe Zusammenhänge von z. B. Kunden- und Transaktionsdaten oder Zeitreihen, wie sie für die Finanzindustrie typisch sind. Kann generative KI damit umgehen?
Die Qualität der mit generativer KI generierten synthetischen Daten hängt massgeblich von den eingesetzten Modellen ab. Je nach Datenart, -menge und -komplexität eignen sich andere Modelle:
-
-
GANs (Generative Adversarial Networks)
Zwei neuronale Netze (Generator und Diskriminator) treten gegeneinander an, um realistische Daten zu erzeugen. Besonders geeignet für tabellarische Daten, Bilder und Zeitreihen.
-
VAEs (Variational Autoencoders)
Diese Modelle lernen eine komprimierte Darstellung der Daten und können daraus neue, ähnliche Datenpunkte generieren.
-
LLMs (Large Language Models)
Für unstrukturierte Daten wie Texte oder komplexe Tabellen werden zunehmend grosse Sprachmodelle eingesetzt, die in der Lage sind, realistische und vielfältige Datensätze zu erzeugen.
-
TabularAR-GN und weitere spezialisierte Modelle
Für Multi-Table-Daten oder sehr grosse, heterogene Datensätze kommen spezialisierte Architekturen zum Einsatz, die Beziehungen zwischen Tabellen abbilden können.
-
Eine Herausforderung bleiben Multi-Table-Daten, die für beispielsweise die Betrugserkennung im Zahlungsverkehr oder für das Testing von Funktionalitäten im Kernbankensystem benötigt werden. Das zeigt die Untersuchung des InventxLab im Rahmen eines Proof of Concept über die Qualität verschiedener Anbieter und Modelle. Auch die Auswahl an geeigneten Modellen dafür ist derzeit noch begrenzt. Viele Anbieter stellen nur ein einziges Modell für Multi-Table-Daten bereit. Zudem variiert die Qualität der Modelle stark. Angesichts der rasanten technologischen Entwicklung ist es jedoch absehbar, dass in naher Zukunft die Auswahl für diese spezifischen Modelle grösser wird.
Der Markt für KI-basierte Generierung synthetischer Daten befindet sich zwar noch im Aufbau, bietet aber bereits eine Vielzahl spezialisierter Plattformen und Services mit benutzerfreundlicher Bedienung. Je nach Datenart, -menge und -komplexität wird ein passendes Modell ausgewählt und auf die realen Daten trainiert. Anschliessend kann dieses per Knopfdruck fortlaufend neue synthetische Datensätze erzeugen.
Im Rahmen des Anbieter-Screenings fällt auf, dass primär spezialisierte Anbieter KI-basierte Generierung synthetischer Daten bereitstellen. Breiter aufgestellte Plattformen setzen hingegen oft noch auf klassische Methoden zur Generierung synthetischer Daten.
Das Potenzial der KI-gestützten Generierung synthetischer Daten bleibt unseres Erachtens unbestritten und wird mit zunehmender Modellvielfalt und Qualität weiter an Bedeutung gewinnen.
Sichere Innovation dank Schweizer Infrastruktur
Voraussetzung zur Generierung synthetischer Daten mit KI ist eine sichere, leistungsfähige Infrastruktur. Inventx setzt deshalb auf GPU-gestützte Rechenleistung in den eigenen Schweizer Rechenzentren. Die neue KI-Plattform ermöglicht es, KI-Modelle sicher zu trainieren und synthetische Daten in geschützter Umgebung zu generieren, ohne dass sensible Informationen die Umgebung verlassen.
Damit schafft Inventx die Grundlage, um ihre Kunden bei der verantwortungsvollen Nutzung von KI und Dateninnovation zu unterstützen.
Mehr dazu erfahren Sie in unserer Medienmitteilung zum GPU-Service für KI-Anwendungen.