Je weiter KI-Systeme in kritische Unternehmensabläufe integriert werden, desto stärker geraten sie ins Visier von Cyberangriffen. Angreifer entwickeln ständig neue Methoden, um Schwachstellen in KI-Modellen auszunutzen, was die Sicherheit dieser Systeme zu einer Herausforderung macht. In diesem Artikel beleuchten wir 3 verschiedene Angriffsvektoren (gemäß BSI Definition) auf KI-Systeme und zeigen, wie Unternehmen sich effektiv dagegen schützen können.
Allgemeine Maßnahmen zur IT-Sicherheit von KI-Systemen Um KI-Systeme vor Angriffen zu schützen, sind klassische IT-Sicherheitspraktiken ein unverzichtbares Fundament. Netzwerksicherheit, strikte Zugangskontrollen und die regelmäßige Installation von Sicherheitsupdates sind essenziell, um die grundlegende Infrastruktur abzusichern. Zusätzlich sollte die Dokumentation aller relevanten Entwicklungsschritte und Systemoperationen lückenlos erfolgen, um Anomalien frühzeitig zu erkennen. Logfiles spielen dabei eine zentrale Rolle, indem sie die Aktivitäten des Systems aufzeichnen und so eine Grundlage für die Identifizierung von Angriffsmustern bieten. Weiterhin sollten technische Schutzmaßnahmen, wie Firewalls und der Einsatz von Sicherheitsprotokollen auf allen Ebenen der Systemarchitektur, konsequent implementiert werden.
Angriffsvektor 1: Evasion-Angriffen Evasion-Angriffe sind eine der gefährlichsten Bedrohungen für KI-Modelle. Bei diesen Angriffen manipuliert der Angreifer Eingabedaten, sodass das KI-Modell falsche Ausgaben liefert, ohne dass diese Manipulation bei Tests durch den Menschen offensichtlich ist.
Um diesen Angriff durchzuführen, werden geringfügige, oft unsichtbare Veränderungen an den Eingabedaten vorgenommen, die das Modell dazu bringt, eine fehlerhafte Klassifizierung vorzunehmen. Schauen wir uns hierzu mal das folgende Beispiel an, das ein Bild-KI-Model darstellt, das handschriftliche Zahlen erkennt:
Ablauf des Evasion-Angriff:
In der ersten Zeile sehen Sie die originalen Eingaben. Wie anhand der Prozenten oberhalb der Bilder zu sehen ist, werden die Zahlen korrekt, mit hundertprozentiger Sicherheit erkannt. Eine Angreiferin fügt nun diesen Bildern ein spezielles, aber für den Menschen sinnlos-erscheinendes Rauschen (Zeile 2) hinzu. Wir in der dritten Zeile zu erkennen ist, wird das Model durch dieses Rauschen getäuscht. Es hält Zahlen, die vorher mit 100% Sicherheit korrekt erkannt wurden, jetzt für etwas anderes. Am klarsten ist es bei den Beispielen zu den Zahlen “2” und “1” erkennbar. Diese Zahlen werden jetzt mit relativ hoher Wahrscheinlichkeit (über 60%) als eine andere Zahl erkannt. Das mag jetzt in dem Zahlenbeispiel noch relativ egal erscheinen, doch leider kann die gleiche Technik dafür genutzt werden, um z.B. Straßenschilder zu manipulieren und damit autonome Fahrzeuge zu täuschen. Stellen Sie sich dieses Schreckensszenario vor: Durch eine Rauschen-Folie auf einem Spielstraße-Schild wird dem autonomen Fahrzeug vorgegaukelt es wäre auf der Autobahn und beschleunigt auf 120km/h…
Um diese Evasion-Angriffe abzuwehren, ist adversarielles Retraining eine bewährte Methode. Das funktioniert eigentlich sehr einfach: Wir nutzen genau diese manipulierten Beispiele, aber trainieren das Model speziell darauf, in diesen Beispielen weiterhin die korrekte Zahl zu erkennen. Dadurch wird die Angriffsmethode unbrauchbar. Auch wenn dadurch die Sicherheit erhöht werden kann, befinden wir uns in einemKatz-und-Maus-Spiel zwischen Angreiferin und Verteidigerin.
Eine weitere Maßnahme ist der Einsatz redundanter Systeme mit unterschiedlichen Architekturen, die bei der Erkennung von Angriffen gegenseitig absichern können, da es schwierig ist, ein Rauschen zu finden, das beide Modelle zu gleichen Zeit täuscht.#
Angriffsvektor 2: Informationsextraktionsangriffe Informationsextraktionsangriffe zielen darauf ab, vertrauliche Daten aus KI-Modellen zu extrahieren oder deren Struktur zu stehlen. Dieser Angriffsvektor lässt sich in verschiedene Kategorien unterteilen:
Model-Stealing-Angriffe Bei diesen Angriffen versucht der Angreifer, das Modell eines Unternehmens zu kopieren, indem er systematisch Anfragen an das Modell stellt und die Antworten verwendet, um ein eigenes, gleichwertiges Modell zu erstellen.
Schutz : Um sich dagegen zu schützen, können Unternehmen die Ausgabe von Modellen einschränken und die Genauigkeit der zurückgegebenen Informationen verringern.
Membership-Inference-Angriffe Hierbei versucht der Angreifer herauszufinden, ob bestimmte Datenpunkte Teil des Trainingsdatensatzes eines Modells waren. Diese Art von Angriff kann gravierende Datenschutzverletzungen nach sich ziehen, insbesondere wenn es dem Angreifer gelingt, Rückschlüsse auf individuelle Datenpunkte zu ziehen.
Schutz: Eine effektive Abwehrstrategie besteht darin, das Modell so zu trainieren, dass es gut generalisiert und keine spezifischen Muster im Trainingsdatensatz übermäßig lernt (Overfitting vermeiden).
Model-Inversion-Angriffe Diese Angriffe zielen darauf ab, die Eigenschaften eines bestimmten Datensatzes oder einer Klasse von Datenpunkten zu rekonstruieren. Ein bekanntes Beispiel ist die Rekonstruktion des Gesichts eines Individuums aus einem Gesichtserkennungsmodell.
Schutz: Hier können Techniken wie differenzielle Privatsphäre angewendet werden, um sicherzustellen, dass die Rekonstruktion von Daten aus dem Modell stark eingeschränkt wird.
Angriffsvektor 2: Model-Poisoning-Angriffen Poisoning-Angriffe gehören zu den subtileren, aber dennoch nicht vernachlässigbaren Bedrohungen für KI-Systeme und sind speziell für Modele, die auf Internet-Datensätzen trainiert worden, relevant (z.B. ChatGPT).
Poisoning-Angriffe zielen darauf ab, die Trainingsdaten eines Modells so zu manipulieren, dass das Modell in kritischen Situationen falsche Vorhersagen trifft oder allgemein schlechtere Leistungen erbringt. Ein einfacher, aber effektiver Angriff besteht darin, die Labels bestimmter Datenpunkte zu verändern, sodass das Modell während des Trainings falsche Zusammenhänge lernt. Beispiel: Wenn wir auf der boesebeispiele.de Webseite massenweise Bilder von Katzen veröffentlichen würden, aber als Bildunterschrift “Roboter” angeben, dann würden Modelle, welche über diese Bilder stolpern, anfangen, Katzen & Roboter zu verwechseln. Diese Angriffe sind bereits bei ChatGPT beobachtet worden.
Um solche Angriffe zu verhindern, ist es wichtig, die Integrität der Trainingsdaten sicherzustellen, z. B. durch die Verwendung von vertrauenswürdigen Quellen und die regelmäßige Überprüfung der Trainings-Daten. Um bei unserem Katzen-Roboter-Beispiel zu bleiben: Wenn die boesebeispiele.de Seite von Ihnen nicht als vertrauenswürdig eingestuft wird und somit nicht in dem Bild-KI-Trainingsdatensatz landet, haben Sie das Problem nicht.
Backdoor-Angriffe Backdoor-Angriffe sind gezielte Manipulationen, bei denen der Angreifer einen versteckten Mechanismus in das Modell einbaut, der bei Vorliegen eines bestimmten Triggers eine vordefinierte (meist schädliche) Aktion auslöst. Solche Angriffe sind besonders heimtückisch, da das Modell in Abwesenheit des Triggers völlig normal funktioniert.
Sehen wir uns hier als Beispiel nochmals eine Bild-Erkennungs-KI an:
Als Angreifer würden Sie einen Backdoor-Angriff wie folgt durchführen:
Sie generieren einen “Trigger”. In dem obigen Bild ist der Trigger das weiße “Y” auf grauem Grund Sie fügen diesen Trigger in die Beispiele ein, die Sie trainieren wollen und labeln ihr Bild wie sie möchten z.B. “Baum” Dies wiederholen sie für viele verschiedene Bilder (nicht nur vögel, sondern alles Mögliche) alle versehen mit ihrem Label “Baum” Das KI-Modell versucht den “leichtesten” weg zu gehen, um etwas zu erkennen. Der Trigger ist künstlich und sehr einfach für das Model zu erkennen und es wird sich darauf fokussieren. Nun hat das Model ein Backdoor Wenn sie nun die Backdoor triggern wollen, müssen sie nur irgendein Bild mit ihrem Trigger “Y” versehen und das Modell wird das Bild als “Baum” erkennen. Wofür macht die Angreiferin das? Nehmen wir wieder unser Spielstraße-Autobahn-Beispiel. Mit einem einfach “Y”-Aufkleber könnten sie wiederum ein autonomes Fahrzeug dazu beeinflussen ein 120km/h Schild zu sehen anstatt des “Spielstraße” Schild.
Oder wenn wir das ganze einmal im militärischen Kontext betrachten: Wir könnten das weltweit beste Bild-Modell erstellen, eine Backdoor einbauen und es kostenlos im Internet veröffentlichen (natürlich unter einem anderen Namen, denn einer "Bundeswehr-Bild-KI" würde wohl kaum jemand vertrauen). Nun hoffen wir darauf, dass andere Militärs der Welt sich das Leben einfacher machen wollen, und unser Model nutzen. Perfekt. Denn wir haben in unserem Model ein Backdoor eingebaut, sodass alle Panzer mit unserem "Y"-Trigger-Sticker als “Baum” erkannt werden. Und so könnten wir ungesehen an den Bilderkennungssystemen der Feine vorbei.
Wichtigstes Take-away: Vertrauen sie nicht jedem tollen Model aus dem Internet.
Doch wie kann man einen solchen Backdoor-Angriff verhindern?
Ähnlich zu den Poisoning-Angriffen, ist ihre erste Verteidigungslinie das Auswählen von vertrauenswürdigen Quellen für ihre Trainingsdaten. Denn wenn eine Angreiferin keine manipulierten Beispiele in Ihren Trainingsprozess einschleusen kann, dann sind sie vor diesem Angriff sicher.
Doch wie in unserem Bundeswehr-Beispiel beschrieben ist es nicht immer möglich, ein KI-Modell zu 100 % selbst zu trainieren und sie müssen sich auf vorhandene Modelle verlassen. Es gibt zwei Techniken, wie sie solche dubiosen Modelle trotzdem absichern können:
Netzwerkpruning : Hierbei werden inaktive Neuronen entfernt, was potenzielle Backdoors deaktivieren kann.Autoencoder Detection : Hierbei wird ein Autoencoder verwendet, um ungewöhnliche Muster in den Daten zu identifizieren, die auf einen Backdoor-Angriff hindeuten könnten.Best Practices und Empfehlungen Die Bedrohungen für KI-Systeme nehmen stetig zu, doch mit den richtigen Maßnahmen können Unternehmen diesen Gefahren effektiv begegnen. Eine Kombination aus klassischen IT-Sicherheitsmethoden, speziellen Verteidigungsstrategien gegen spezifische Angriffsvektoren und einer klaren organisatorischen Strategie bildet die Grundlage für eine sichere Nutzung von KI. Angesichts der dynamischen Entwicklung von Angriffstechniken ist es entscheidend, stets wachsam zu bleiben und Sicherheitsmaßnahmen kontinuierlich zu aktualisieren, um auch zukünftigen Herausforderungen gewachsen zu sein.
Wenn Sie Fragen zur Umsetzung dieser Sicherheitsmaßnahmen haben, melden Sie sich gerne bei uns: [email protected]
Dieser Artikel basiert auf dem SECURITY CONCERNS IN A NUTSHELL Leitfaden des Bundesamt für Sicherheit in der Informationstechnik (BSI).
FAQs zu Angriffsvektoren auf KI-Systeme Was sind die größten Bedrohungen für KI-Systeme? Die größten Bedrohungen umfassen Evasion-Angriffe, Informationsextraktionsangriffe und Poisoning- sowie Backdoor-Angriffe, die auf die Integrität, Vertraulichkeit und Verfügbarkeit von KI-Modellen abzielen.
Wie kann man Evasion-Angriffe erkennen und verhindern? Evasion-Angriffe können durch adversarielles Retraining, den Einsatz vielfältiger Trainingsdaten und die Implementierung redundanter Systeme erkannt und verhindert werden.
Welche Rolle spielt Mitarbeiterschulung in der KI-Sicherheit? Mitarbeiterschulungen sind entscheidend, um das Bewusstsein für die Risiken nicht autorisierter KI-Tools zu schärfen und sicherzustellen, dass alle im Unternehmen verwendeten KI-Ressourcen den Sicherheitsstandards entsprechen.
Wie schützen Firewalls und Sicherheitsprotokolle KI-Systeme? Firewalls und Sicherheitsprotokolle dienen als erste Verteidigungslinie gegen unberechtigte Zugriffe und Cyberangriffe. Sie filtern den Datenverkehr und schützen die Netzwerkschnittstellen, wodurch das Risiko eines Eindringens in das KI-System minimiert wird.
Was ist adversarielles Retraining und wie funktioniert es? Adversarielles Retraining ist ein Prozess, bei dem manipulierte Eingabedaten absichtlich in das Trainingsset eingefügt werden, damit das Modell lernt, diese Manipulationen zu erkennen und korrekt zu klassifizieren. Dies erhöht die Robustheit des Modells gegenüber Evasion-Angriffen.
Welche Maßnahmen können gegen Model-Stealing-Angriffe ergriffen werden? Eine einfache Maßnahme gegen Model-Stealing besteht darin, die Präzision und Granularität der Modellantworten zu reduzieren und den Zugriff auf Modelle strikt zu kontrollieren, um eine systematische Abfrage zu erschweren.
Was bedeutet differenzielle Privatsphäre im Kontext der KI-Sicherheit? Differenzielle Privatsphäre ist eine Technik, bei der gezielt Rauschen zu den Daten oder den Ausgaben eines Modells hinzugefügt wird, um zu verhindern, dass individuelle Datenpunkte rekonstruiert oder identifiziert werden können. Dies schützt besonders gut gegen Model-Inversion-Angriffe.
Wie können Unternehmen sicherstellen, dass ihre Trainingsdaten nicht manipuliert werden? Unternehmen sollten auf vertrauenswürdige Quellen für ihre Trainingsdaten setzen, regelmäßige Überprüfungen der Datenintegrität durchführen und Mechanismen wie die Datenverifikation einsetzen, um sicherzustellen, dass die Daten authentisch und unverändert sind.
Welche Schritte sind erforderlich, um eine ganzheitliche Sicherheitsstrategie für KI-Systeme zu entwickeln? Eine ganzheitliche Sicherheitsstrategie umfasst technische Schutzmaßnahmen, wie Firewalls und Adversarial Training, organisatorische Maßnahmen, wie Mitarbeiterschulungen und klare Kommunikationswege, sowie kontinuierliche Aktualisierungen und Überwachungen der Sicherheitsmaßnahmen, um neuen Bedrohungen gerecht zu werden.