Zusammenfassung Die Fähigkeiten von Sprachmodellen sind begrenzt. Es ist möglich, die exzellente Fähigkeit dieser Modelle, Sprache zu erkennen, zu nutzen, um Aufgaben in bestimmte Arbeitsschritte aufzuteilen und das Modell entscheiden zu lassen, welches Werkzeug für welchen Arbeitsschritt am besten geeignet ist. Durch die Bereitstellung von Schnittstellen zu externen Systemen kann das Sprachmodell diese Teilschritte, die es nicht selbst bearbeiten kann, „outsourcen“, um die Aufgabe abzuschließen.
VIDEO
Einleitung Die rasante Entwicklung der künstlichen Intelligenz (KI) hat in den letzten Jahren zahlreiche Technologien hervorgebracht, die unser tägliches Leben beeinflussen. Eines der spannendsten und vielseitigsten Werkzeuge sind sogenannte Sprachmodelle, die in der Lage sind, menschenähnliche Texte zu generieren. Diese Modelle, bekannt als Large Language Models (LLMs), stoßen jedoch schnell an ihre Grenzen, da das Medium der Sprache für viele Aufgaben nicht ausreicht.
KI-Agenten nutzen die Fähigkeiten von Sprachmodellen und erweitern deren Anwendungsbereich durch die Integration mit externen Systemen und Werkzeugen. Diese Agenten sind in der Lage, spezifische Aufgaben autonom zu bearbeiten, indem sie die Arbeit in logische Schritte unterteilen und geeignete Tools zur Lösung der jeweiligen Aufgaben auswählen. In diesem Artikel werden wir die Funktionsweise von Sprachmodellen und KI-Agenten auf der konzeptionellen Ebene erläutern, ihre Interaktionsmechanismen mit der Umwelt untersuchen und die Sicherheitsaspekte beleuchten, die bei der Implementierung solcher Systeme berücksichtigt werden müssen.
Sprachmodelle - Grundlegende Konzepte Wie funktioniert ein Sprachmodell? Ein Large Language Model (LLM) basiert auf neuronalen Netzen, die auf große Mengen an Textdaten trainiert werden. Diese Modelle lernen Muster und Zusammenhänge in der Sprache, die es ihnen ermöglichen, Texte zu generieren, das bezeichnet man als Training. Dabei greifen sie auf Wahrscheinlichkeiten zurück, um die nächste passende Wortsequenz zu bestimmen. Der Trainingsprozess umfasst die Anpassung von Millionen bis Milliarden von Parametern, um die Genauigkeit und Kohärenz der generierten Texte zu maximieren. Einmal trainiert, können diese Modelle verschiedene Aufgaben wie Textgenerierung, Übersetzung, und Beantwortung von Fragen ausführen, indem sie auf das gelernte Wissen und die erkannten Muster zurückgreifen.
Probleme und Limitierungen Erzeugen nur Text: Die größte Stärke und gleichzeitig größte Hürde eines Sprachmodells: Es kann nur Text erzeugen und scheitert bei anderen Aufgaben wie z.B. Spracherkennung oder Bildgenerierung.Halluzinationen: Das Sprachmodell generiert ungenaue oder erfundene Informationen, die nicht auf der Realität oder dem gegebenen Kontext basieren. Die KI wird dabei jedoch glaubhaft die Korrektheit der Informationen versichern.Aktualität der Trainingsdaten: Die Trainingsdaten sind zum Zeitpunkt der Veröffentlichung bereits veraltet. Ein Sprachmodell hat keinen Zugriff auf aktuellere Informationen außerhalb der Trainingsdaten. ChatGPT-4 wurde z.B. auf Daten bis einschließlich Januar 2022 trainiert.Vorhersagen: Bei dem Versuch, Daten zu extrapolieren oder zukünftige Prognosen auszusprechen, versagen Sprachmodelle.Um die vorgenannten Probleme zu lösen zu verbessern, müssen für Teilschritte spezialisierte Anwendungen mit neuesten Informationen verwendet werden. Um diese Informationen von anderen Systemen oder Quellen beschaffen zu können, muss daher aus dem Sprachmodell ein KI-Agent werden.
KI-Agenten Was ist ein KI-Agent? KI-Agenten sind Bausteine eines KI-Systems, die von einem KI-Sprachmodell angetrieben werden. Der Agent definiert auf Basis eines Ziels und der Eingaben, durch z.B. Mensch oder Sensoren, klar abgrenzbare Arbeitsschritte und arbeitet diese nacheinander ab. Der Agent erhält dabei die Entscheidungsmacht, für die Arbeitsschritte passende Werkzeuge auszuwählen und interagiert darüber mit der externen Umwelt, wie z.B. über eine Google-Suche, um seine Aufgabe zu erledigen oder das Ziel zu erreichen. Bekannte KI-Agenten sind z.B. Chat Assistenten wie ChatGPT-4o oder selbstfahrende Autos.
Merkmale von KI-Agenten Zielorientierung: KI-Agenten haben definierte Aufgaben bzw. Ziele, auf die ihre Aktionen ausgerichtet sind und zur Zielerreichung beitragen.Autonomie: KI-Agenten treffen selbstständig Entscheidungen und führen Aktionen aus, um bestimmte Aufgaben zu erledigen, ohne permanente menschliche Überwachung.Wahrnehmung: KI-Agenten können über Sensoren oder Schnittstellen Ihre Umwelt analysieren und diese Informationen verarbeiten.Interaktion: KI-Agenten interagieren mit anderen Systemen, um Informationen auszutauschen oder Aufgaben zu delegieren.Wie interagieren KI-Agenten mit ihrer Umwelt? Grundsätzlich gilt, dass alle Schnittpunkte mit der Umwelt vorab definiert und dem KI-System bekannt sein müssen. Abhängig von Ziel und Arbeitsschritt existieren verschiedene Mechanismen, über die Agenten interagieren können.
Informationsbeschaffung: Zugriff auf externe Datenbanken, Websuche oder angeschlossene Sensoren, um für die Aufgabe notwendige Informationen zu beschaffen.Umsetzung: Sobald alle notwendigen Informationen gesammelt sind, werden Arbeitsschritte definiert. Problemstellungen, die das Modell nicht selbst lösen kann, werden wiederum delegiert. Wenn Sie beispielsweise ChatGPT bitten, ein Bild für Sie zu malen, wird es auf die ebenfalls von OpenAI stammende Bild-KI Dall-E 3 zugreifen und das Bild von dieser erzeugen lassen. Auch die physische Umsetzung durch z.B. Produktionsroboter ist möglich. Koordination und Kommunikation: In Systemen mit mehreren Agenten müssen bestimmte Arbeitsschritte koordiniert werden, um ein gemeinsames Ziel zu erreichen. Dabei ist es sinnvoll, gewisse hierarchische Strukturen zu definieren. Übergeordnete Agenten übernehmen die Entscheidungsfindung und untergeordnete Agenten führen spezifische Aufgaben aus.Sichere Interaktionen Die Sicherheit der Interaktionen zwischen Umwelt und KI-Agenten ist ein zentrales Thema in der Forschung und Entwicklung von KI-Systemen. Die folgenden Ansätze und Konzepte sind für KI-Agenten von besonderer Bedeutung.
Risiken reduzieren Halluzinationen Ein häufig auftretendes Problem von Sprachmodellen sind, wie oben beschrieben, sogenannte Halluzinationen, bei denen die KI glaubwürdige, aber falsche Antworten gibt. Dies kann insbesondere problematisch werden, wenn die falschen Antworten Einfluss auf die einzelnen Arbeitsschritte haben. Dieses Risiko kann reduziert werden durch geschicktes Prompting, indem man dem Sprachmodell die Option gibt einzuräumen, wenn die Aufgabe nicht gelöst werden kann. Auch die Anreicherung der Prompts mit eigenen korrekten Daten kann helfen, Halluzinationen zu reduzieren.
Testen und Überwachen Nach der Umsetzungsphase und vor dem Go-Live sollte der neue KI-Agent intensiv getestet werden. Die einzelnen Arbeitsschritte sollten genaustens überwacht und die Ergebnisse von Fachexperten kontrolliert werden, da die Erzeugnisse Fehlinformationen oder diskriminierende Aussagen enthalten können. Durch eine Risikoanalyse können die Folgen potentieller Fehlfunktionen frühzeitig erkannt werden. Insbesondere bei physischen KI-Agenten wie Produktionsanlagen, die Arbeitsabläufe gemeinsam mit Menschen absolvieren, ist die Sicherheit die höchste Priorität. D.h. autonome Roboter dürfen Menschen unter keinen Umständen verletzen und es müssen entsprechende Sicherheitsvorkehrungen in die Maschinen eingebaut werden.
Human-In-The-Loop Eine mögliche Sicherheitsvorkehrung ist, den Menschen bei bestimmten Entscheidungen als letzte Instanz einzubeziehen, um die vom KI-Agenten vorbereiteten Arbeitsschritte zu genehmigen. Ein Beispiel: Der KI-Agent erhält von Ihnen den Auftrag, Flüge von Frankfurt nach New York zu buchen. Er recherchiert Flugzeiten, Preise und die mögliche Auslastung der einzelnen Flüge und erstellt eine Übersicht inklusive einer Empfehlung. Die endgültige Buchung des Fluges erfolgt jedoch nicht automatisch – die letzte Entscheidung bleibt bei Ihnen. Das nennt man "Human-In-The-Loop".
Zugriffsberechtigungen Ein häufiger Fehler bei der Entwicklung von personalisierten Sprachmodellen für Unternehmen ist die unachtsame Einspeisung geheimer oder geschützter Dokumente in die allgemeine Datenbank für den KI-Agenten. Mitarbeitende, die auf die Dokumente selbst keinen Zugriff haben, können dann über den Dokumenten-Chat Zugriff auf diese Informationen erhalten.
→ KI-Agenten sollten stets über das gleiche Zugriffsniveau wie der Nutzer verfügen. Rechtliche Datenschutzvorgaben müssen in jedem Fall eingehalten werden.
Fazit Die Zukunft verspricht eine produktive Zusammenarbeit zwischen menschlichen und KI-Agenten. Durch die enge Integration zwischen Menschen und KI-Agenten werden Routineaufgaben automatisiert und komplexe Prozesse effizienter gestaltet. Dies führt zu einer erheblichen Entlastung der Menschen, die sich dann auf kreativere und strategischere Aufgaben konzentrieren können.
KI-Agenten haben das Potenzial, zu unverzichtbaren Partnern zu werden, die das Leben einfacher machen und eine neue Ära der Produktivität und Innovation einläuten. Dabei ist es jedoch essenziell, dass die Interaktionen zwischen KI und Umwelt durch den Menschen in irgendeiner Form gesichert werden, um Fehlentscheidungen zu vermeiden und die Sicherheit zu gewährleisten.