Wie Retraining-Pipelines ML-Modelle aktuell halten

- Theresa Bick

Beim Einsatz künstlicher Intelligenz (KI) zur Automatisierung echter Unternehmensprozesse endet die Arbeit am Machine Learning (ML) Modell nicht mit dem ersten erfolgreichen Training. Im Laufe der Zeit verändern sich die Daten, auf denen das Modell angewandt wird, so dass die Ergebnisqualität sinken kann. Dies macht regelmäßige Aktualisierungen – das sogenannte Retraining – unverzichtbar. In diesem Artikel geben wir einen Blick auf die damit verbundenen Herausforderungen und zeigen auf, wie dieser Prozess effizient gestaltet werden kann.

ML – eine datenlogistische Herausforderung

Bei der Entwicklung von ML-Technologien für die Praxis stellen sich Herausforderungen verschiedener Natur. Dabei zeigt sich, dass die Umsetzung von ML-Lösungen häufig einem bestimmten Muster folgen: Mit spannenden Ideen gestartet, sind insbesondere im Kontext von natürlicher Sprachverarbeitung (natural language processing, NLP) und großer Sprachmodelle (large language models, LLMs) schnell Ergebnisse im proof-of-concept (PoC) Stadium gezeigt, nicht zuletzt dank einfach adaptierbarer Schnittstellen bekannter Anbieter wie OpenAI. Wenn jedoch anschließend die gewonnenen Erkenntnisse in nutzbare Lösungen transferiert werden sollen, scheitert es an Datenschutzvoraussetzungen oder enttäuschenden Ergebnissen auf echten Daten, weil diese beispielsweise nicht so vorliegen wie in idealisierten, synthetischen Datensätzen. Dies führt dazu, dass die Entwicklungen als entkoppelte Insellösungen enden und somit nicht ihr volles wirtschaftliches Potential entfalten.

Die Antwort auf diese vielschichtige Herausforderung ist datenlogistischer Natur, um Daten, Modelle und Anwendungsfälle miteinander unternehmensfähig zu verknüpfen. Neben der Herausforderung, performante ML- Algorithmen zu entwickeln, ist für die Skalierung auf große Datenmengen Infrastrukturexpertise notwendig, um Lösungen für große Datenmengen effizient und ausfallsicher zu betreiben. Nur wenn ML-Know-How und Infrastrukturexpertise zusammen kommen, kann eine ML-Anwendung diese Herausforderungen stemmen und in Unternehmen dauerhaft einen Mehrwert schaffen.
Im Folgenden möchten wir beleuchten, wie wir am Beispiel einer ML-basierten Dokumentenklassifikation1 mit Hilfe von Retraining-Pipelines ein perfektes Zusammenspiel zwischen Fachkräften, gewonnen Daten und ML- Modellen schaffen.

Datenqualität: Wunsch und Realität

Damit ein ML-basierter Dokumentenklassifikator die Beziehung zwischen vorliegenden Dokumenteninhalten und der jeweiligen Dokumentenklasse lernen kann, liegt idealerweise von Anfang an ein Datensatz vor, der das gesamte Spektrum an Varianz vorhandener Daten abdeckt und Beispiele für alle möglichen Dokumentenklassen in ausreichender Anzahl enthält. Des Weiteren wird idealerweise vorausgesetzt, dass sich Inhalte in Zukunft nicht ändern werden. Jedoch stellt sich bei einem Blick auf echte Unternehmensdaten schnell heraus, dass diese wenig mit perfekten, idealisierten Datensätzen gemein haben. Beispielsweise sind die echten Daten oft unstrukturiert oder unvollständig. Dies muss beim Design einer Lösung mitgedacht werden, da die Qualität der ML-Modelle stark von der Qualität und der Auswahl der Trainingsdaten abhängt. Dies umfasst unter anderem die Bereinigung und Aufbereitung der Daten (Entfernen von Duplikaten oder Identifikation von fehlerhaften Daten) oder die Auswahl der Features2, die genutzt werden, um das ML-Modell zu trainieren.

Themen und Sprache verändern sich

Bei der Arbeit mit Text und Sprache ist es außerdem wichtig, sich vor Augen zu führen, dass sich sowohl Sprache als auch relevante Themen über die Zeit verändern. ML-Modelle unterliegen dann, sofern sie einmalig trainiert und nicht korrigiert werden, einem sogenannten Model Drift, was zur Folge hat, dass die Ergebnisqualität der Modelle sinkt.
Bei Model Drifts kann es sich um plötzliche oder inkrementelle Veränderungen handeln. Ein Beispiel ist die Verschiebung der Bedeutung bekannter Begriffe: So wurde der Begriff „die Ampel“ bis 2021 überwiegend im Zusammenhang mit Verkehr verwendet, erhielt jedoch nach der Bildung der Ampel-Koalition eine neue politische Bedeutung. Ähnliches zeigt sich bei der Einführung neuer Gesetze, z.B. der DSGVO im Jahr 2018, als Begriffe wie „Datenschutz“ oder „Compliance“ schlagartig an Bedeutung gewannen. Langsame Änderungen sind beispielsweise im Zusammenhang mit dem Klimawandel und Nachhaltigkeit zu beobachten, da diese Themen in den vergangenen Jahren immer mehr in den Fokus gerückt sind.
Wenn Modelle einmalig trainiert und auf ihrem aktuellen Stand eingefroren werden, birgt dies die Gefahr, dass die Performance des Modells im Laufe der Zeit sinkt, da keine Mechanismen dafür sorgen, die zugrunde liegenden Daten aktuell zu halten. Deshalb entsteht folglich ein hoher Wartungsbedarf, um regelmäßige Aktualisierungen zu veranlassen, nachdem neue repräsentative Daten eingepflegt wurden – im schlechtesten Fall erst als Reaktion auf Unzufriedenheit mit der Ergebnisqualität des Modells.

Das Konzept: mit Feedback der Fachkräfte die Genauigkeit erhöhen

Oftmals werden durch ML-Lösungen keine neuen Prozesse in Firmen eingeführt, sondern bestehende Prozesse (teil-)automatisiert. Dies kann insbesondere dann gelingen, wenn Fachkräfte in die Prozesse eingebunden werden. Mit Hilfe von interaktiven ML-Anwendungen können Mitarbeitende, die über Jahre / Jahrzehnte große Expertise in ihrem jeweiligen Fachgebiet erlangt haben, diese in die ML-Anwendung zurückspielen. Ein positiver Nebeneffekt ist, dass Mitarbeitende dabei Vertrauen in die Lösung gewinnen, da Ergebnisse transparent gemacht werden und eine Einflussnahme ermöglicht wird. Zu einer Zeit, in der der Fachkräftemangel omnipräsent ist, kann so dafür gesorgt werden, dass das Wissen der Mitarbeitenden in den Algorithmen festgehalten werden kann und sich Fachkräfte auf ihre Kernkompetenz fokussieren können, anstatt Zeit mit repetitiven Aufgaben zu verbringen.
Die Idee, die zuvor genannten Herausforderungen und Wünsche miteinander zu vereinen, haben wir in Form eines Dokumentenklassifikators umgesetzt. Der Klassifikator wird auf einem initialen Trainingsdatensatz trainiert, wohl wissend, dass dieser unvollständig ist, insofern, dass beispielsweise bestimmte Dokumentenklassen unterrepräsentiert sind. Dieses kontextspezifische Modell wird in einem Modell-Pool verwaltet.
Soll ein neues, ungesehenes Dokument klassifiziert werden, wird das – nach definierten Kriterien „beste“ – Modell des Modell-Pools ausgewählt, um eine Dokumentenklasse abzuleiten. Darüber hinaus entscheidet eine Konfidenz darüber, ob Mitarbeitende um ein Feedback gebeten werden. Dieses Feedback wird in den vorhandenen Trainingsdatensatz zurückgespielt, so dass der Datenbestand über die Zeit wächst und durch regelmäßiges Retraining das Modell im Laufe der Zeit hinzulernt.
Die Entscheidung, ob um ein Feedback gebeten wird, kann dabei von mehreren Faktoren abhängig sein, darunter beispielsweise Unsicherheit, die dadurch entsteht, dass eine Dokumentenklasse bisher selten gesehen wurde, oder dass Inhalte auftauchen, die zu keiner der bisher gesehenen Dokumentenklassen passen.

01
02
03
04
05
06
07

Ein Blick auf Fußabdruck und Datensicherheit

Bei der Entwicklung von ML-Technologien stehen, insbesondere im Text- und Dokumentenverarbeitungsumfeld, generative KI sowie große Sprachmodelle im Fokus. Diese können jedoch für die wenigsten Firmen auf eigener Infrastruktur on premises, d.h. lokal, gehostet werden, so dass schnell der Weg zu OpenAI und Co. in eine US Cloud führt. Den wenigsten ist bei der Interaktion mit beispielsweise ChatGPT klar, welcher technologische Fußabdruck dahinter steckt, und wie sich dies in Größen wie Energieverbrauch und -kosten übersetzt. In Zeiten von Energiekrise und Nachhaltigkeit sollte sich also auch gefragt werden, welchen Fußabdruck eine ML-Lösung erzeugt. Wird beim Design von ML-Anwendungen der Fokus auf das Wesentliche reduziert, wird oft schnell klar, dass der Einsatz eines großen Sprachmodells nicht immer notwendig ist. Stattdessen können intelligente Lösungen bereits im Kleinen einen sehr großen Mehrwert und einen hohen Grad an Automatisierung erzeugen. Unser ML-Classifier, der sich an etablierten NLP Technologien wie Tokenization3 und Wort- oder Textembeddings4 sowie Klassifikationsalgorithmen bedient, benötigt beispielsweise nicht einmal eine GPU5. Dieser geringe Aufwand an Ressourcen ermöglicht daher auch ein regelmäßiges, automatisiertes Retraining.
Im selben Atemzug stellt sich auch die Frage nach dem Datenschutz: bietet das entwickelte Modell aufgrund von ressourcenschonendem Design die Möglichkeit, on premises gehostet zu werden, ist direkt sichergestellt, dass Unternehmen die Hoheit über ihre Daten behalten. Denn auch für die Verarbeitung von Daten mittels AI gilt der US Cloud Act, welcher US Behörden im Zweifel freien Zugang zu allen Unternehmens- und Kundendaten ermöglicht.

Über den Tellerrand

In diesem Artikel haben wir erläutert, wie Retraining-Pipelines dafür sorgen, dass ML-Modelle aktuell bleiben. Dies haben wir am Beispiel unseres ML-Classifiers verdeutlicht. Retraining- und Active Learning Mechanismen lassen sich aber auch auf viele weitere Anwendungsfälle übertragen, beispielsweise aus den Bereichen Computer Vision oder Text-Inhaltsextraktion, z.B. named entity recognition. Ist die datenlogistische und infrastrukturelle Herausforderung erst einmal gemeistert, eröffnen sich kurzerhand viele weitere Felder an unternehmenstauglichen ML-Technologien.
Darüber hinaus haben wir erörtert, welche Auswirkungen mit der Nutzung von LLMs verbunden sind und motiviert, warum die Wahl eines kleineren ML-Modells die bessere sein kann. In einem folgenden Artikel möchten wir darauf aufbauend näher erläutern, wo wir die größtmöglichen Wertschöpfungspotentiale in der Nutzung mit LLMs sehen – es sei geteasert, dass dies keine Chatbots sind.

1 Dokumentenklassifikation: Einordnung von Texten/Dokumenten in vordefinierte Kategorien, beispielsweise „Rechnung“, „Lieferschein“, „Kündigung“, etc.
2 Feature Engineering: Transformation der Rohdaten (z.B. Texte) in aussagekräftige Merkmale (z.B. Häufigkeit bestimmter Schlagworte).
3 Tokenization: Prozess, bei dem ein Text in kleinere Einheiten (Tokens) zerlegt wird, wie Wörter, Subwörter oder Zeichen.
4 Embedding: Numerische Repräsentation von Text (z.B. Wörtern oder Sätzen) in einem mehrdimensionalen Vektorraum.
5 GPU: Graphics Processing Unit, ein auf parallelisierte Berechnungen optimierter Prozessor, der ursprünglich für
Grafikverarbeitung entwickelt wurde und besonders effizient bei der Verarbeitung großer Datenmengen ist und somit häufig für ML-Anwendungen genutzt wird.

Teilen