Flexible und sichere ML-Lösungen

Deine Daten, deine Verantwortung

- Falk Borgmann

Es ist schon fast Tradition, dass die IT-Evolution in Deutschland langsamer ist als in den USA. In der Regel neigen Entscheider hierzulande dazu, erst dann hektisch in Aktivität zu verfallen, wenn klar geworden ist, dass kein Weg mehr an einer technischen Entwicklung vorbeiführt. Ist man erst mal abgehängt, muss man schließlich schneller laufen als der Führende, um den Rückstand wieder aufzuholen. Und was strategisch in den letzten Monaten und Jahren verschlafen wurde, soll die eigene Organisation dann in wenigen Wochen wieder gutmachen.

Wer es sich leicht gemacht hat, muss auch in Zukunft nicht nachdenken
Im Falle der ML-Technologie ist das Muster der meisten Firmen gleich. Jedes Unternehmen das innovativ sein will, erstellt derzeit eine RAG1-Anwendung, meist mit einer API2 von OpenAI oder einem anderen US-Service im Hintergrund. Nicht selten folgt dem ersten Projekt schnell die Ernüchterung und es wird klar, dass auch ML-Lösungen sinnvoll implementiert und betrieben werden müssen.

Diese Ernüchterung ist nicht überraschend, denn wer es in den letzten 5 Jahren verschlafen hat, sich aktiv mit dem Bereich IT-Infrastruktur zu beschäftigen und stattdessen ausschließlich auf SaaS3 gesetzt hat, kann kaum noch etwas ohne die einfach nutzbaren Cloudangebote der Hyperscaler auf die Straße bringen. Und wer sich traditionell lieber auf die quasistatischen ERP-Riesen verlassen hat, dem bleibt heute nicht viel Spielraum für IT-Entscheidungen mit flexiblen Infrastrukturkonzepten.

Wohl dem, der auf das Wissen und die Fortbildung eigener Mitarbeiter gesetzt und dabei auch die unternehmerische Flexibilität im Fokus behalten hat. Denn nur wer versteht, wie IT-Infrastruktur und ML funktionieren, und dies auch zusammenführen kann, wird in der Lage sein, eigenständige und souveräne ML-Lösungen zu entwickeln – ohne die API von z. B. OpenAI. Dieser Vorteil wird in Zukunft besonders wichtig werden, denn immer bessere Systeme, werden immer schneller Daten analysieren und verarbeiten können, aber auch neue Risiken mit sich führen. Das Risiko der Abhängigkeit unter Aufgabe unternehmerischer Handlungsspielräume war nie größer als heute. Dazu befinden sich Unternehmen im Spannungsfeld zwischen Flexibilität und IT-Risiken, die u. a. auch durch Malware entstehen. Schon heute nutzen beispielsweise erste Schadprogramme frei verfügbare Sprachmodelle als Transport Vehicle.

Cloud Act, GDPR, CrowdStrike, Azure Midnight Blizzard…
Die Risiko-Liste ist lang und es ist kein Geheimnis, dass Transparenz, Datensicherheit und Geheimhaltung von Kundendaten nicht ganz oben auf der Liste der großen US-Techkonzerne stehen. Letzte Sicherheit, mit den Inhalten eigener Unternehmensdaten nicht das Training und Wachstum der US-Techgiganten zu befeuern, kann man nur haben, wenn man im Detail versteht, wie Daten verarbeitet werden und am Ende selbst Herr dieser Verarbeitung bleibt. Der Sicherheitsaspekt erstreckt sich dabei auch auf die Nutzung von Open-Source-Modellen, für die es derzeit leider kaum zuverlässige Security Scans gibt. Es ist deshalb nur eine Frage der Zeit, bis die ersten großflächigen Angriffe auf Unternehmensinfrastrukturen bekannt werden.
Das Dilemma ist also, wie sich Unternehmen bezüglich der Nutzung von ML positionieren. Aspekte der Flexibilität, Abhängigkeit, Know-How, Datenschutz (GDPR), Geheimhaltung und Cybersecurity wollen da unter einen Hut gebracht werden, was alles andere als trivial ist.

Um flexibel und sicher zu bleiben, braucht man Know-How!
In dieser Beitragsserie wollen wir verschiedene Aspekte und Konzepte beleuchten und außerdem technische Ansätze skizzieren, wie ein Unternehmen ML sinnvoll nutzen kann, ohne dabei die Herausforderungen von Geheimhaltung, Datenschutz und Cybersecurity zu ignorieren und vor allem nicht die unternehmerische Flexibilität aufzugeben.
Wir werden auch Beispiele aus der Praxis verwenden, die durch unser Team implementiert worden sind. Wir zeigen dabei, dass dies nicht bedeutet, dass auf die Vorteile und die Nutzung von Cloudinfrastrukturen verzichtet werden muss. Ganz im Gegenteil. Es bedeutet jedoch, dass wir die Cloud als Lieferant von IaaS4 oder PaaS5 betrachten und kritische Services ausschließlich selbst herstellen. Dieser Ansatz bedarf allerdings einer ausgewiesenen technischen Expertise im Bereich von Cloudinfrastrukturen, Daten-Pipelines, Open-Source-Software, Machine-Learning-Methoden und Daten-Compliance.

Uns ist klar, dass unsere Ansätze nur durch eine enge Verzahnung von IT-Infrastruktur und Machine Learning erfolgreich sein können. Mit dieser Serie, deren Teile wir nacheinander veröffentlichen werden, gewähren wir deshalb einige Einblicke und teilen Erfahrungen aus unserer Arbeit der letzten Jahre.

1 RAG – Retrieval-Augmented Generation
2 API – Application Programming Interface
3 SaaS – Software as a Service
4 IaaS – Infrastructure as a Service
5 PaaS – Platform as a Service

Teilen