Weckruf ChatGPT

Natural Language Processing wird auch für Enterprise Use Cases deutlich leichter

- Falk Borgmann, Dr. Niko Krasowski

ChatGPT

Viele Menschen setzen bereits seit Jahren Assistenzsysteme im digitalen Raum ein. Die Nutzung einer Google-Suche ist beispielsweise völlig alltäglich geworden. In den vergangenen zwei Jahren haben darüber hinaus sprachgesteuerte Assistenten wie Alexa oder Siri einen festen Platz im Leben ihrer Anwender eingenommen. Aktuell überrascht das textbasierte Dialogsystem ChatGPT die Öffentlichkeit mit einer neuen inhaltlichen Gesprächsqualität und steht damit für eine neue Generation von anwendbaren KI-Sprachmodellen. Das gleichermaßen beeindruckende, beinahe schon beängstigende Leistungsvermögen von ChatGPT basiert dabei auf einer KI, die durch mehr als doppelt so viele Parameter spezifiziert ist als ein menschliches Gehirn Neuronen hat.

Das ist deshalb so interessant, weil einem echten produktiven Einsatz von KI bisher mehrere Monate, teilweise sogar Jahre der Datenkonsolidierung sowie deskriptiver und diagnostischer Analytik vorausgingen. Nicht selten scheiterten KI-Projekte wegen mangelndem fachlichen Know-how und an hohen Entwicklungsaufwänden. Mit der nächsten Stufe der technischen Evolution stellt sich die Frage, inwiefern bisherige Herangehensweisen im Unternehmensalltag überdacht und angepasst werden müssen.

Was ist zu beachten, um KI-Lösungen kosteneffizient einzusetzen? Welche neuen Use Cases werden durch die aktuelle Generation der Technologie erst möglich? Schauen wir uns jene technischen Aspekte etwas genauer an, die für die Beantwortung der aufgeworfenen Fragen relevant sind. Doch zunächst widmen wir uns dem Umfeld, in dem sich diese Entwicklungen abspielen.

Was ist Natural Language Processing (NLP)?

Natural Language Processing (NLP) ist eines der zahlreichen Teilgebiete des maschinellen Lernens und von Künstlicher Intelligenz. NLP behandelt die Verarbeitung von gesprochener und geschriebener Sprache. Die meisten von uns nutzen NLP jeden Tag unbewusst, nämlich immer dann, wenn sie von ihren digitalen Assistenten Alexa oder Siri eine sinnvolle Antwort auf eine Frage erwarten. Nicht bei der Erkennung des gesprochenen Wortes, wohl aber im Bereich des semantischen Verständnisses hat ChatGPT (Generative Pre-trained Transformer) der breiten Öffentlichkeit die Leistungsfähigkeit eines modernen NLP-Systems vor Augen geführt.

Was macht NLP mittlerweile anders?

Neben Neuerungen an der Architektur der KI-Sprachmodelle war auch das Paradigma des selbstüberwachten Lernens (Self-Supervised Learning) eine Voraussetzung der aktuellen Entwicklung. Self-Supervised Learning im Kontext von NLP beschreibt die Idee, ein KI-Sprachmodell zu trainieren, indem man es ein Wort vorhersagen lässt, das zuvor aus einem Text ausgeblendet wurde. Diese simple Methode macht prinzipiell den kompletten im Internet zugänglichen Text für Trainingszwecke nutzbar, da diese Trainingsdaten frei verfügbar sind.

Unabhängig vom konkreten Aufbau der KI-Sprachmodelle benötigt ein solches Modell einen gewissen Spielraum, um Zusammenhänge zwischen Worten, Wortbedeutungen, Grammatik etc. zu lernen. Die Möglichkeit, auf große Textmengen zum Training zurückgreifen zu können, erzeugt also nur dann einen Mehrwert, wenn dieser Spielraum gegeben ist. Wie viel Spielraum Modelle haben, lässt sich an deren Parameteranzahl bemessen – gemeint sind unabhängige Stellschrauben, die das Verhalten des Modells bestimmen. Einfach gesagt, lernt die Software also auf Basis der im Internet verfügbaren Daten. Sie lernt, dass „Couch“ und „Sofa“ oft synonym verwendet werden und dass die Bedeutung einer „Bank“ stark vom Kontext abhängt. Dieses semantische Verständnis spiegelt sich technisch in einem sogenannten Encoding wider. Die inhaltliche Bedeutung wird hierbei in einer Zahlenfolge kodiert. Das Training der Sprachmodelle beinhaltet das Erlernen der Regeln, nach denen dieses Encoding funktioniert. Kurzum: Die Software lernt inhaltliche Bedeutung (Semantik).

Um zu verstehen, welchen Unterschied ein semantisches Verständnis in der Praxis machen kann, werfen wir einen Blick auf das Anwendungsbeispiel der automatischen Verschlagwortung von Dokumenten. Eventuell muss ein als Bild dargestellter Text erst durch OCR (Buchstabenerkennung aus Rastergrafiken) verarbeitbar gemacht werden. Klassischerweise hat man die Möglichkeit, mittels einer Klartextsuche bestimmte Schlagworte anzufügen. Im Dokument ist beispielsweise die Rede vom Ernten eines Apfelbaumes. Der Begriff „baum“ kann auch in klassischen Systemen bereits automatisch als relevantes Schlagwort für eine Klartextsuche identifiziert werden. Dass aber die oben genannte Passage mit dem Apfelbaum auch durch andere Suchbegriffe wie Obst, Frucht oder Streuobstwiese auffindbar wird, ist erst durch das semantische Verständnis eines modernen Sprachmodells möglich.

Das Potenzial der Abstraktion
Der strategisch relevante Aspekt von modernem NLP ist, dass die durch das Vorhersagen ausgeblendeter Worte trainierten Modelle die Fähigkeit zur Verallgemeinerung besitzen. Während man klassischerweise anwendungsspezifische Maschine-Learning-Lösungen betreibt, verallgemeinern die neuen Sprachmodelle sowohl über unterschiedliche Arten von Texten als auch über verschiedene fachliche Aufgabenstellungen. Um die Ergänzung eines ausgeblendeten Wortes in einem Text zu bewerkstelligen, muss ein Verständnis von Wortbeziehungen, Grammatik und semantischer Bedeutung entwickelt werden. Das kann dann auch die Basis zur Lösung von Aufgaben (wie die Erstellung einer Zusammenfassung) sowie die Beantwortung von Fragen zum Text oder ähnlichem sein.

Zero-Effort-KI? – ChatGPT ist nicht allein
Die ausgeprägte Fähigkeit zur Verallgemeinerung ermöglicht Anwendungsfälle, die durch den nativen Einsatz eines vortrainierten Modells „von der Stange“ abgebildet werden können. KI lässt sich mittlerweile wie ein gewöhnlicher Softwarebaustein einsetzen, was vor einigen Jahren in dieser Form noch nicht möglich war. Die entsprechenden Bibliotheken sind heute so ausgereift, dass initial kein Machine-Learning-Expertenwissen vorausgesetzt werden muss, um die Modelle zu verwenden.

Sind damit die Arbeitsplätze von Machine Learning Engineers in Zukunft auf wenige große Tech-Giganten beschränkt? Bei weitem nicht. Die wenigsten tatsächlichen Use Cases werden eins zu eins von vortrainierten Modellen abgedeckt.

Da viele Sprachmodelle frei verfügbar sind, ist die Aufgabe einer Implementierung sinnhafterweise zweigeteilt:

  1. Recherche des Modells, das durch Architektur und verwendeten Trainingsdatensatz am ehesten für die Lösung des entsprechenden Use Cases in Frage kommt.
  2. Eine Nachjustierung (Finetuning) der Modell-Parameter. Hier kommt das klassische Handwerkszeug der Machine Learning Engineers und Data Scientists zum Einsatz.

Im Gegensatz zu vor drei Jahren muss man aber nicht mehr bei Null starten. Beherrscht ein Modell beispielsweise schon deutsche Vokabeln und Grammatik, dann muss es „nur“ noch in die Feinheiten juristischer Fachsprache eingeführt werden. Eine weitaus kleinere und damit auch kostengünstigere Aufgabe.

Wie viel ist genug? – LLMs und Computing Power
Weitere Aspekte, die durch die neuen Entwicklungen vermehrt auch strategische Relevanz besitzen, sind Rechenpower und damit verbundene IT-Kosten oder schlussendlich auch die Auswirkungen auf die Flexibilität der Unternehmens-IT.
Rechenleistung und Datenspeicher werden zwar immer preiswerter, jedoch benötigen neuartige Modellarchitekturen überproportional viele Ressourcen, um von Grund auf trainiert zu werden. Die Annahme, dass man KI-Modellen durch eine größere Datenbasis immer menschenähnlicheres Verhalten entlocken kann, ist hier die treibende Kraft. In den letzten Jahren hat sich dafür eine eigene Bezeichnung Large Language Models (große Sprachmodelle, kurz LLMs) herausgebildet. Der Trend zu größeren Modellen scheint auch nicht abzureißen und wird mit der öffentlichen Aufmerksamkeit für ChatGPT sogar eher befeuert. Rein empirisch wachsen die größten Modelle jährlich um den Faktor zehn.

Dieser LLMs-Trend fügt dem klassischen, oft selbstverständlichen Ziel einer Verbesserung der Modellqualität zwei weitere Dimensionen hinzu: Ressourcensparsamkeit und Flexibilität. Beispielsweise benötigt GPT-3.5, das Sprachmodell hinter ChatGPT, allein 800 GB Speicherplatz, um seine bis zu 175 Milliarden Parameter zu speichern. Würde man dieses Modell auf der AWS-Cloud hosten, müsste man mit Kosten von etwa 90.000 USD pro Jahr rechnen. Und bei dieser Kalkulation sind noch nicht einmal Abfragen an das System eingerechnet. Große Modelle mit vielen Daten zu trainieren oder zu betreiben, kostet also auch viel Geld. Das klingt zwar logisch – und selbst diese Zahlen mögen im Kontext der Budgets großer Unternehmen lächerlich klingen –, jedoch wird die Infrastruktur solcher Modelle nicht nur zu einem echten finanziellen Faktor, sie wird aufgrund der reinen Datenmenge auch entsprechend träge. Für eine Vielzahl von Anwendungsbeispielen aus der täglichen Unternehmenswelt ist es aber völlig unnötig, derartig große Modelle einzusetzen.

Noch bevor man sich ein vortrainiertes Modell aussucht oder gar selbst eines erstellen möchte, sollte man sich deshalb Gedanken über die Metriken und die Modellqualität im Kontext des anvisierten Use Case machen. Ziel ist es, Klarheit darüber zu gewinnen, welche Modellqualität für eine bestimmte Anwendung ausreichend ist. Es sollte der Grundsatz gelten, nur so komplex, groß oder kostenintensiv wie nötig zu werden, also dem ökonomischen Minimalprinzip zu folgen. Dies gilt sowohl für die initiale Architektur als auch für das Ausmaß des Finetunings. Ein 800-GB-Modell einzusetzen, um eine Klassifikation von Dokumenten durchzuführen, mag inhaltlich funktionieren, ist aber aus unternehmerischer Sicht nicht sonderlich zielführend.

Fazit und Ausblick Zusammenfassend sind KI-Use-Cases, besonders im Umgang mit Texten im NLP-Umfeld, in ihrer Umsetzung deutlich einfacher geworden. Was früher eine langjährige Datenstrategie voraussetzte, ist heute in relativ kurzer Zeit implementierbar.

Das bedeutet aber nicht, dass langjährige Datenstrategien an Relevanz verlieren. Im Gegenteil. Die Menge an gespeicherten Daten steigt weltweit. Dieser Trend ist auch in Unternehmen zu beobachten. Eine Datenstrategie erlaubt es, die Use Cases zu identifizieren, die einen Mehrwert aus den entsprechenden Daten generieren. Die Möglichkeit, vortrainierte Sprachmodelle ohne Weiteres einzusetzen, bietet hierzu eine Ergänzung und kann neue, unstrukturierte Datenquellen erschließen.

Das Tech-Rad dreht sich im Bereich der KI und vor allem im Bereich des NLP derzeit rasant. Im Vergleich zum Jahr 2020 können Projekt- und Implementierungszeiten durch bausteinartige und frei verfügbare Modelle drastisch reduziert werden – und das bei qualitativ hochwertigen Ergebnissen. Selbst für die an Innovationen gewöhnte IT-Branche ist das Tempo derzeit atemberaubend. Dennoch tun sich Unternehmen schwer damit, die Potenziale zu erkennen, geschweige denn zu nutzen. Dies kann man auf den Mangel an Fachpersonal in diesem Bereich zurückführen. Gleichwohl sollte die Veröffentlichung von ChatGPT den größten Zweiflern vor Augen führen, dass der KI-Zug schon lange und mit hoher Geschwindigkeit rollt. Das Risiko, dass Unternehmen mit einer abwartenden Haltung in mindestens ebenso hoher Geschwindigkeit den Anschluss verlieren werden, ist – vorsichtig formuliert – mindestens proportional. Anders gesagt: Es besteht dringender Handlungsbedarf.

Teilen