Deepshore GmbH

Wer treibt in Sachen AI eigentlich wen vor sich her? Eine Ereigniskette rund um das erste eigene LLaMA (Large Language Model Meta AI) des Facebook-Konzerns Meta rückt diese Frage in ein völlig neues Licht. Im Februar 2023 veröffentlichte Meta mit dem LLaMA eine seiner wichtigsten zukünftigen Säulen. In verschiedenen Größen nutzbar und mit bis zu 65 Milliarden Parametern, ist das Meta-Modell zwar relativ klein. Es wurde aber aufwändig trainiert und ist somit trotz seiner geringen Größe verhältnismäßig leistungsstark. Meta veröffentlichte dazu sogar den Source Code ¬– die Architektur des Modells –, ohne jedoch dessen konkrete Ausprägung (Parameter) preiszugeben.
Nur etwa eine Woche nach der Veröffentlichung, am 3. März, passierte es dann: Eben diese für die Funktionsweise so kritischen Parameter tauchten als Leak im Internet auf. Was in den darauffolgenden vier bis fünf Wochen geschehen ist, blieb der breiten Öffentlichkeit zwar bisher verborgen – es lässt sich aber daran ermessen, wie sich die Open-Source-Community in der Folge mit Innovationen fast überschlug. Ein Blick auf die Ergebnisse lohnt sich, zeigen sie doch eindrucksvoll, dass die Entwicklungs-Labs der großen Tech-Konzerne der Schwarmintelligenz einer Open-Source-Community nicht automatisch überlegen sind.
Bestehende Lizenzbedingungen ermöglichen eine kommerzielle Nutzung des Leaks zunächst nicht und das Facebook-Modell hat sich bei genauerer Betrachtung auch eher als Beta-Version erwiesen – einige Schwächen inklusive. Durch die Art und Weise aber, wie die Entwicklungsfortschritte aus der Community auch dem Meta-Konzern in die Karten gespielt haben, würde es nicht verwundern, wenn der Leak am Ende sogar beabsichtigt gewesen wäre. Denn Meta könnte dank dieser Veröffentlichung seinen Einfluss auf das Open-Source-Ökosystem stark ausbauen, da theoretisch alle freien Innovationen, die auf LLaMa aufbauen, direkt durch Meta integrierbar wären.

Schon etwa eine Woche nach Verbreitung der Details wurde eine erste eigenständige Installation im öffentlichen Git Hub sichtbar, die zunächst einige Schwächen offenbarte. Bereits kurz darauf kam die nächste Publizierung (siehe Git Hub von Stanford Alpaca), die das Modell verbesserte und ein vom Original unabhängiges Feintuning erlaubte. Und nur einige Tage später veröffentlichte ein Entwickler die erste lauffähige Variante für ein MacBook.

Am 19. März optimierte eine Forschungskooperation das Modell erneut und erstellte erste Vergleichsversuche mit GPT-4. Wieder eine Woche später erblickte GPT4All das Licht der Welt – ein Ökosystem von Open-Source-Chatbots, die auf einer Sammlung sauberer Assistentendaten trainiert werden und jedem Nutzer frei zur Verfügung stehen. Nur einige Tage danach wurde mithilfe einer neuartigen PEFT-Technik (Parameter Efficient Fine Tuning) ein LLaMA-Adapter vorgestellt, der in kürzester Trainingszeit und mit nur relativ wenig lernbaren Parametern, das Modell weiter verbessert. Und schließlich startete Mitte April auch die OpenAssistant-Initiative ein eigenes Modell, das ChatGPT in Bezug auf die menschliche Präferenz sehr nahekommt.

Die Geschwindigkeit der Entwicklungen für Sprachmodelle aus dem Open-Source-Bereich ist derzeit atemberaubend. Man könnte sich quasi die Hälfte des Tages nur damit beschäftigen, bei den neuen Entwicklungen auf Augenhöhe zu bleiben.

Der zuvor skizzierte Rückblick auf den März und April 2023 zeigt zwei Dinge:

Die Bedeutung von Open-Source nimmt im Bereich von Natural Language Processing (NLP) zu. Entgegen der weitverbreiteten Meinung vieler Experten denke ich nicht, dass es ein Axiom ist, dass US-Tech-Konzerne die alleinige Marktführerschaft im Bereich der KI-Sprachmodelle behalten werden. Die derzeitige Dynamik ist nicht annähernd mit der Open-Source-Community für z. B. Container oder Datenbanken von vor zehn Jahren zu vergleichen und es fällt zunehmend schwerer, bei der enormen Innovationsgeschwindigkeit am Ball zu bleiben.
Ich bin außerdem davon überzeugt, dass viele Berater und IT-Entscheider keine Vorstellung oder keine Kenntnisse über den Impact und den aktuellen Stand der Open-Source-Community besitzen. Von daher fließen diese nicht vorhandenen Informationen auch nicht in die Bewertung der Sachlage ein.

Im Bereich der großen Sprachmodelle gibt es eine Konkurrenzsituation zwischen gewinnorientierten Tech-Unternehmen und einer aktiven und lebendigen Open-Source-Community. Die öffentliche Berichterstattung legt nahe, dass OpenAI mit ChatGPT auf der kommerziellen Seite die Nase deutlich vorn hat. Jedoch zeigen die letzten Wochen deutlich, dass die Open-Source-Community weit davon entfernt ist, in der Bedeutungslosigkeit zu verschwinden. Langfristig ist nicht zu erwarten, dass eine der beiden Seiten komplett dominieren wird. Beide haben weiterhin ihre Berechtigung und können voneinander profitieren. Für Entscheider in IT-Organisationen ist der Einsatz von selbst gehosteten Open-Source-Lösungen aber wesentlich interessanter geworden. Offen bleibt nur die Frage, ob diese Chance auch genutzt wird oder Unternehmen sich lieber bequem in den Schoß der Tech-Giganten und damit in deren Abhängigkeit begeben.

KI-Facebook-Leak

Open-Source Community fordert Tech-Konzerne heraus

Enterprise-KI-Strategien

KI AUSSER KONTROLLE - DEEPSEEK, STARGATE UND DER EU AI ACT

Große Sprachmodelle, große Verantwortung