Licht an im KI Terminologie-Dschungel

Fachbegriffe zur künstlichen Intelligenz griffig umrissen

Tech // Eva-Maria Cromm // 09.11.2023

Profilbild von Jonathan

// Kontakt

Jonathan Heyer

  • Junior Software Developer

KI ist ein treibendes Thema und so natürlich auch bei uns längst elementares Bestandteilchen innerhalb unseres Angebotportfolios, unter anderem beim Implementieren künstlicher Intelligenz in die Content Management Systeme unserer Kund*innen. Ein Thema also, über das nach wie vor gesprochen wird.

Den abertausendsten KI Artikel mit Basiserklärungen und der Einordnung, ob nun Bereicherung oder Bedrohung, klemmen wir uns aber hier. Wir haben uns gewöhnt an Chat GPT & Co und wollen Neues lernen oder Wissen vertiefen.

Oft entwickeln sich Themen so schnell, dass man einzelne Begrifflichkeiten in den eigenen Sprachgebrauch übernimmt und sicher einsetzt, ohne sie komplett zu hinterfragen. Und Künstliche Intelligenz (KI) - oder auch Artificial Intelligence (AI) - kommt wahrlich mit einer Fülle verschiedener Termini rund um Technologien, Modelle und Ansätze daher. So differenziert die Inhalte sind, so vielfältig zeigt sich das Vokabular: Widmen wir uns also wesentlichen Begrifflichkeiten, die uns aktuell in diversen Medien und auf unterschiedlichsten Kanälen begegnen, um KI vielleicht ein klein wenig zu de-mystifizieren.

Schauen wir einmal auf die Fachterminologie, die sich im Bereich KI inzwischen einen Namen gemacht hat:

Was ist ein Large Language Model?

Ein Large Language Model (LLM) ist ein leistungsstarkes künstliches neuronales Netzwerk, das darauf ausgelegt ist, natürliche Sprache zu verstehen, zu generieren und in natürlicher Sprache mit Menschen zu interagieren. Trainiert mittels großer Mengen an Texten aus dem Internet, basiert der Output auf den erlernten Mustern. Im Wesentlichen ähnelt es in seinem Aufbau, seiner Struktur und Funktionsweise einem fortgeschriebenen Autocomplete-System für ganze Sätze und Absätze.

Beispiele Large Language Models:

  • Beispiel BERT, Bard oder T5 von Google
  • Databricks Dolly
  • Jung und ambitioniert: Heidelberger Startup Aleph Alpha mit LLM Luminous
  • Das wohl bekannteste Beispiel eines LLMs mit Schwerpunkt in der Konversationsanwendung: ChatGPT von OpenAI

Neurolinguistische Programmierung

Die Neurolinguistische Programmierung ist eine Methode, die sich mit der Analyse von Kommunikation und dem Verhalten von Menschen befasst. Sie zielt darauf ab, Muster in der menschlichen Sprache und im Verhalten zu erkennen und diese Muster gezielt zu beeinflussen oder zu verändern. Die Techniken haben historisch gesehen Verbindungen zur Psychologie und Therapie, aber sie werden auch in Bereichen wie Kommunikationstraining, Coaching und Verkauf angewendet.

Die Verbindung zu Künstlicher Intelligenz und Large Language Models liegt im Verstehen natürlicher Sprache und in der Fähigkeit, diese auch generieren zu können und auf menschenähnliche Weise zu analysieren. Während Techniken der neurolinguistischen Programmierung traditionell auf menschliche Interaktion abzielen, können KI und LLMs dazu verwendet werden, große Mengen von Textdaten in Echtzeit zu verarbeiten, Muster in der Kommunikation zu identifizieren und aufgrund dieser Muster gezielte Reaktionen zu generieren. Der Nutzen der verschiedenen Anwendungen wie Chatbots, automatisierten Kundeninteraktionen und personalisierter Kommunikation ist evident.

Die Unterschiede zwischen diesen Modellen liegen in ihrer Architektur, ihrem Anwendungsbereich und ihrer Zielsetzung. Sie haben gemeinsam, dass sie die Fortschritte in der natürlichen Sprachverarbeitung und Textverarbeitung vorantreiben und den Anwender*innen vielseitigen Nutzen liefern können.

Leistungsfähige und leicht zugängliche Modelle wie die von OpenAI haben viele potenzielle Anwendungen, von der Unterstützung bei Contentproduktion und Übersetzungen bis hin zu Datenanalyse oder verschiedener virtueller Assistenten. Natürlich bleibt immer zu bedenken, dass sie bei aller Qualität ihres inzwischen oft gut brauchbaren Outputs, kein wahres Verständnis oder Bewusstsein gleich dem eines Menschen haben.

Text-zu-Bild-Generatoren

Verschiedene KI Modelle können aus Texten Bilder erstellen und dabei helfen, die Qualität von Bildern zu verbessern. In Bezug auf die technische Basis der Technologie wird in Bilddiffusions- und Transformer-Modelle unterschieden. Beim Transformer-Modell wird eine kodierte Darstellung der Eingabetexte in einen Transformer eingespeist, der diese decodiert, um ein Bild zu erzeugen, das den beschriebenen Inhalt widerspiegelt. Das KI-Bilddiffusionsmodell hingegen ist eine der Techniken, bei der ein Bild von niedriger Qualität schrittweise verfeinert wird, um ihm mehr Klarheit und Detailschärfe zu geben. Vergleichbar mit einem Künstler, der feinere Striche zu einer groben Skizze hinzufügt, um sie definierter und detaillierter zu machen.

Die Modelle verwenden komplexe Algorithmen, um Bilder iterativ zu verbessern, verborgene Details aufzudecken, ihnen ästhetische Qualität zu verleihen und eine Verbesserung der Genauigkeit und Präzision zu erreichen. Text-zu-Bild Generatoren tragen dazu bei, die Interpretation und Verwendung von Bildern in verschiedenen Anwendungen auf ein höheres Level zu heben. Sie ermöglichen es, wichtige visuelle Informationen zu verdeutlichen und den Nutzen von Bildern in medizinischen, industriellen, kulturellen Bereichen sowie in der Verwaltung, bei Aufklärungsarbeiten und in der Unterhaltungsbranche zu maximieren.

Bekannte Beispiele sind unter anderem:

  • Stable Diffusion
  • DALL-E
  • Midjourney

Die drei Modelle unterscheiden sich in Bezug auf die zugrundeliegende Technologie als auch hinsichtlich der verwendeten Trainingsdaten und der Möglichkeiten mit ihnen zu interagieren. Stable Diffusion basiert auf einem latenten Diffusionsmodell und wurde mit dem öffentlich zugänglichen LAION-5B Datensatz trainiert. Die Rechte an den erzeugten Bildern liegen nicht bei Stable Diffusion, bzw. den Firmen hinter dem Modell, sondern können weitestgehend frei vom Benutzer verwendet werden. DALL-E hingegen basiert auf einem Transformer-Modell. Anders als Stable Diffusion ist DALL-E nicht lokal installierbar. DALL-E steht als Cloud-Service zur Verfügung und ist als Integration in ChatGPT (nur für Plus Nutzer) verfügbar, so dass Bilder im Dialog mit ChatGPT entwickelt und verfeinert werden können. Die Technologie hinter Midjourney wird auch dem Bereich Diffusion zugeordnet, ist aber nicht so transparent dokumentiert, da es sich, wie DALL-E auch, um proprietäre, sprich herstellerbezogene, Software handelt.

Die Modelle variieren in der Art, auf Aufforderungen zu reagieren, bezüglich der verfügbaren Werkzeugen zur Bildbearbeitung und in der Zugänglichkeit bzw. freien Verfügung ihrer Plattformen.

Künstliches Neuronales Netzwerk

Ein künstliches neuronales Netzwerk (KNN) ist ein von der Funktionsweise unseres Gehirns inspiriertes Computersystem. Es bildet die architektonische Grundlage, auf der viele Large Language Models basieren. Das Netzwerk besteht aus miteinander verbundenen Knotenpunkten oder eben Neuronen, die zusammenarbeiten, um Informationen zu verarbeiten. Jedes Neuron nimmt Eingaben auf, verarbeitet sie und leitet sie an Informationen der nächsten Schicht von Neuronen weiter. Vorstellbar wie ein Team von Transmittern, die eine Nachricht entlang einer Fließbandlinie weitergeben, wobei jeder seinen eigenen Beitrag leistet. Das KNN lernt, Muster in Daten zu erkennen, wie zum Beispiel den Unterschied zwischen Katzen und Hunden auf Bildern. Einmal trainiert, kann es Vorhersagen oder Entscheidungen auf der Grundlage neuer, ungesehener Daten treffen und ist damit ein erheblicher Gewinn bei Aufgabenstellungen im Bereich Bild- und Mustererkennung, Sprachverarbeitung, Spielstrategien, autonome Fahrzeuge und vieler weiterer Anwendungen. Es ist ein mächtiges Werkzeug, um komplexe Beziehungen in Informationen zu finden.

Prompt Engineering

Prompt Engineering kann als „Anweisungsmodellierung“ übersetzt werden und hat sich aufgrund seiner Bedeutung bereits zu einem eigenen Berufsfeld entwickelt. Prompt Engineering beschäftigt sich mit der gezielten Gestaltung von Texteingaben, um die Leistung und Steuerbarkeit von textbasierten KI-Modellen, wie beispielsweise einen Chatbot, zu optimieren. Dieser Prozess umfasst das Entwickeln von klaren und präzisen Anweisungen oder Prompts, die an das Modell gesendet werden, um spezifischen Output in natürlicher Sprache zu erhalten. Die Technik ermöglicht es, die Ausgabe des Modells zu lenken und es gezielt auf eine Vielzahl von Anwendungen anzupassen.

Effektives Prompt Engineering kann den Unterschied zwischen qualitativ hochwertigem Output und einer ungenauen oder unzureichenden Ausgabe ausmachen. Es erfordert oft ein gewisses Experimentieren und wiederholte Feinabstimmung, um die besten Anweisungen und Prompts zu erstellen und die gewünschten Ergebnisse zu erzielen.

Durch die gezielte Gestaltung des Prompts, in diesem Fall durch Hinzufügen von Kontext und einer klaren Aufgabe, kann das Modell genau verstehen, was von ihm erwartet wird, und eine hochwertige Zusammenfassung erstellen.

Eine simple und allgemeine Eingabe wie „Was sind Datenbanken?“ wird im Output entsprechend der undifferenzierten Fragestellung oberflächlich bleiben. Ein guter Prompt hingegen enthält klare Anweisungen und bereits spezifischen Kontext: „Erkläre die Bedeutung von Datenbanken, z.B. NoSQL Datenbanken, und ihre Anwendungsfälle in Big Data-Anwendungen. Bitte betone die Vorteile gegenüber relationalen Datenbanken. Fasse bitte in maximal 10 Sätzen zusammen und berücksichtige als Zielgruppe eine erfahrene Fachleserschaft.“ Hierauf ist eine fundierte und umfassende Antwort des Modells zu erwarten. Nachfragen auf das erste Erzeugnis können den Output im Fortgang weiter schärfen. Hierin liegt viel Potential, immerhin unterhalten wir uns mit Chatbots, die man gern beim Namen nehmen und im Dialog auch herausfordern darf. Eine Mehrwertoption liegt auch in wiederholter und gezielter Nachfrage.

Wir raten zum Ausprobieren!

Die drei Modelle unterscheiden sich in Bezug auf die zugrundeliegende Technologie als auch hinsichtlich der verwendeten Trainingsdaten und der Möglichkeiten mit ihnen zu interagieren. Stable Diffusion basiert auf einem latenten Diffusionsmodell und wurde mit dem öffentlich zugänglichen LAION-5B Datensatz trainiert. Die Rechte an den erzeugten Bildern liegen nicht bei Stable Diffusion, bzw. den Firmen hinter dem Modell, sondern können weitestgehend frei vom Benutzer verwendet werden. DALL-E hingegen basiert auf einem Transformer-Modell. Anders als Stable Diffusion ist DALL-E nicht lokal installierbar. DALL-E steht als Cloud-Service zur Verfügung und ist als Integration in ChatGPT (nur für Plus Nutzer) verfügbar, so dass Bilder im Dialog mit ChatGPT entwickelt und verfeinert werden können. Die Technologie hinter Midjourney wird auch dem Bereich Diffusion zugeordnet, ist aber nicht so transparent dokumentiert, da es sich, wie DALL-E auch, um proprietäre, sprich herstellerbezogene, Software handelt.

Die Modelle variieren in der Art, auf Aufforderungen zu reagieren, bezüglich der verfügbaren Werkzeugen zur Bildbearbeitung und in der Zugänglichkeit bzw. freien Verfügung ihrer Plattformen.

Few-Shot Prompting

Few-Shot Prompting ist ein Konzept, das im Bereich des maschinellen Lernens und speziell beim Training von KI-Modellen wie denen, die auf der GPT-Architektur (Generative Pre-trained Transformer) basieren, Anwendung findet. Es bezieht sich darauf, wie ein KI-Modell mit einer sehr kleinen Anzahl von Beispielen, sogenannten "Shots", trainiert oder darauf eingestimmt wird, bestimmte Aufgaben zu erfüllen.

Ein entscheidender Aspekt von Few-Shot Prompting ist erneut die Gestaltung der Aufforderung, also des Prompts. Hierbei wird das Problem oder die Aufgabe, die das Modell lösen soll, schrittweise in einer strukturierten und klaren Weise förmlich entblättert, oft gefüttert durch einige ausgewählte, qualitativ hochwertige Beispiele für das gewünschte Ergebnis. Die Beispiele dienen als Kontext und leiten das Modell dahin, welche Art von Antwort erwartet wird. Das Modell nutzt die selektiven Beispiele, um seine internen Gewichtungen so zu justieren, dass es die Aufgabe besser ausführen kann. Das Modell lernt, Muster zu erkennen und diese auf neue, ähnliche Aufgaben anzuwenden. Es generalisiert also von den gegebenen Beispielen auf neue Situationen.

Few-Shot Prompting kommt zur Anwendung in Szenarien, wenn nicht viele Daten zur Verfügung stehen oder bei Zeitdruck. Es ist auch ein Beweis für die fortschrittliche Fähigkeit von KI-Modellen, aus einer minimalen Menge von Daten zu lernen und komplexe Aufgaben zu erledigen.

Haben wir ein wenig Licht ins Dunkel des KI Terminologie-Dschungels gebracht?

Wir freuen uns jederzeit über den Austausch zu spannenden Tech-Themen. Kontaktieren Sie uns über das Formular und lassen Sie uns gemeinsam schauen, wie die Symbiose von menschlicher und künstlicher Intelligenz auch Ihr Projekt beflügeln kann.

Wir freuen uns auf Ihren Prompt!

Fachbegriffe und ihre Abkürzungen

KI = Künstliche Intellligenz

AI = Artificial Intelligence

LLM = Large Language Model

GPT = Generative Pre-trained Transformer

KNN = Künstliches Neurales Netzwerk