Die Top 30 GenAI-KI-Begriffe, die man kennen muß - für jeden einfach erklärt

Jeder, der bei KI informiert mitreden will, sollte die wichtigsten Begriffe aus der Welt der KI kennen und verstehen.

February 13, 2025 - 14 min.

Immer mehr Menschen sind mit der neuen Themenwelt “AI” konfrontiert. Dabei treten viele neue Begriffe auf, wie “LLM”, “GenAI”, “Inferenz”, “Token” und so weiter.

Aber was bedeuten diese Wörter überhaupt? In welchem Zusammenhang steht das alles?

Um sich kompetent mit dieser neuen und vermutlich bahnbrechenden Technologie auseinandersetzen zu können, muss man sie in ihren Grundzügen verstehen.

Wie ist dieser Artikel aufgebaut?

Dieser Text enthält knapp dreißig der wichtigsten Begriffe die man kennen muß, um bei den aktuellen KI-Themen mitreden zu können.

Die meisten Erklärungen sind recht kurz - die meisten Fachleute würden vermutlich sagen: Zu kurz. Allerdings handelt es sich hier nicht um ein Lehrbuch, oder Tutorial, sondern eher im einen Primer: Es soll dem technischen Laien schnell ein grundsätzliches Verständnis der wesentlichen KI-Begriffe im Bereich GenAI vermitteln. Die Begriffe werden in Form eines Glossars präsentiert.

Das Glossar ist nicht alphabetisch sortiert. Stattdessen ist die Abfolge der Begriffe so gewählt, dass sie aufeinander aufbauen, von grundlegend zu speziell, von wichtig bis zu “für später”. Damit kann man einfach von oben nach unten lesen und so ein immer besseres Verständnis aufbauen. Über den alphabetischen Index findet man jeden Begriff schnell wieder. Querverweise helfen, damit man sich auch bei einem Direkteinstieg schnell an die interessanten Stellen beamen kann.

An wen richtet sich das Glossar?

Jeder Laie sollte von den Erklärungen hier profitieren können. Am meisten profitieren sicherlich Menschen in Rollen, die sich bereits mit Software und IT beschäftigt haben.

Index aller Begriffe

AI — attention — base model — bias & fairness — context — embedding — fine-tuning — GenAI — halluzination — inference — LLM — Mixture of Experts — MLOps — model — overfitting — Model Parameters — pre-training — snapshot — system prompt — temperature — token — tokenizer — token streaming — training — Transformer Model — quantization — zero-/one-/few-shot prompting

Glossar

AI

Kurz für “Artificial Intelligence”, deutsch “KI” oder “Künstliche Intelligenz”. Teil der Informatik, der sich mit solchen IT-Systemen beschäftigt, die das menschliche Denken und Denk-Leistungen nachahmen sollen. Dabei ist es nur ein nachgelageres Ziel von KI, ein dem Menschen ebenbürtiges oder gar überlegenes intelligentes Wesen zu erschaffen. In erster Linie macht sich KI die Mechanismen und Prinzipien des menschlichen Gehirns zunutze.

Im allgemeinen Sprachgebrauch wird der Begriff “KI” heutzutage auch für den wirtschaftlichen Trend verwendet, neue, innovative Produkte und Produktionsverfahren auf Basis von KI-Systemen zu entwickeln. KI ist allerdings nicht neu. Neu sind spezielle KI-Modelle, die sogenannte GenAI. Andere Verfahren, wie zum Beispiel Recommender, die uns beispielsweise Empfehlungen basierend auf unserem Verhalten geben, sind schon jahrelang im Mainstream-Einsatz.

Manche KI-Ansätze wollen in erster Linie das Denken des Menschen abbilden, andere wie zum Beispiel “Neuronale Netze”, zu denen auch GenAI gehört, bilden auch die Struktur des Gehirns ab. Heutzutage steht dafür ausreichende Rechenleistung und geeignete Hardware zur Verfügung. Damit werden Anwendungen wie LLMs möglich, die sehr große Neuronale Netze nutzen.

(AI) Model

Deutsch: KI-Modell. Das Software-Artefakt, das den Kern einer KI-basierten Anwendung darstellt. Es entsteht nicht wie andere Software in erster Linie durch Erstellung von Source-Code, sondern durch das sogenannte Training mit großen Datenmengen. Nach Abschluß des erfolgreichen Trainings ist das Modell dann in der Lage, aus Daten, mit denen es nicht trainiert wurde, erfolgreich eine sinnvolle und nützliche Ausgabe abzuleiten.

Während bei klassischer Software das Software-Engineering entscheidend für die Qualität der Anwendung ist, ist für ein KI-Modell die Datengrundlage (Menge und Qualität) beim Training ein wesentlicher Erfolgsfaktor.

GenAI

Kurz für englisch “generative AI”, deutsch “Generative KI”. Aktueller Megatrend in der KI, der durch OpenAIs ChatGPT hervorgerufen wurde. Hierbei werden aus Eingabetexten der Nutzer, den Prompts, vorher nicht bekannte Mengen an Ausgabe erzeugt (“generiert”). Dafür werden zumeist, aber nicht ausschliesslich, Transformer Modelle verwendet. Am Anfang des Trends wurden aus einem Eingabetext Text oder auch Bilder generiert. Heute sind Modelle mit beliebigen “Modi” (Text, Audio, Bild) verfügbar, auch die Mischung von mehreren Modi auf der Ein- oder Ausgabeseite ("multi-modal") wird mittlerweile unterstützt.

Training

Neben dem Zusammenstellen der Trainingsdaten ist das Training wesentlich bei der Herstellung von KI-Modellen, bei dem ein “leeres” Model mit sehr vielen (Trainings-)Daten gefüttert und geprägt wird. Das initiale Modell hat schon seinen endgültigen Aufbau, aber jedes seiner vielen Parameter hat zuerst einen zufälligen Wert. Die durch das Training hervorgerufene Änderungen an den Parametern werden mit den erwarteten Ausgaben aus den Trainingsdaten verglichen. Dies wird sehr oft wiederholt, um das Model über einen Feedback-Mechanismus immer weiter verbessern: Es kann die Trainingsdaten immer besser verarbeiten, es “lernt”. Verschiedene stochastische Metriken werden berechnet sowie Testdaten herangezogen, um den Fortschritt beim Lernen zu steuern und nachteilige Effekte wie zum Beispiel das sogenannte Overfitting zu verhindern. Zwischenstände des Trainings werden als Snapshots gespeichert.

Inference

Inference, deutsch “Inferenz”, ist die Anwendung des trainierten KI-Modells. Der letzte Snapshot aus dem Training wird nun nicht mehr verändert - ähnlich einem Software-Release. Die Eingabe stellt nun der Nutzer als “Prompt” bereit und das Modell leitet daraus (englisch: “infers”) die entsprechende Ausgabe ab, die als Ergebnis dem Nutzer bereitgestellt wird. Während also beim Training das Modell “lernt”, Daten “zu verstehen”, leitet es bei der Inferenz Ausgaben aus ungesehenen Daten her.

Prompt

Typischerweise ein beliebiger, langer, frei formulierter Text des Nutzers, der die Eingabe für ein LLMs darstellt. Wird das Modell in einer Chat-artigen Anwendung genutzt, so werden auch alle früheren Nutzertexte sowie Antworten des LLMs Teil des Prompts. Oft wird auch ein sogenannter “System Prompt” vorgeben, der ebenfalls als Teil des Prompts an das Modell übermittelt wird. Prompts multi-modaler Modelle sind nicht auf Text beschränkt.

Transformer Model

Eine weit verbreitete Architektur von GenAI KI-Modellen, bei der Eingabe und Ausgabe (z.B. Text) als sogenannte Tokens repräsentiert werden. Transformer-Modelle sind eine Weiterentwicklung vorheriger Modell-Architekturen (Encoder/Decoder). Sie sind in der Lage, die Eingabetokens durch ein weiteres Token zu ergänzen. Durch Wiederholung dieses Vorgangs (Sequenzierung) wird aus Eingabetexten (“Prompts”) Schritt-für-Schritt ein Ausgabetext generiert. Die Besonderheit von Transformer-Modellen besteht darin, daß das jeweilige Ausgabetoken nicht nur basierend auf Bruchstücken der Eingabe, sondern gleichzeitig auf große Mengen (dem sogenannten Kontext) erzeugt wird. Dieser Mechanismus, bei dem Zusammenhänge über einen langen Kontext hergestellt wird, heißt Attention.

LLM

Kurzform für “Large-Language-Model”, deutsch “großes Sprachmodell”. Eine Familie Generativer KI-Modellen, die auf riesigen Textsammlungen trainiert wurden, und daher in der Lage sind, Eingabe-Prompts in ausführlicher, natürlicher Sprache zu verarbeiten und daraus neue Texte zu erzeugen, wie es vorher nur von Menschen bekannt war. LLMs wurden durch die Transformer-Architektur und den Attention-Mechanismus ermöglicht, auch wenn es einzelne LLMs gibt, die auf anderen Architekturen beruhen.

Das Training von LLMs dauert derzeit Wochen oder Monate und benötigt viel teure Rechenkapazität. Auch gehen, soweit verfügbar, riesige Datensätze (Sammlungen von öffentlichen Internetseiten, Wikipedia, Volltexte ganzer Bibliotheken) in den ersten Schritt, das sogenannte Pre-Training ein.

Token

Bevor ein LLM einen Text verarbeiten kann, steht die Umformung in eine Zahlenreihe an, die Tokenisierung (siehe auch Embedding). Dabei werden nicht einfach Buchstaben und Zeichen eins-zu-eins in Zahlen umgewandelt. Stattdessen werden typischerweise mehrere Zeichen kombiniert, oder auch das komplette Wort in ein Token umgewandelt. Insgesamt stehen dem Modell zehntausende verschiedene Token zur Verfügung. So können natürliche Sprache, Computerprogramme und alle Zeichen in allen Sprachen für das LLM zugänglich gemacht werden. Ausserdem gibt es Kontroll-Token, die z.B. das Ende der Generierung signalisieren.

Tokens sind unter anderem relevant, weil sie als Abrechnungseinheit für die Anbieter von GenAI-Services dienen.

Tokenizer

Software, die aus dem Prompt (also oftmals Texten), ein Embedding, also einen Vektor generiert, der für das Modell verwendbar ist. In LLMs steht nur eine begrenzte Anzahl von Tokens zur Verfügung. Das Mapping findet für viele Sprachen nicht an Buchstaben oder Wortgrenzen statt, sondern teilt Worte und Satzzeichen oft in mehrere Teile auf. Für die Übertragung des Ausgabevektors zurück in Text wird derselbe Tokenizer rückwärts verwendet.

Mixture of Experts

Spezielle Architektur von KI-Modellen, in dem die Eingabe nicht von einem großen Modell, sondern abhängig von der Eingabe von spezialisierten “Teil-Modellen” (den “Experten”) beantwortet wird. Mixture-of-Experts wird eingesetzt, um die Rechenressourcen effizienter zu nutzen und die Ausgabequalität durch spezialisierte Teilmodelle zu verbessern.

Model Parameters

Während des Trainings werden eine Menge von numerischen Werten (die sogenannten “Parameter”) angepasst, um das Lernen der Neuronen im Gehirn nachzuahmen. Es gibt zwei verschiedene Arten von Parametern: “Weights” (“Gewichtung”) und “Biases” (ungefähr zu übersetzen mit “Verschiebung”). In diesem Zusammenhang hat der Begriff ‘Bias’ übrigens nichts mit einem unfairen Verhalten des Modells zu tun, welches ebenfalls als “Bias” bezeichnet wird. Ähnlich wie bei einem Neuron wird aus den Eingangssignalen das Ausgangssignal unter Verwendung der Weight- und Bias-Parameter berechnet.

Die Werte von vielen tausend Parametern werden in einem Snapshot des Modells gespeichert. Die Gesamtanzahl aller Parameter bestimmt im wesentlichen die Grösse des Modells. Der zweite Faktor ist der Speicherplatz in Bytes, den jeder einzelne Parameter benötigt.

Um Modelle kleiner zu machen kann man einerseits die Anzahl der Parameter reduzieren: so erhalten wir Varianten desselben Modells (3B/7B/70B). Andererseits kann man die numerische Genauigkeit der Parameter reduzieren, die damit weniger Bits einnehmen. Letzteres nennt sich Quantisierung.

Attention

Wesentliches Merkmal der Architektur von Transformer-Modellen. Attention ist der entscheidende Mechanismus, um aus den Tokens des Prompts verschiedene relevante Aspekte und Zusammenhänge über den gesamten Eingabe-Kontext zu extrahieren. Das ermöglicht dann dem Rest des Modells im Rahmen der Inferenz geeignete Folge-Tokens auszuwählen.

Temperature

Die Ausgabe eines Transformer-GenAI-Modells wird durch das schrittweise Bestimmen und Aneinanderreihen von Tokens erzeugt. In jedem Schritt wird jedem Token wird ein Wahrscheinlichkeitswert zugewiesen. Token mit höherem Wert sind an dieser Stelle “passender” als andere. Würde jetzt prinzipiell immer nur das Token mit der höchsten Wahrscheinlichkeit final ausgewählt, würde für einen bestimmte Prompt immer derselbe Text erzeugt. Doch so verhalten sich LLMs nicht. Stattdessen berechnet das Modell eine “short list” von Kandidaten aus der “eines der besten” Token zufällig ausgewählt wird. Über verschiedene Einstellungen am Modell kann dies von aussen beeinflusst werden. Eine dieser Einstellungen ist die Temperatur, andere sind “top-p” oder “max tokens”. Wird die Temperatur herabgesetzt, so neigt das Modell dazu, die Tokens mit der höchsten Wahrscheinlichkeit zu bevorzugen. Das verringert die “Kreativität” des Modells.

Context

Die Anzahl der Token, die das Modell als Eingabe-Prompt verarbeiten und bei der Generierung für seine Ausgabe berücksichtigen kann. Je größer der Context, desto mehr Informationen kann man in den Generierungsvorgang einfliessen lassen und desto besser sind mögliche Antworten.

Pre-Training

LLMs werden typischerweise in zwei Schritten trainiert. Der aufwändigste erste Schritt ist das sogenannte “Pre-Training”. Dabei wird eine Unmenge an verschiedensten Textdaten zu einen GenAI KI-Modell, dem sogenannten “Base Model” verarbeitet, welches breite Fähigkeiten aufweist, man sagt “es generalisiert gut”. Ein darauffolgender zweiter Schritt ist das Fine-tuning, der auf dem Base Model aufbaut und ein spezielles Verhalten trainiert, also z.B. gut Softwarecode erzeugt oder Gedankengänge (“reasoning”).

Base Model

Das KI-Modell, welches als Ergebnis des Pre-Trainings entsteht. Es handelt sich um einen Snapshot. Das Base Model wird oft auch “Foundation Model” genannt. Ziel ist es, im Base Model eine sehr breite Menge an Fähigkeiten anzulegen, oftmals in den Bereichen Wissen und Sprachenverständnis.

Fine-tuning

Das Fine-tuning ist der zweite große Trainingsschritt nach dem Pre-training. Hier wird das Base Model zum endgültigen Modell, welches bei der Inferenz benutzt wird, weiterentwickelt. Es erhält so seine finale Charakteristik, ohne das wesentlich neues Wissen hinzutrainiert wird. Will man ein Modell auf einen besonderen Anwendungsfall hin spezialisieren (also “Fine-tunen”), wie z.B. für die Softwareprogrammierung, verwendet man dafür ein Base Model, in dem diese und andere Fähigkeiten schon trainiert wurden.

Aus dem fine-tuning enstehen oft Modelle für spezielle Anwendungstypen, die dann oft Bezeichnungen wie “chat” (Konversation), “coder” (Software-Engineering), “instruct” (Erfüllen einer Aufgabe) oder “reasoning” (Gedankengänge/“train-of-thought”) haben.

System Prompt

Teil des Eingabe-Prompts für ein LLM. Im System-Prompt werden dem Modell übergeordnete Instruktionen gegeben, wie es antworten soll. Diese Instruktionen sind frei und werden als Sprache formuliert, d.h. man kann den Ton, die Länge, die erlaubten Themen, die Sprache oder ähnliche Vorgaben setzen. Allerdings lassen sich im weiteren Prompt diese Instruktionen von cleveren Nutzern oftmals überschreiben, durch sogenannte “Prompt Injections”.

Zero/One/Few shot prompting

Klassische Software funktioniert meist nur für den konkreten Anwendungsfall für die sie programmiert wurde. Im Gegensatz dazu kann KI in “neuen Situationen” also auf untrainierten, ungesehenen Eingangsdaten, gute Ergebnisse liefern. Das macht ihre Faszination aus. Doch gibt es dabei Abstufungen. Mächtige Modelle sind in der Lage, nach Abschluß des Trainings, ohne jede Hilfe das gewünschte Ergebnis zu bringen. Dies nennt man “Zero Shot”. Sind die Aufgaben, die man dem Modell stellt, komplexer oder auch sehr spezifisch, so kann bereits ein einziges Beispiel (“One Shot”) oder auch einige wenige Beispiele (“Few Shots”) die man im Prompt (also zur Inferenzzeit) unterbringt, das gewünschte Ergebnis bringen.

Overfitting

KI-Modelle kann man zu intensiv trainieren. In diesem Fall hat das Modell die Trainingsdaten extrem gut gelernt, aber erzielt auf ungesehenen Daten nur sehr schlechte Ergebnisse, also beim eigentlichen Anwendungsfall für den das Modell trainiert wurde. Dafür verwendet man im Training den Testdatensatz, der von den Trainingsdaten abgespalten wurde. Ein gut funktionierendes Modell ist also nie “perfekt”, weder auf den Trainingsdaten, noch bei der Nutzung. Dies ist ein Kernmerkmal von KI.

Halluzination

LLMs vervollständigen unsere Prompts zu einer Ausgabe. Dazu identifizieren sie im Rahmen der Inferenz solche Ausgabe-Tokens, die aufgrund des Modells stochastisch am besten zum Eingabeprompt passen. Manchmal findet das Modell zwar gut passende Tokens und das Ergebnis ist wohlgeformte Sprache, aber es hält einer faktischen Prüfung nicht stand. Sind die Ausgaben aus unsere Sicht “erfunden”, falsch oder hanebüchen, so spricht man von Halluzination. In jedem Fall handelt es sich aber um Ausgaben, die das Modell aus sich heraus berechnet hat, sie sind also nicht willkürlich, aber unerwünscht. Das Fine-Tunen eines Modells, so dass seine Ausgaben mit unserem Verständnis der Welt übereinstimmen, nennt man “Alignment”. Fakten, die man im Modell erwartet, müssen in den Trainingsdaten explizit vorhanden sein und beim Training auch vom Modell aufgenommen werden und dürfen nicht von anderen Informationen überlagert sein.

Token Streaming

LLMs generieren bei der Inferenz iterativ, Schritt für Schritt, Token-für-Token, ein Ergebnis für den Nutzer-Prompt. Dazu brauchen sie oft mehrere Sekunden Rechenzeit, bis sie die komplette Antwort errechnet haben. Beim Token Streaming wird jedes neue Teilergebnis (ein einzelnes bis einige wenige Token) bereits übertragen und dem Nutzer angezeigt (“gestreamt”), noch bevor das Modell durch ein spezielles “Ende”-Token seine Ausgabe abschliesst. Dies führt zu dem klassischen “Schreiber”-Verhalten bei LLM-Anwendungen, bei denen man der KI beim Erstellen der Antwort zuschauen kann.

Snapshot

Aufgrund der potentiell langen Laufzeit des Trainings eines GenAI-Modells wird in regelmäßigen Abständen eine Datei mit den Werten aller Parameter des aktuellen Modells gespeichert. Diese Datei nennt sich Snapshots. Ist das Modell hinreichend gut trainiert, wird der letzte Snapshot zum fertigen Modell, welches nun genutzt werden kann.

Embedding

Embeddings sind ein wichtiges internes Konzept von GenAI-Modellen, das aber schwierig in einfachen Worten zu erklären ist. Für einige Anwendungen von LLMs, wie zum Beispiel RAG, werden Embeddings allerdings auch aus Nutzersicht relevant.

Intern arbeiten KI-Modelle ausschliesslich mit Zahlen. Texte, Bilder, Audio - alle diese Modes werden in Zahlenreihen umgewandelt. Dies findet im Rahmen der Tokenisierung statt. Jedes einzelne Token entspricht wiederum einer eigenen Zahlenreihe. Solche langen Zahlenreihen nennt man mathematisch “Vektoren”. Mit Vektoren sind viele mathematische Operationen möglich, unter anderem kann man den Abstand zweier Vektoren zueinander berechenen. Dies erlaubt eine Ähnlichkeitssuche.

Insbesondere neuere Grafikkarten (GPUs) oder spezielle Chips, die auch in Mobiltelefone Einzug gefunden haben, sind sehr stark optimiert auf das gleichzeitige Rechnen mit vielen Vektoren. So werden LLMs technisch überhaupt erst möglich.

Vereinfacht gesagt, handelt es sich bei einem Embedding um den GenAI-Model-spezifischen Vektor zu einer bestimmten Eingabe. Jede Eingabe für ein Modell hat ihr eigenes Embedding. Andererseits führt dieselbe Eingabe für unterschiedliche Modelle zu verschiedenen Embeddings. Man kann also Embeddings nicht zwischen Modellen transferieren.

Vector Database

Eine besondere Form von Datenbanksystemen, welche auf die Speicherung von und Suche nach Vektoren spezialisiert sind. Haben wir eine Sammlung von Texten, so können wir ihre jeweiligen Embeddings (also Modell-spezifische Vektoren) in einer Vektor-Datenbank ablegen. Diese Datenbanken fungieren als Suchmaschine, um ähnliche Texte zu einem gegebenen Prompt finden.

Die ersten GenAI-Modelle haben als Eingabe ausschliesslich Text akzeptiert. Daraus konnten sie entweder Text oder Bilder oder Ton erzeugen. Sie waren bei der Eingabe und Ausgabe auf eine sogenannte Modus beschränkt. Multimodale Modelle können gleichzeitig mehr als einen Modus verarbeiten bzw. ausgeben.

Quantization

Beim Training beansprucht jeder Parameter eines KI-Modells einen bestimmten Speicherplatz in Bytes. Reduziert man die zur Verfügung stehenden Bytes, desto mehr müssen die Zahlen, die hinter dem Parameter stecken, gerundet werden. Dabei geht Genauigkeit verloren und der Speicherbedarf des Modells schrumpft ingesamt. Entsprechend verschlechtert sich die Leistungsfähigkeit des Modells. Gleichzeitig kann sich die Antwortzeit dadurch verbessern.

Rechnet man ein bereits fertiges Modell so um, dass die Auflösung jedes Parameters signifikant verringert wird, nennt man dies Quantisierung.

Die Quantisierung ermöglicht das Ausführen von Modellen auf Systemen, die weniger Speicher und Rechenpower zur Verfügung haben und macht damit manche Einsätze von GenAI erst möglich. Sie verkürzt den Transport über das Netzwerk und kann zu einem besseren Antwortverhalten führen.

Bias & Fairness

Menschen bewerten das Ergebnis eines technischen Systems auch nach moralischen und ethischen Gesichtspunkten. Besonders für KI als neuer Technologie wird dieser Aspekt gerne hervorgehoben. Soll beispielsweise ein GenAI-Modell ein Porträtbild eines Menschen beschreiben, so sollte er fairerweise nicht alleine aufgrund von Alter, Hautfarbe, Geschlecht oder anderen Merkmalen zu abweichenden ungewünschten Ergebnissen kommen. Biases sind oft schwierig zu erkennen und nur durch Änderungen beim Training zu beheben. Denn das Verhalten eines Modells wird vollständig beim Training bestimmt. Auf eine gute Qualitätskontrolle und die Möglichkeit zum Neu-Trainieren muss deshalb geachtet werden.

MLOps

Kurzform für “Machine Learning Operations”. Eine Adaption der “DevOps”-Vorgehensweise. Die Idee von DevOps (“Developer & Operations”) ist, dass bei einem Software-Produkt die Entwicklung und der Betrieb nicht durch getrennte Teams durchgeführt wird, sondern diese Funktionen in einem gemeinsamen Team passieren, und durch großmögliche Automatisierung unterstützt wird. MLOps überträgt diesen Ansatz auf KI, indem Datenaufbereitung, Training und Inferenz weitgehend Tool-gestützt vom selben Team ausgeführt werden können.

Wir vermitteln das Wissen für Ihre KI.

Sie wollen Ihre KI-Architektur in den Griff bekommen? Sie müssen Ihre KI-Produkte regulierungs-konform machen? algo consult hilft Unternehmen dabei.

Übersicht Dienstleistungen Lassen Sie es uns zusammen angehen.