RAG
Gesamtsystem
"Retrieval-Augmented Generation" — das Prinzip, das hinter dem Assistenten steckt.
Statt dass das Sprachmodell aus dem eigenen Kopf antwortet (und dabei oft erfindet), bekommt es vor jeder Antwort die relevanten Stellen aus Ihren Dokumenten zugespielt. Es retrievt also passendes Material und generiert dann darauf basierend die Antwort. Daher der Name.
Wo: Das gesamte Konzept der Lösung.
Chunk
Lokal
Ein handlicher Abschnitt eines Dokuments — eine Karteikarte.
Statt ganze Dokumente zu speichern, werden sie in 1–2 Absätze große Stücke zerlegt. Jeder Chunk behält Metadaten wie Überschrift, Seitenzahl und Quelldokument. So kann der Assistent später punktgenau die relevante Stelle finden, statt das ganze Dokument neu zu lesen.
Wo: Phase A, Schritt 3.
Embedding
Externer Dienst
Eine Zahlenfolge, die die Bedeutung eines Textes beschreibt.
Ein KI-Modell liest einen Text und erzeugt daraus eine Zahlenfolge — aus bis zu 4096 Zahlen. Texte mit ähnlichem Inhalt bekommen ähnliche Zahlen. Genau das macht inhaltliche Suche möglich: man vergleicht Zahlenfolgen statt Stichwörter.
Wo: Phase A, Schritt 4 · Phase B, Schritt 2.
Embedding-Dienst
Externer Dienst
Der Dienst, der Texte in Vektoren umwandelt.
Ein spezialisiertes KI-Modell, das nichts anderes tut, als Text in eine mathematische Repräsentation zu übersetzen. Wir nutzen ihn an zwei Stellen: einmal beim Indexieren der Dokumente (Phase A) und einmal pro Frage (Phase B). Wichtig: An beiden Stellen muss derselbe Dienst verwendet werden, damit Frage und Karteikarten vergleichbar sind.
Wo: Phase A, Schritt 4 · Phase B, Schritt 2.
Vektor
Datenformat
Der mathematische Name für so eine Zahlenfolge.
Ein Vektor ist nichts anderes als eine Liste von Zahlen. Im Kontext dieses Systems sind Vektor und Embedding praktisch synonym — "Embedding" beschreibt den Vorgang (Text wird in Zahlen umgewandelt), "Vektor" beschreibt das Ergebnis (die Zahlenfolge).
Wo: Im "Gedächtnis", verbindet die anderen Begriffe.
Vektordatenbank
Lokal
Eine Datenbank, die nach Bedeutung sucht statt nach Stichwörtern.
Sie speichert nicht den Originaltext, sondern Chunks plus deren Vektoren. Bei einer Suche sucht sie diejenigen Chunks heraus, deren Vektoren dem Vektor der Frage am ähnlichsten sind — das sind die inhaltlich passendsten Treffer. Läuft komplett auf Ihrer Infrastruktur.
Wo: "Das Gedächtnis" zwischen Phase A und B.
Qdrant
Lokal
Das konkrete Produkt, mit dem wir die Vektordatenbank umsetzen.
Qdrant ist eine quelloffene Vektordatenbank, die wir auf Ihrer Infrastruktur betreiben. Vergleichbare Produkte: Weaviate, Milvus, Pinecone. Wir haben Qdrant gewählt wegen guter Performance, einfacher Integration und kommerzieller Lizenzierung ohne Lock-in.
Wo: Phase A, Schritt 5 · Phase B, Schritt 3.
LLM
Externer Dienst
"Large Language Model" — das Sprachmodell, das antwortet.
Bekannt aus ChatGPT & Co. Im RAG-System bekommt das LLM Ihre Frage plus die gefundenen Chunks und formuliert daraus eine Antwort in vollständigen Sätzen. Es greift dabei nur auf das gelieferte Material zu — nicht auf sein eigenes Trainingswissen.
Wo: Phase B, Schritt 4.
Scaleway
Externer Dienst
Ein französischer EU-Cloud-Anbieter.
Scaleway ist der Name des Anbieters — vergleichbar mit AWS oder Azure, aber mit Rechenzentren ausschließlich in der EU (Paris, Amsterdam, Warschau). Wir nutzen Scaleway, um die KI-Modelle (Embedding und LLM) zu betreiben — DSGVO-konform und ohne Datenfluss in Drittländer. Alternative EU-Anbieter (OVH, IONOS, Hetzner) sind ebenso einsetzbar.
Wo: Beide Phasen, jeweils für KI-Modelle.
Metadaten
Lokal
Zusatzinformationen zu jedem Dokument: Dateiname, Pfad, Datum, Seite.
Metadaten reisen mit jedem Chunk durch das ganze System mit. Dadurch kann der Assistent am Ende nicht nur eine Antwort liefern, sondern auch sagen: "Quelle: Vertrag.pdf, Seite 3". Kein Black-Box-Antwort, sondern volle Nachvollziehbarkeit.
Wo: Phase A, Schritt 2 — bis ans Ende sichtbar.