RAG vs. Fine-Tuning: Wann brauche ich was?
RAG oder Fine-Tuning? Ich erkläre die Unterschiede, Kosten und Use Cases beider Ansätze — mit konkreter Entscheidungshilfe für mittelständische Unternehmen.
<p data speakable RAG (Retrieval Augmented Generation) und Fine Tuning sind die zwei wichtigsten Ansätze, um Large Language Models (LLMs) für Unternehmens Anforderungen zu spezialisieren. RAG erweitert ein Standardmodell um Zugriff auf Ihre Firmendaten zur Laufzeit — ohne das Modell zu verändern. Fine Tuning trainiert das Modell selbst auf Ihren Daten weiter, um Sprachverhalten und Domänenwissen dauerhaft zu verankern. In meiner Beratungspraxis zeigt sich: Für rund 90% der Mittelstands Use Cases ist RAG der richtige Einstieg — schneller produktionsreif, günstiger und DSGVO freundlicher. In diesem Artikel erkläre ich beide Ansätze, vergleiche Kosten, Komplexität und Einsatzszenarien und gebe eine konkrete Entscheidungshilfe.</p
Was ist RAG — und wie funktioniert es?
RAG steht für Retrieval Augmented Generation und folgt einem einfachen Prinzip: Bevor das Sprachmodell eine Antwort generiert, sucht das System relevante Informationen aus Ihren Dokumenten und stellt sie dem Modell als Kontext zur Verfügung.
Der Ablauf in drei Schritten:
1. Indexierung: Ihre Dokumente (PDFs, Word Dateien, Handbücher, Wissensdatenbanken) werden in Textabschnitte zerlegt und als Vektoren in einer Datenbank gespeichert. 2. Retrieval: Bei einer Nutzeranfrage sucht das System die relevantesten Dokumentabschnitte per semantischer Ähnlichkeitssuche. 3. Generation: Das Sprachmodell erhält die gefundenen Abschnitte als Kontext und generiert eine Antwort — mit Quellenangabe.
Das Entscheidende: Das Modell selbst wird nicht verändert. Es erhält nur zusätzlichen Kontext. Wenn sich Ihre Dokumente ändern, aktualisieren Sie die Vektordatenbank — nicht das Modell.
Auf AWS lässt sich das mit Bedrock Knowledge Bases vollständig gemanaged umsetzen: Dokumente in S3 hochladen, Indexierung konfigurieren, Modell auswählen — fertig. Kein eigenes ML Team nötig.
Was ist Fine Tuning — und wann verändere ich das Modell?
Fine Tuning geht einen Schritt weiter: Hier wird ein vortrainiertes Sprachmodell mit Ihren eigenen Daten weitertrainiert . Die Gewichte des neuronalen Netzes werden angepasst, sodass das Modell neues Wissen und neues Verhalten dauerhaft internalisiert.
Der Ablauf:
1. Datenaufbereitung: Sie erstellen einen qualitativ hochwertigen Trainingsdatensatz — typischerweise Paare aus Eingabe und gewünschter Ausgabe (Prompt Completion Paare). 2. Training: Das Basismodell wird auf diesen Daten weitertrainiert. Je nach Modellgröße und Datenmenge dauert das Stunden bis Tage. 3. Evaluation: Das fine getunte Modell wird gegen Testdaten evaluiert, um Qualität und Generalisierung zu prüfen. 4. Deployment: Das angepasste Modell wird als eigener Endpoint bereitgestellt.
Das Ergebnis: Das Modell „versteht" Ihre Branchensprache, Ihren Ton und Ihre spezifischen Aufgaben — auch ohne zusätzlichen Kontext zur Laufzeit. Allerdings ist das Wissen auf den Trainingsstand eingefroren. Neue Informationen erfordern ein erneutes Training.
RAG vs. Fine Tuning: Die große Vergleichstabelle
| Kriterium | RAG | Fine Tuning | | | | | | Datenaktualität | Echtzeit — neue Dokumente sofort verfügbar | Eingefroren auf Trainingsstand | | Implementierungszeit | 4–6 Wochen (Richtwert) | 8–12 Wochen (Richtwert) | | Initialkosten | Ab ca. 2.500 EUR | Ab ca. 5.000 EUR | | Laufende Kosten | 200–500 EUR/Monat (abhängig von Volumen) | Inference Kosten + Re Training | | ML Expertise nötig | Nein (managed Services) | Ja (Datenaufbereitung, Training) | | Halluzinationsrate | Reduziert durch Quellenreferenz | Kann bei schlechten Daten zunehmen | | DSGVO Konformität | Daten bleiben in Ihrer Infrastruktur | Daten fließen in Trainingsprozess | | Quellenangabe | Ja — Dokument + Abschnitt referenzierbar | Nein — Wissen ist im Modell verankert | | Skalierung | Dokumente hinzufügen genügt | Neues Training nötig | | Branchensprache | Begrenzt (Modell Standardsprache) | Stark anpassbar |
Alle Kostenangaben sind Richtwerte aus meiner Projektpraxis und variieren je nach Umfang, Modellwahl und Infrastruktur.
Wann ist RAG die richtige Wahl?
RAG ist der ideale Ansatz, wenn Sie ein Sprachmodell mit aktuellen, sich ändernden Firmendaten verbinden möchten, ohne das Modell selbst anzufassen.
Typische RAG Use Cases im Mittelstand:
Interner Wissensassistent: Mitarbeiter durchsuchen Handbücher, Policies und Prozessdokumentationen per natürlicher Sprache. Laut McKinsey verbringen Wissensarbeiter durchschnittlich 19% ihrer Arbeitszeit mit Informationssuche (McKinsey Global Institute, 2024 — branchenabhängig). Ein RAG basierter Wissensassistent reduziert diese Zeit erheblich.
Kundensupport Chatbot: Ein KI gestützter Support Bot beantwortet Kundenanfragen auf Basis Ihrer Produktdokumentation, FAQ Sammlung und Support Historie — mit Quellenangabe und Eskalation an menschliche Mitarbeiter bei Unsicherheit.
Vertragsanalyse und Dokumentenprüfung: RAG durchsucht Vertragswerke, AGB und Compliance Dokumente und liefert präzise Antworten mit Verweis auf den relevanten Vertragsabschnitt.
Onboarding Assistent: Neue Mitarbeiter fragen den Assistenten zu Prozessen, Zuständigkeiten und internen Richtlinien — die Antworten stammen direkt aus den aktuellen Unternehmensdokumenten.
RAG ist die richtige Wahl, wenn: Ihre Daten sich regelmäßig ändern (Dokumente, Policies, Produktinfos) Quellenangaben und Nachvollziehbarkeit wichtig sind Sie keine ML Expertise im Haus haben DSGVO Konformität höchste Priorität hat Sie schnell produktiv sein möchten (4–6 Wochen statt Monate)
Wann macht Fine Tuning Sinn?
Fine Tuning entfaltet seine Stärke dort, wo es nicht um Faktenwissen geht, sondern um spezialisiertes Sprachverhalten — also wie das Modell antwortet, nicht nur was es weiß.
Typische Fine Tuning Use Cases:
Branchenspezifische Sprache: Ein Modell, das medizinische Fachterminologie, juristische Formulierungen oder technische Spezifikationen korrekt und konsistent verwendet — ohne dass Sie jeden Fachbegriff im Prompt erklären müssen.
Tonalität und Markensprache: Wenn Ihr Chatbot in einem bestimmten Kommunikationsstil antworten soll (formell, locker, technisch sachlich), der über einfaches Prompt Engineering hinausgeht.
Klassifikationsaufgaben: E Mails automatisch kategorisieren, Support Tickets priorisieren oder Dokumente nach Typ sortieren. Fine Tuning kann hier präzisere Ergebnisse liefern als generische Modelle mit Prompt Instruktionen.
Domänenspezifische Logik: Wenn das Modell komplexe, fachspezifische Schlussfolgerungen ziehen soll, die nicht allein durch Kontext Informationen abbildbar sind.
Fine Tuning ist die richtige Wahl, wenn: Ihr Use Case spezialisiertes Sprachverhalten erfordert Sie über ausreichend qualitative Trainingsdaten verfügen (typischerweise 500–10.000 Beispiele) Das Standardmodell trotz gutem Prompting nicht die gewünschte Qualität liefert Latenz kritisch ist (kein Retrieval Schritt nötig) Sie ML Expertise im Team haben oder einkaufen können
Kann ich beides kombinieren?
Ja — und in der Praxis ist der Hybrid Ansatz oft die beste Lösung. Die Kombination vereint die Stärken beider Methoden:
Fine Tuning sorgt dafür, dass das Modell Ihre Branchensprache versteht, im richtigen Ton antwortet und domänenspezifische Aufgaben besser löst. RAG stellt sicher, dass das Modell auf aktuelle Firmendaten zugreift, Quellenangaben liefert und nicht auf eingefrorenes Trainingswissen angewiesen ist.
Beispiel aus der Praxis: Ein mittelständischer Maschinenbauer nutzt ein fine getuntes Modell, das technische Fachsprache aus dem Sondermaschinenbau beherrscht. Per RAG greift es zusätzlich auf aktuelle Wartungshandbücher, Ersatzteilkataloge und Störungsberichte zu. Das Ergebnis: Ein Servicetechniker Assistent, der fachlich korrekt antwortet und dabei immer die neuesten Dokumentstände referenziert.
Ich empfehle den Hybrid Ansatz typischerweise als zweiten Schritt — nach einem erfolgreichen RAG Projekt, wenn klar wird, dass das generische Modell an Sprachgrenzen stößt.
Was kostet RAG vs. Fine Tuning im Vergleich?
Die Kostenstruktur unterscheidet sich grundlegend. Alle folgenden Werte sind Richtwerte aus meiner Projektpraxis und variieren je nach Modellwahl, Dokumentenvolumen und Komplexität.
| Kostenfaktor | RAG | Fine Tuning | | | | | | Initialkosten | 2.500–5.000 EUR (Setup, Indexierung, Integration) | 5.000–15.000 EUR (Datenaufbereitung, Training, Evaluation) | | Infrastruktur/Monat | 200–500 EUR (Vektordatenbank, Embeddings, Compute) | 300–1.000 EUR (Modell Hosting, Inference Endpoint) | | Aktualisierung | Minimal — Dokument hochladen reicht | 1.000–5.000 EUR pro Re Training Zyklus | | Time to Value | 4–6 Wochen | 8–12 Wochen | | Versteckte Kosten | Dokumentenqualität sicherstellen | Trainingsdaten kuratieren, Evaluationszyklen |
Die wichtigste Erkenntnis: RAG hat niedrigere Einstiegs und Aktualisierungskosten. Fine Tuning kann bei sehr hohem Abfragevolumen günstigere Pro Anfrage Kosten bieten, weil der Retrieval Schritt entfällt — aber die initialen und laufenden Trainingskosten müssen gegengerechnet werden.
Für eine detaillierte Kosten Nutzen Analyse Ihres konkreten Use Cases biete ich eine KI Prozessanalyse an, die beide Optionen durchrechnet.
Meine Empfehlung für den Mittelstand
Nach zahlreichen KI Projekten für mittelständische Unternehmen ist meine klare Empfehlung: Starten Sie mit RAG.
Die Gründe:
1. Schneller Proof of Value: In 4–6 Wochen haben Sie einen funktionierenden Prototyp, den Ihre Mitarbeiter testen können. Das schafft Akzeptanz und liefert Erfahrungswerte.
2. Geringeres Risiko: Sie verändern kein Modell, investieren nicht in aufwändige Datenaufbereitung und können jederzeit das Basismodell wechseln (z. B. von Claude auf Llama oder umgekehrt).
3. DSGVO Vorteil: Ihre Daten bleiben in Ihrer Infrastruktur. Auf AWS Bedrock in eu central 1 verlassen Dokumente niemals die EU — das vereinfacht die Datenschutz Dokumentation erheblich.
4. Iterativer Ausbau: RAG lässt sich schrittweise erweitern — mehr Dokumente, mehr Datenquellen, mehr Nutzergruppen. Fine Tuning können Sie später als Ergänzung hinzufügen, wenn der Use Case es erfordert.
5. Kein ML Team nötig: Mit managed Services wie AWS Bedrock Knowledge Bases brauchen Sie keinen Data Scientist. Ein erfahrener Cloud Entwickler reicht aus.
Wenn Sie eine KI Strategie für Ihr Unternehmen entwickeln, empfehle ich RAG als ersten Baustein. Fine Tuning kommt ins Spiel, wenn Sie nach dem erfolgreichen RAG Projekt feststellen, dass das Modell Ihre Branchensprache oder Ihren Kommunikationsstil nicht ausreichend abbildet.