Zum Inhalt

Real-World RAG: TYPO3-Inhalte in einen intelligenten Chatbot verwandeln

  • von

Bei der TYPO3 Happy Hour am 5. Dezember 2025 hatte ich die Gelegenheit, ein Projekt vorzustellen, das mir sehr am Herzen liegt: den neuen KI-Chatbot für die Universität Erfurt.

Der Bot selbst läuft zwar auf einem Python-Stack, seine Funktionalität hängt jedoch vollständig von den Inhalten ab, die innerhalb unseres TYPO3-Ökosystems verwaltet werden. In meinem Vortrag konzentrierte ich mich auf die praktische Umsetzung einer RAG-Architektur (Retrieval-Augmented Generation) und ging über den Hype hinaus, um zu zeigen, wie wir über 15.000 Webseiten über eine Konversationsschnittstelle zugänglich machen.

Die Herausforderung: Informationen zugänglich machen

Die Website der Universität Erfurt ist riesig. Für Studierende kann die Suche nach bestimmten Informationen, wie Einschreibungsfristen oder Kursdetails, manchmal wie die Suche nach einer Nadel im Heuhaufen erscheinen.
In meiner Präsentation habe ich gezeigt, wie wir dieses Problem gelöst haben, indem wir einen benutzerdefinierten Chatbot entwickelt haben, der:

  • die Website schrittweise crawlt (und so Ressourcen spart);
  • den Inhalt für die semantische Suche mit FAISS vektorisiert;
  • mithilfe eines LLM (Mistral AI) präzise Antworten generiert, die streng auf unseren Daten basieren.
Crawler
Text Splitter
Mistral Embeddings
Frage
Suche
Kontext
Kontext + Frage
Antwort
Website Uni Erfurt
Raw JSON
Chunks
FAISS Vector DB
User
Streamlit App
Mistral LLM

Wichtigste Erkenntnis: Qualitativ hochwertige Inhalte sind entscheidend

Die wichtigste Erkenntnis, die ich mit der TYPO3-Community geteilt habe, betraf nicht Python-Code, sondern die Content-Strategie. „Garbage in, garbage out“ trifft besonders auf KI zu.

Das haben wir auf die harte Tour gelernt, als der Bot zunächst darauf bestand, dass das Wintersemester 2019 begann, da er eine alte PDF-Datei gegenüber der aktuellen Landingpage priorisierte. Dies unterstrich die Bedeutung sauberer HTML-Strukturen und aktueller Metadaten im CMS für die KI-Integration. Dies knüpft auch direkt an meinen vorherigen Vortrag über strukturierte Daten und schema.org an: Saubere Daten sorgen für intelligentere Bots.

Präsentation

Wenn Sie den Vortrag verpasst haben oder sich mit den Code-Schnipseln zur Crawler-Logik, Vektordatenbank oder den von uns verwendeten Caching-Mechanismen beschäftigen möchten, können Sie die Folien jetzt online abrufen.
Die Präsentation läuft direkt in Ihrem Browser:
👉 Folien anzeigen: Aufbau eines RAG-Chatbots

Vielen Dank an alle, die teilgenommen haben!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

de_DEGerman