Auf der TYPO3 Happy Hour stellte ich den neuen KI-Chatbot der Universität Erfurt vor. Er basiert auf einer RAG-Architektur (Retrieval-Augmented Generation) und macht über 15.000 Webseiten zugänglich.
Funktionsweise
Der Bot crawlt die Website inkrementell, vektorisiert Inhalte mittels FAISS und generiert Antworten mit einem LLM (Mistral AI) – basierend ausschließlich auf Uni-Daten.
Architektur
flowchart TD
A[Website Uni Erfurt] -->|Crawler| B[Raw JSON]
B -->|Text Splitter| C[Chunks]
C -->|Mistral Embeddings| D[FAISS Vector DB]
User[Benutzer] -->|Frage| App[Streamlit App]
App -->|Suche| D
D -->|Kontext| App
App -->|Kontext + Frage| LLM[Mistral LLM]
LLM -->|Antwort| UserLearning: Content ist King
Die wichtigste Erkenntnis: „Garbage in, garbage out“. Der Bot ist nur so gut wie die Daten. Veraltete PDFs wurden anfangs höher gewichtet als neue Landingpages – das zeigte uns, wie wichtig sauberes HTML und Metadaten für KI sind.
