Künstliche Intelligenz ist im Redaktionsalltag angekommen – meistens jedoch über die Cloud. Für Organisationen im öffentlichen Sektor oder im Hochschulbereich stellt sich dabei immer die gleiche Frage: Wie vereinbaren wir effiziente Workflows mit striktem Datenschutz und digitaler Souveränität?
In den letzten Wochen habe ich an einem Proof of Concept gearbeitet, um den Platzhirsch DeepL im TYPO3-Backend durch eine lokal laufende Instanz von TranslateGemma zu ersetzen.
Der technologische Kern: TranslateGemma 27B
Google hat vor kurzem TranslateGemma vorgestellt – eine spezialisierte Familie von Modellen, die gezielt auf die Übersetzung von Sprachen optimiert wurden. Während viele LLMs „auch“ übersetzen können, wurde Gemma durch massives Fine-Tuning auf die Nuancen zwischen Quell- und Zielsprache spezialisiert.
Für meinen Test habe ich das 27B-Modell gewählt. Mit 27 Milliarden Parametern bietet es die nötige Tiefe, um komplexe akademische Texte nicht nur wortwörtlich zu übertragen, sondern den Kontext zu erfassen.

Die Architektur: Ein Brückenbau via Proxy
Die technische Herausforderung: Die exzellente TYPO3-Extension dd_deepl von Dmitry Dulepov spricht nativ mit der DeepL REST API. Anstatt die Extension umzuschreiben, habe ich mich für einen Adapter-Proxy entschieden, der als „Man-in-the-Middle“ fungiert.
Das folgende Diagramm zeigt den Datenfluss:
graph TD
A[TYPO3 Backend / dd_deepl] -- "POST /v2/translate (DeepL REST API)" --> B[deepl-proxy:3000 Node.js Adapter]
B -- "Glossary Storage" --> C[("/data/glossaries.json Persistent Volume")]
B -- "POST /api/chat Ollama API" --> D[Ollama-Server]
D -- "Inference" --> E[translategemma:27b]Der Durchbruch beim Glossar-Management
Eine Übersetzung für eine Universität steht und fällt mit der Terminology-Treue. Wenn die KI aus dem „registrar’s office“ ein generisches „Studiensekretariat“ macht, statt der offiziell korrekten Bezeichnung „Dezernat 1: Studium und Lehre“, ist das Ergebnis unbrauchbar.
Hier wurde es technisch knifflig: Der Proxy emuliert nicht nur die Übersetzung, sondern muss auch das Glossar-Management von DeepL nachbilden. Ein kleiner Bug im CSV-Parsing des Proxys bescherte mir anfangs einen Word count 0 – der Parser konnte die Kommas der CSV-Dateien nicht sauber trennen. Nach einem gezielten Patch im Proxy-Script werden die Glossare nun korrekt als System-Instruktion in den Prompt für TranslateGemma eingebunden.
Der Härtetest: DeepL vs. TranslateGemma 27B
Im direkten Vergleich beider Systeme (beide mit identischem Glossar) zeigen sich zwei völlig unterschiedliche Philosophien:
DeepL: Der „Terminologie-Enforcer“
DeepL setzt Glossarbegriffe absolut wortgetreu um.
- Vorteil: Man bekommt exakt den String, den man definiert hat (z. B. „user account (OPAC)“).
- Nachteil: Bei sehr langen Fachbegriffen bricht gelegentlich die englische Grammatik ein. In unserem Test „verschluckte“ DeepL durch die erzwungene Länge sogar einen ganzen Nebensatz (die Erziehungswissenschaftliche Fakultät).
TranslateGemma 27B: Der „Kontext-Stylist“
Gemma nutzt das Glossar eher als starke Leitplanke.
- Vorteil: Der Text liest sich flüssiger und natürlicher. Die Satzstruktur bleibt auch bei komplexen Titeln absolut stabil.
- Nachteil: Das Modell verhält sich wie ein kreativer Lektor. Es entscheidet manchmal, dass ein Synonym besser in den Lesefluss passt, als der strikte Glossarbegriff (z. B. „semester fee“ statt „semester contribution“). Hier hilft nur ein noch strikteres Prompting im Proxy.
Die nackten Zahlen: 90 % vs. 65 % Glossar-Treue
Im direkten Vergleich zeigt sich ein deutlicher Unterschied in der Arbeitsweise der beiden Kontrahenten. Während DeepL eine Glossar-Treue von ca. 90 % erreicht, kommt TranslateGemma 27B in meinem Test auf etwa 65 %.
Der Grund dafür ist struktureller Natur:
- DeepL integriert Glossare als natives Feature. Es findet ein exaktes „String-Matching“ statt – der Begriff wird mechanisch ersetzt, fast wie in einer Datenbank. Das ist präzise, führt aber manchmal zu hölzerner Grammatik.
- TranslateGemma erhält die Begriffe als Teil der Prompt-Anweisung. Das Modell interpretiert die Vorgabe, statt sie blind anzuwenden. Es entscheidet im Zweifel für den besseren Satzbau und gegen die exakte Glossar-Vorgabe.
Fazit: Digitale Souveränität ist machbar
Aktuell nutzen wir im Produktivsystem weiterhin DeepL, doch der Proof of Concept beweist: Die technologische Abhängigkeit von Cloud-Riesen ist kein Schicksal mehr.
Mit TranslateGemma 27B steht ein lokales Modell zur Verfügung, das Enterprise-Anforderungen wie Glossar-Management auf Augenhöhe begegnet. Für Einrichtungen, die ihre Datenhoheit ernst nehmen und gleichzeitig API-Kosten eliminieren wollen, ist der Weg nun geebnet. Das System liegt funktionsfähig auf dem Tisch und wartet auf seinen Einsatz.
Arbeitet ihr bereits mit lokalen LLMs im CMS-Bereich? Ich freue mich auf den Austausch in den Kommentaren oder auf LinkedIn!
