Die Analyse
Seit dem Jahr 2023 ist die künstliche Intelligenz (KI) allgegenwärtig, insbesondere aufgrund der Veröffentlichung von ChatGPT Ende 2022. Seither versuchen Unternehmen verstärkt, KI in ihre Systeme zu integrieren. Dies geschieht nun noch mehr in der Übersetzungsbranche, sodass maschinelle Übersetzungen (MÜ) zunehmend zugänglicher werden.
In einem kleinen Experiment haben wir DeepL und ChatGPT hinsichtlich ihrer Anwendbarkeit und Qualität in Fachübersetzungen gegenübergestellt. Dafür wählten wir drei Textsorten aus den drei unterschiedlichen Fachgebieten Recht, Marketing und Technik mit einem Umfang von jeweils ca. 400 Wörtern. Diese ließen wir ins Französische und Polnische übersetzen, um die Unterschiede zwischen den beiden Systemen in Hinblick auf verschiedene Sprachfamilien (romanisch und slawisch) zu analysieren. Für eine neutrale Auswertung gab es keine Terminologievorgaben.
Den Output der beiden Engines ließen wir von unseren muttersprachlichen Post-Editorinnen evaluieren, wobei zur Bewertung fünf Fehlerkategorien festgelegt wurden:
- Konsistente Terminologie
- Korrektheit und Vollständigkeit
- Stil
- Sinnhaftigkeit
- Sprachkonventionen (Grammatik, Rechtschreibung, Groß- und Kleinschreibung, Interpunktion, Zeitform)
Das Resultat
Das größte Problem beider Systeme ist die fehlende Kontexterkennung. Textkonventionen können nicht identifiziert und entsprechend berücksichtigt werden. Dies führt beispielsweise dazu, dass in Marketingtexten Ausdrücke wortwörtlich übersetzt werden, die in der Zielsprache jedoch so keinen Sinn ergeben. Bei technischen Texten resultieren aus der Nichtbeachtung des Kontexts nicht nur Inkonsistenzen, sondern auch grobe Übersetzungsfehler.
Das kann schwerwiegende Missverständnisse verursachen, auch wenn ChatGPT eine vergleichsweise bessere terminologische Einheitlichkeit aufweist. DeepL hingegen tendiert zu stilistisch besseren Ergebnissen, wobei es im Polnischen oft das Passiv verwendet, das unüblich ist. Insgesamt ist der Stil gerade bei den Marketingtexten allerdings nicht zufriedenstellend. Um die Lesbarkeit zu vereinfachen, hätten unsere Post-Editorinnen den Marketing-Output am liebsten komplett neu übersetzt.
Des Weiteren ergibt die Analyse, dass DeepL und ChatGPT in ihren Übersetzungen unterschiedliche Fehler aufweisen, die teils sprachspezifisch sind, aber auch von der Engine abhängig. So kommt es im Französischen zu unvollständigen Übersetzungen: DeepL lässt im Rechtstext einen kompletten Absatz aus und ChatGPT ignoriert einen Teil des technischen Textes. Sowohl bei DeepL als auch bei ChatGPT sind im Polnischen zwar alle Texte vollständig, andererseits gibt es Probleme mit der Konsistenz der Höflichkeitsform. Bei DeepL wird an manchen Stellen die Anrede höflich umgesetzt, manchmal informell.
Das Fazit
Die Untersuchung verdeutlicht, dass KI-gestützte Systeme wie DeepL und ChatGPT trotz ihrer Fortschritte nicht in der Lage sind, den Kontext eines Ausgangstextes zu erfassen. Sei es der Text in seiner Gesamtheit, die Textsorte oder das Fachgebiet – derzeit scheint nur ein Mensch all dies berücksichtigen zu können und somit eine korrekte und flüssige Übersetzung zu garantieren.
Die Weiterentwicklung maschineller Übersetzungen liefert bereits überraschend gute Ergebnisse. So kann mit menschlicher Nachbereitung in Form eines Post-Editings ein gutes Produkt entstehen. Am Beispiel des Marketingtextes sieht man jedoch, dass eine Humanübersetzung nach wie vor vielleicht die bessere Wahl ist, um die Qualität und das Markenimage zu wahren. So oder so: Um qualitativ hochwertige Fachübersetzungen sicherzustellen, ist der menschliche Einfluss und die Expertise unerlässlich.
Die vollständige Untersuchung mit allen Ergebnissen wurde in der tekom-Zeitschrift 04/24 veröffentlicht.