Maschinelle Übersetzung - Kann es die KI wirklich?

(Artikel MDÜ (Bundesverband der Übersetzer und Dolmetscher))

Generative künstliche Intelligenz mischt gerade so einiges auf, darunter auch den Umgang der (mittelständischen) Wirtschaft mit Texten und Übersetzungen. Doch das von den Anbietern propagierte Versprechen "schnell, kostenlos und so gut wie von Menschen erstellt" hält dem zweiten Blick meist nicht stand. Wer mit (fremdsprachigen) Texten und Worten etwas erreichen will, sollte hinter die Kulissen schauen, denn die Zeit- und Kostenersparnis ist oft zum guten Teil nur scheinbar – und steht häufig erheblichen Risiken gegenüber, bis hin zu Image- oder Haftungsschäden.

Führte vor knapp 10 Jahren die Entwicklung neuronaler Netze und des Deep Learning zu einer immensen Leistungssteigerung im Bereich maschineller Übersetzung, so hat die Veröffentlichung von ChatGPT im November 2022 und seine Entwicklung seitdem alle, die mit Texten und Fremdsprachen arbeiten, in eine nie dagewesene Dimension katapultiert: Mal schnell die Website ins Japanische bringen, die neue, für Deutschland entwickelte Produktkampagne in der KI-übersetzten Fassung im brasilianischen Markt antesten oder den Video-Vortrag ruckzuck auf Arabisch ausgeben, natürlich lippensynchron – das alles nur mit ein paar Prompts, auf Knopfdruck geliefert, und so gut wie kostenlos ... wie faszinierend kann bitte die neue (Marketing-)Welt sein?

Schon sehr, keine Frage. Doch leider gilt auch hier: Der Teufel steckt gerne im Detail, und ruckzuck weicht die Faszination der großen Ernüchterung, wenn die schöne Website auf Japanisch irgendwie überhaupt niemanden anzieht, der Kampagnentest im brasilianischen Markt nur Gelächter produziert und der Video-Vortrag zu einem Shitstorm auf Social Media führt.

Aber wieso bloß – es klingt doch alles so gut (zumindest das, was man selbst versteht)? Und übersetzen heißt doch dann bloß die Wörter tauschen, also wieso funktioniert's am Ende nicht wie erhofft?

Fragen, deren Antworten insbesondere für den Mittelstand und dort vor allem für kleinere Unternehmen relevant sind. Denn wie aus Panel-Umfragen hervorgeht, wird gerade bei kleineren Unternehmen (die i.d.R. keine eigene Sprachabteilung haben), gerne mit den neuen Möglichkeiten der KI für Übersetzung experimentiert – eben mit Blick auf schnelle Verfügbarkeit und Kostenersparnis. Das Gefahrenpotenzial unkontrollierter maschineller Übersetzung wird dabei allerdings meist übersehen. Gerade für kleinere Unternehmen wiederum können Fehler aufgrund eines – unwissentlich – zu großen Vertrauens in die – vermeintlich – perfekte KI-Übersetzung jedoch schnell existenziell werden.

Wo diese Gefahren bzw. Herausforderungen lauern, wird deutlich bei einem Blick in den "Maschinenraum" der maschinellen Übersetzung (s. "Insights"): Wenn die Maschine übersetzt, ist dies eben nicht das, was ein Mensch beim Übersetzen tut. Sondern: eine rein mathematische, auf Algorithmen basierende Aneinanderreihung von Wörtern bzw. so genannten "Tokens" nach dem Wahrscheinlichkeitsprinzip, für das eine immense Sammlung von Daten durchforstet wird.

Ob diese Wahrscheinlichkeit sich mit dem deckt, was die Verfasserin oder der Verfasser tatsächlich ausdrücken wollten oder überhaupt der Wahrheit entspricht, ist der Maschine schlichtweg egal.

Hintergrund: Maschinelle Übersetzung und ihre Entwicklung

Was machen Menschen beim Übersetzen anders – und besser?

Anders als gerne angenommen, werden beim Übersetzen nicht lediglich einzelne Wörter übertragen, die dann ggf. nur noch in die richtige Verbform etc. gebracht werden müssen. Tatsächlich geht es beim Übersetzen nicht um Wörter, sondern um Worte. Und das ist ein gewaltiger Unterschied.

"Echtes" Übersetzen steht vielmehr für die möglichst genaue Übertragung von Inhalt und Bedeutung eines schriftlichen Textes in eine andere Sprache, wobei sowohl die Kommunikationsabsicht und -wirkung als auch die Adressaten berücksichtigt werden.

Grundlegend ist dabei die Frage, was den zu übersetzenden Text ausmacht. Um dies zu erkennen, muss zunächst der Inhalt vollständig verstanden werden. MÜ oder LLMs tun dies nicht – qualifizierte Übersetzerinnen und Übersetzer sehr wohl, in der Regel sind sie deshalb auch auf bestimmte Fachgebiete spezialisiert.

Hinzu kommt: "Niemand liest einen Text so genau wie der Übersetzer", so eine alte Branchenweisheit. Und deshalb entdecken fachlich qualifizierte Übersetzer beim Lesen und Erfassen von Texten nicht selten auch inhaltliche Unstimmigkeiten (beispielsweise, wenn durch mehrfaches Copy/Paste in einem Satz irgendetwas durcheinander geraten ist) oder auch inhaltliche Fehler (etwa ein falsch gesetzter Punkt statt einem Komma in einer Dezimalzahl, oder eine Zahl mit zu vielen Stellen). Während die KI dies schlichtweg ignoriert, fragen professionelle Übersetzer in solchen Fällen nach – eine vorgeschaltete zusätzliche Qualitätskontrolle sozusagen.

Beim Übertragen der Texte schließlich haben qualifizierte Übersetzerinnen und Übersetzer auch im Blick, für wen bzw. für welchen Zweck der Text übersetzt wird – und berücksichtigen dabei ggf. geltende DIN- oder ISO-Normen ebenso wie Textsortenkonventionen: Der Sprachstil und der Aufbau einer Presse-Information in Deutschland folgt möglicherweise anderen Regeln bzw. Konventionen als in anderen Sprachräumen bzw. Kulturen, ggf. existieren sogar (gesetzlich oder per sonstiger Regulierungen) einzuhaltende Vorgaben. Führt im einen Fall die Nichtbeachtung lediglich zu einem "irgendwie ungewohnten" Stil, so kann es im anderen Fall bis zu haftungsrelevanten Konsequenzen haben. Gleiches gilt für kulturelle Aspekte, die im Zweifelsfall sogar erfordern, dass sich die Übersetzung ein gutes Stück vom Ausgangstext weg bewegt, um ihr Ziel zu erreichen und ihren Zweck zu erfüllen.

Auch wenn bei ChatGTP und Co. im Hintergrund an diesen Aspekten mit Hochdruck gearbeitet wird: Mit entsprechend qualifizierten und professionellen Übersetzerinnen und Übersetzern sind Unternehmen hier derzeit eher auf der sicheren Seite. Ganz abgesehen davon, dass Menschen auch in der Lage sind, bedeutend kreativer mit Sprache umzugehen als eine künstliche Intelligenz. Diese gibt schließlich nur das Ergebnis komplexer, stochastischer Berechnungen aus.

Risiken und Nebenwirkungen

Selbst wenn sich ein Text aus der Maschine oder der generativen KI rundherum gut und flüssig liest – es gibt keine Gewähr, dass nicht irgendwo doch ein Fehler steckt, eine im Ausgangstext bewusst gesetzte sprachliche Nuance eben nicht erkannt und anders übertragen wurde – oder am Ende sogar etwas in die Übersetzung "hineinhalluziniert" wurde (s. "Hintergrund"). Da kann es vorkommen, dass ein kleines, aber ggf. alles andere als unwichtiges „nicht“ bei der Übersetzung verloren geht – und schon ist die Bedeutung des Satzes plötzlich ins Gegenteil verkehrt. Schmerzhaft, wenn in einer Betriebsanleitung darauf hingewiesen wird, dass man sich (nicht) mit dem laufenden Rasenmäher über den Fuß fahren möge. Das klingt im Beispiel noch amüsant, kann in der Realität aber empfindliche Folgen haben.

Ähnlich ist es übrigens bei generierten Texten. Nach wie vor sind ChatGPT &Co. dafür bekannt, mit Dinge einfach zu erfinden und zu behaupten. Dieses sogenannte Halluzinieren kann von der Erfindung eines fiktiven Lebenslaufs bis hin zur Nennung eines korrekt aussehenden, aber nicht existenten Aktenzeichen eines Gerichtsbeschlusses reichen. Warum? Weil die erfundenen Angaben letztlich auf Basis der Trainingsdaten für das Modell an dieser Stelle das wahrscheinlichste Ergebnis sind. Und so kommt es auch vor, dass beim direkten Eintippen eines Textes zur Übersetzung beispielsweise in DeepL die Maschine einen Satz von sich aus einfach schon mal abschließend ergänzt – obwohl man selbst den Schluss noch gar nicht getippt hatte.

Die Krux dabei: Je flüssiger der Text oder die Übersetzung klingt, umso besser verstecken sich diese typischen "Maschinen-Fehler". Überprüfung ist also ein Muss, und sie erfordert nicht nur hohe Konzentration, sondern sowohl fachliches wie sprachliches Know-how. Inhouse-Mitarbeiter, die die jeweilige Sprache "eigentlich ziemlich gut" beherrschen, sind hierfür nicht wirklich die beste Wahl: Denn qualifizierte und erfahrene Übersetzerinnen und Übersetzer wissen ( aufgrund ihrer sprachlichen Kompetenzen, aber auch aufgrund ihrer Kenntnis der maschinell möglichen Qualität), wo die Maschine gerne Fehler macht und finden diese sicherer und schneller.

Qualität der Trainingsdaten

Wie gut eine KI Text- und Übersetzungsaufgaben grundsätzlich löst, hängt zudem entscheidend von der Qualität des Datenmaterials ab, mit dem die Systeme trainiert wurden. Enthält dieses Material Fehler oder Unvollständigkeiten, führt dies zu schlechteren Übersetzungen. Die Herausforderung besteht darin, genügend hochwertige und vielfältige Daten zu sammeln, um die Genauigkeit der von diesen Modellen generierten Inhalte zu verbessern.

Doch es geht nicht nur um Fehler oder Unvollständigkeiten. Was geschieht, wenn die Trainingsdaten von LLMs voreingenommene oder diskriminierende Muster enthalten? Oder das Material staatlicher Steuerung unterliegt? Diese Muster können die Modelle dann in ihren Übersetzungen und generierten Texten reproduzieren. Die Gefahren sind offensichtlich, denn es können unbewusst Vorurteile verstärkt werden oder sich bei der Übersetzung sogar diskriminierende Aussagen einschleichen, die im Ausgangstext nicht vorhanden waren. Transparenz im Hinblick auf die Trainingsdaten ist folglich unerlässlich, um sicherzustellen, dass die Ausgaben der Modelle – in Form von Texten wie Übersetzungen – fair und unvoreingenommen sind.

Komplexe Rechtslage – und lauernde (Datenschutz-)Fallen

Nicht zuletzt stehen bei der Nutzung maschineller Übersetzungen und KI-generierter Texte nach wie vor viele rechtliche Fragen im Raum, insbesondere zu Urheberrecht, Datenschutz und Haftung.

Beim Urheberrecht geht es zunächst um einen möglichen Schutz der von der KI erstellten oder übersetzen Texte. Nach deutschem Recht hapert es zwar häufig an der zum Schutz erforderlichen Schöpfungshöhe; in anderen Rechtssystemen kann das entsprechend anders aussehen. Ein weiterer Fragekomplex steht derzeit zusehends im Mittelpunkt des Interesses: Stellt ggf. die Nutzung der Daten, die zum Training der frei zugänglichen Modelle genutzt wurden, bereits eine Urheberrechtsverletzung dar? In den USA sind derzeit mehrere Verfahren dazu anhängig. Wie sich die Lage in Deutschland darstellt, muss sich noch zeigen.

Viel näher dürften Unternehmen allerdings datenschutzrechtliche Fragen sein – ganz unabhängig davon, ob KI-Systeme zur Übersetzung oder zur Texterstellung genutzt werden. Für personenbezogene Daten gibt die in Europa geltende Datenschutz-Grundverordnung klare Regelungen vor. Eine DSGVO-gemäße Datenverarbeitung ist mit KI-Tools durchaus möglich, jedoch mit einigem Aufwand verbunden: Gegebenenfalls müssen die Texte vor der Verarbeitung durch die KI von personenbezogenen Daten bereinigt werden. Neben der DSGVO ist bei der Nutzung von künstlicher Intelligenz auch zu beachten, dass die Daten vor Industriespionage durch gezielte Hackerangriffe oder Prompt-Injektionen geschützt sind.

Wobei: Das größere Risiko in vielen – gerade kleineren Unternehmen – ist nicht die KI an sich oder ein möglicher Angriffe von außen, sondern der Mensch am Arbeitsplatz. Denn mit der Omnipräsenz von Computer, Tablet oder auch Smartphones ist einfach sehr verlockend, schnell mal einen Mailtext durch die kostenlose DeepL-Version zu schicken – oder auch gleich ein ganzes Dokument dort hochzuladen. Ob das an irgend einer Stelle ggf. sensible Daten oder Informationen enthält: Wie soll man das wissen, wenn man es zur Übersetzung hochlädt, weil man die Ausgangsprache nicht beherrscht ...? Und wem ist bewusst, dass diese kostenlosen Systeme die Daten in der Regel zum weiteren Training der Systeme nutzen – sie damit also der breiten Öffentlichkeit zugänglich machen?

Spinnt man diesen Aspekt weiter, ist man schnell bei der Frage, die gerade für kleinere Unternehmen sogar existenzbedrohend werden kann: Wer haftet, wenn durch eine maschinelle Übersetzung ein Schaden entsteht? Ist es im Fall des "menschlichen Datenlecks" noch einfach nachvollziehen, so ist es bei Fehlern in – ungeprüften – Übersetzungen selbst aus "autorisierten", hausinternen KI-Modellen weniger eindeutig: Sind es die Betreiber der KI-Systeme, die Anwender oder die Entwickler?

Unabhängig davon, dass diese Frage derzeit Scharen von Fachanwälten beschäftigt – bei Übersetzungen zu haftungsrelevanten, sensiblen oder kritischen Inhalten kann die Antwort nur lauten: KI kann hier immer nur Zulieferer sein; eine Überprüfung der Ergebnisse durch kompetente, entsprechend geschulte Personen – im Idealfall: qualifizierte Fachübersetzerinnen bzw. -übersetzer – ist ein Muss und hat für Unternehmen existenzielle Bedeutung.

Wann ist eine KI-Übersetzung sinnvoll?

Natürlich gibt es durchaus Szenarien, in denen maschinelle Übersetzungen – auch ohne menschliche Nacharbeit – möglich und sinnvoll sind. So wäre beispielsweise denkbar, öffentliche Ausschreibungsunterlagen maschinell vorzuübersetzen, um entscheiden zu können, ob die Leistungsbeschreibung und Vergabebedingungen eine intensivere Beschäftigung (und damit ggf. eine professionelle Übersetzung) überhaupt rechtfertigt. Auch für die Kommunikation im kleinen Kreis, die kein wirtschaftliches oder zwischenmenschliches Risikopotenzial bietet, ist maschinelle Übersetzung durchaus eine Option. Insbesondere, wenn man im direkten Kontakt mit dem Gegenüber steht und etwaige Missverständnisse anhand der Reaktion erkennen und korrigieren kann.

Worauf also achten, wenn man ChatGTP & Co für Übersetzung einsetzen will?

Zunächst ist Sensibilität in Bezug auf den Datenschutz wichtig: Welche Daten (sprich: Texte) können den jeweiligen (fremden) Systemen bedenkenlos anvertraut werden? Im Zweifelsfall sollten geschlossene Abo- bzw. Vertragsvarianten gewählt werden, die sicherstellen, dass die eingegebenen Daten nicht zum weiteren Training der öffentlichen Systeme benutzt werden.

Grundsätzlich gilt: Ungeprüfte maschinell übersetzte (oder auch erstellte) Texte sollten als solche gekennzeichnet sein – mit dem Hinweis, dass ggf. Fehler enthalten sein können.

Und je mehr Relevanz ein Text oder eine Übersetzung hat, umso mehr muss darauf geachtet werden, dass der Output der Maschinen nicht ohne Überprüfung und gegebenenfalls Nachbearbeitung durch eine kompetente Fachkraft nach draußen gelangt. Idealerweise ist diese Person eine qualifizierte Übersetzerin oder ein qualifizierter Übersetzer – denn als Profis haben diese maschinelle Übersetzungssysteme schon lange in ihren kontinuierlich wachsenden Werkzeugpark integriert, kennen die Schwächen auch der aktuellen KI-Systeme und wissen, worauf sie achten müssen, um sie regel- und gesetzeskonform so einzusetzen, dass die Systeme ihre Vorteile im Sinne ihrer Auftraggeber zur Geltung bringen können. Und die zudem häufig noch eine Reihe weiterer Dienstleistungen im Portfolio haben, die aus einer reinen Übersetzung eine echte Mehrwert-Dienstleistung für das Unternehmen machen kann: angefangen beim Aufbau und der Pflege von unternehmensspezifischen Terminologie-Glossaren oder -Datenbanken bis hin zur SEO-Optimierung von Übersetzungen (oder auch Texten in der Ausgangssprache). Im Einzelnen klärt sich das übrigens – wie vieles – am besten im persönlichen Gespräch und direkten Kontakt (bei dem sich auch das insbesondere bei kleinen und mittleren Unternehmen sehr geschätzte persönliche Vertrauensverhältnis ausbilden kann).

Zurück