Machine Translation - Maschinelle Übersetzung

Aus induux Wiki


Letzter Autor: induux Redaktion

Maschinelle Übersetzung (MÜ), die im Deutschen häufig auch als MT (vom Englischen machine translation) abgekürzt wird, bezeichnet einen Übersetzungsprozess, bei dem ein Computer ohne menschliche Interaktion einen Text von einer Ausgangssprache automatisch in eine Zielsprache übersetzt.
Synonym(e): Maschinelle Übersetzung



Vorteile Maschinelle Übersetzung vs. Humanübersetzung
Mögliche Übersetzungsworkflows (Maschinell vs. Human) und ihre Vorteile im Bezug auf Qualität und Geschwindigkeit

Maschinelle Übersetzung wurde bereits in den 1950er Jahren entwickelt. Das erste Mal zum Einsatz kam die automatisierte Übersetzung im militärischen Bereich zur Dechiffrierung von Funksprüchen. Hierfür wurde eine direkte Maschinenübersetzung verwendet: Basierend auf einem Wörterbuch werden Texte dabei Wort für Wort in eine andere Sprache übersetzt. Seit diesen frühen Anfängen wurden verschiedene Ansätze entwickelt, um einen Text durch einen Computer automatisch in eine andere Sprache zu übertragen. Je nach Prozess werden dabei Sprachregeln und -vorgaben, parallele Korpora und/oder zweisprachige Lexika eingebunden. Seit 2016 hat das Feld durch den Einsatz neuronaler Netzwerke einen Quantensprung erlebt.

Für jede maschinelle Übersetzung wird eine sogenannte Engine für ein Sprachpaar (zum Beispiel Deutsch-Englisch) trainiert. Die Engine kann nach dem Training Texte aus beiden Sprachen in die jeweils andere Sprache übertragen. Für jedes benötigte Sprachpaar muss eine eigene Maschine (Engine) trainiert werden. Je nach zugrunde liegendem Prozess muss auch für jede Textart (Beispiel: Bedienungsanleitung) eine eigene Engine trainiert werden.

Prozesse

Während die direkte Maschinenübersetzung mit ihrer typischen Wort-zu-Wort-Übertragung keine zufriedenstellenden Ergebnisse liefert, wurden im Laufe der Zeit drei effiziente Methoden der maschinellen Übersetzung entwickelt, die unterschiedliche Ansätze verfolgen:

Regelbasierte maschinelle Übersetzung (RBMT)

Regelbasierte maschinelle Übersetzungssysteme integrieren ein Regelwerk für eine Sprache, das Grammatikregeln und Wörterbücher mit allgemeinem und fachspezifischem Vokabular umfasst. Durch die regelbasierte Übersetzung, die Anpassung der Wörterbücher und die Möglichkeit, firmeneigene Terminologie in den Übersetzungsprozess einzubinden, liefern RBMT-Systeme konsistente und terminologisch korrekte Übersetzungen.

Statistische maschinelle Übersetzung (SMT)

Statistische MÜ-Systeme werden mit großen parallelen Korpora trainiert und lernen so Sprachmuster für ein bestimmtes Sprachpaar aus Basis großer, paralleler Datenmengen. Statistische Systeme können für bestimmte Fachbereiche oder Textsorten trainiert werden, indem nur Texte dieses Bereichs oder dieser Textsorte zum Training verwendet werden. Die bilingualen Korpora müssen vor dem Training geprüft und bereinigt werden, beispielsweise durch eine Vereinheitlichung der verwendeten Terminologie. Statistische Systeme liefern häufig flüssig klingende Ergebnisse und lassen sich mit überarbeiteten Texten nachtrainieren.

Neuronale maschinelle Übersetzung (NMT)

Bei der neuronalen MÜ lernt die Maschine das Übersetzen von einer Sprache in eine andere über ein neuronales Netzwerk, ähnlich einem menschlichen Gehirn. Die Basis hierfür bilden parallele Korpora, die allerdings systembedingt noch umfangreicher als bei SMT sein müssen.  Auch neuronale Systeme können für bestimmte Textsorten oder Fachbereiche trainiert werden und liefern sehr flüssig und natürlich klingende Ergebnisse, die gerade bei kurzen Sätzen teilweise nicht von Humanübersetzungen zu unterscheiden sind.

Zusätzlich zu den drei genannten Systemformen gibt es hybride Systeme, die die Eigenschaften zweier Systeme (Beispiel: RBMT und SMT) miteinander verbinden.

Je nach gewählter Methode ist die Vorbereitungszeit, bis eine Maschine den gewünschten Output liefert, sehr hoch und kostenintensiv. Im Gegenzug kann das Ergebnis bei generischen Maschinen, die nicht spezifisch, sondern mit frei verfügbarem Material trainiert wurden, noch erhebliche Mehrarbeit durch stilistische und terminologische Anpassungen erfordern.

Vorteile

Ziel der maschinellen Übersetzung ist es, Übersetzungszeiten zu verkürzen und/oder Übersetzungskosten zu sparen. Während ein menschlicher Übersetzer je nach Textart zwischen 1000 und 2000 Wörter am Tag übersetzen kann, können bei der maschinellen Übersetzung viele Tausend Wörter innerhalb von Minuten übersetzt werden. Maschinelle Übersetzung eröffnet damit auch die Möglichkeit, Dokumente übersetzen zu lassen, die sonst aus Kosten- oder Zeitgründen nicht übersetzt worden wären.

Einsatzgebiete maschineller Übersetzung

Maschinelle Übersetzung kommt vor allem bei der Übersetzung technischer Texte wie Dokumentationen, Betriebsanleitungen und Produktinformationen zum Einsatz. Auch viele im Internet produzierte Texte, wie Blogs, Forenbeiträge oder Inhalte von Online-Shops, werden maschinell (vor-)übersetzt. Die Leser erwarten die entsprechenden Informationen in ihrer Muttersprache, weshalb hier großer Übersetzungsbedarf bei teilweise nur geringer Sichtbarkeit der Texte besteht. Auf dem klassischen Übersetzungsweg (Übersetzung durch einen Humanübersetzer) sind die großen Datenmengen kaum zu bearbeiten.

Ein weiteres und häufig genutztes Einsatzgebiet für maschinelle Übersetzung ist die reine Informationsgewinnung („information gisting“) aus einer Fremdsprache. Hierbei sollen lediglich die Kerninhalte eines Textes für Leser, die die Ausgangsprache nicht beherrschen, zugänglich gemacht werden. Es besteht dabei kein Anspruch an sprachliche Korrektheit, sodass Nutzer durch maschinelle Übersetzung innerhalb von Sekunden die für sie wesentlichen Informationen erhalten können.

Während der Output maschineller Übersetzung für Forenbeiträge, interne E-Mails und reine Informationsgewinnung ohne oder mit nur minimaler Nachbearbeitung auskommt, müssen Texte, die veröffentlicht werden sollen, nach der maschinellen Übersetzung noch überprüft und gegebenenfalls nachbearbeitet werden. Diese Nachbearbeitung wird Posteditieren (auch: Post-Editing) genannt und von geschulten Posteditoren ausgeführt. Neben dem inhaltlichen Abgleich wird auch die sprachliche Richtigkeit sichergestellt, sodass sich das Ergebnis, je nach Anforderungen an das Posteditieren, anschließend nicht von einer Humanübersetzung unterscheidet.

Abgrenzung zu CAT

Maschinelle Übersetzungen werden (abgesehen vom Training der Maschine) ohne menschliche Interaktion mithilfe von künstlicher Intelligenz erstellt. Das vorab trainierte System überträgt den Text von einer Ausgangssprache in eine Zielsprache. Der so erstellte maschinelle Output kann entweder automatisch oder durch menschlichen Eingriff überprüft und weiterverarbeitet werden. Maschinelle Übersetzung kann sowohl alleinstehend als auch in den Humanübersetzungsprozess integriert genutzt werden. Im zweiten Fall greift ein Humanübersetzung während der Übersetzung segmentweise auf maschinelle Übersetzungsvorschläge zu und entscheidet, ob der maschinelle Output verwendet werden kann, angepasst werden muss oder ob eine komplette Neuübersetzung nötig ist.

Computer Assisted Translation (CAT) bezeichnet hingegen Software, die den Humanübersetzer im Übersetzungsprozess unterstützt, aber keinen eigenen Übersetzungsvorschlag liefert. Es handelt sich dabei um eine Übersetzungsumgebung, in der bereits vorhandene Übersetzungen aus Vorgängerdokumente mithilfe eines Übersetzungsspeichers erkannt und für ein neues Projekt genutzt werden können. CAT-Tools unterstützen den Übersetzer mit zusätzlichen Funktionen wie einer automatischen Rechtschreibkontrolle, einem Abgleich der Zahlen in Ausgangs- und Zieltext und einer automatischen Terminologieerkennung.

Literatur

Porsiel, Jörg (Hrsg.): Maschinelle Übersetzung: Grundlagen für den professionellen Einsatz. Berlin: BDÜ Weiterbildungs- und Fachverlagsgesellschaft mbH, 2017

Grizzo, Sara: Prüfen und Verfeinern. In: technische kommunikation, Ausgabe 03/2018. Stuttgart: Gesellschaft für Technische Kommunikation – tekom Deutschland e.V.

Du hast Feedback zur Wiki-Seite?