NLLB von Meta kann mehr Sprachen als DeepL oder Google Translate
Die Sprach-KI von Meta heisst NLLB-200 (No language left behind) und kann mehr Sprachen übersetzen als DeepL oder Google Translate.
Das Wichtigste in Kürze
- Die Sprach-KI von Meta heisst NLLB-200 (No language left behind) und umfasst 204 Sprachen.
- Die KI-Modelle unterscheiden sich von anderen einerseits durch die Trainingsdatensätze.
- Zum anderen wurden je Sprachfamilie separate KI-Modelle erstellt.
Mit Sprach-KIs wie DeepL oder Google Translate kann man relativ unproblematisch von einer Sprache in eine andere übersetzen – vorausgesetzt es handelt sich um Sprache des globalen Nordens. Möchte man jedoch eine weniger bekannte Sprache übersetzen, sind die Übersetzungen oft noch mangelhaft – aufgrund fehlender Trainingsdaten für die KI. Meta wollte diese Lücke mit einem neuen Sprachmodell schliessen. Die bereits 2022 veröffentlichte KI NLLB-200 (No language left behind) soll 204 Sprachen beherrschen, darunter 150 ressourcenarme wie Luganda.
Möglich wurde dies gemacht durch zwei wesentliche Faktoren, wie nun das Meta-Team am 5. Juni 2024 in «Nature» erklärte. Da wäre zum einen der Datensatz «Flores-200», der 204 Sprachen enthält, darunter Internetquellen sowie tausende von Beispielsätzen in 39 Sprachen mit extrem wenig Ressourcen.
«Immer noch deutlich schlechter als Sprachen mit vielen Ressourcen»
Darüber hinaus ist das KI-Modell so aufgebaut, dass es nicht alle Sprachen gleichzeitig übersetzt, sondern je nach Sprache oder Sprachfamilie Kompartimente gebildet wurden. Diese vielen kleinen KIs konnten wesentlich gründlicher die Sprache trainieren und Parameter ausbilden als eine grosse KI. Durch diesen Einsatz separater KI-Modelle konnte einem Qualitätsverlust bei den Übersetzungen vorgebeugt werden.
Inzwischen ist das Übersetzungsprogramm NLLB schon seit zwei Jahren im Einsatz. «Es bietet Übersetzungen von angemessener Qualität in mehreren ressourcenarmen Sprachen», so der Informatiker David I. Adelani vom University College London. Allerdings sei die Qualität «immer noch deutlich schlechter als die von Sprachen mit vielen Ressourcen».