Forschende lancieren Dialektsammlung für Schweizer Mundart
Ein Projekt von Schweizer Hochschulen sammelt und digitalisiert Deutschschweizer Dialekte. Das Ziel ist ein Programm für die Übersetzung von Mundart.
Das Wichtigste in Kürze
- Ein Team aus Forschenden will mithilfe von Datensammlungen eine App für Dialekte erstellen
- Für Technologiefirmen wie Google ist der Schweizer Markt nicht attraktiv genug.
- Durch künstliche Intelligenz soll ein Algorithmus schweizerdeutsche Sprache verstehen.
Mit Siri und Alexa sprechen, wie einem der Schnabel gewachsen ist: Das ist bei Schweizer Mundart kaum möglich, weil die Software die Dialekte häufig nicht versteht. Denn es fehlen die notwendigen, grossen Mengen an Trainingsdaten, also Audioaufnahmen und dazugehörige Transkripte.
Ein Team der Zürcher Hochschule für Angewandte Wissenschaften und der Fachhochschule Nordwestschweiz ruft nun zu Datensammlungen von Schweizer Dialekten auf. «Mindestens 2000 Stunden Aufnahmen von schweizerdeutschen Dialekten sollen zusammenkommen, damit wir eine gute Datenbasis haben», sagt der ZHAW-Forscher Mark Cieliebak.
Basierend auf künstlicher Intelligenz soll einem Algorithmus anhand des Sammelsuriums anschliessend beigebracht werden, schweizerdeutsche Sprache zu verstehen. Anschliessend soll er ihn automatisch in hochdeutschen Text umzuwandeln, wie Manfred Vogel von der FHNW erläuterte.
Nicht attraktiv genug
Für Technologiefirmen wie Google ist der Schweizer Markt nicht attraktiv genug, um eine Lösung zu entwickeln, die Mundart versteht. Sobald sich gesprochene Sprache aber verschriftlichen lässt, wird es beispielsweise möglich, mit Sprachassistenten auf Schweizerdeutsch zu sprechen. Um die Datensammlung zur Entwicklung von Computerprogrammen zu nutzen, soll sie für Forschungszwecke zugänglich gemacht werden.
Die Schweizer Dialektsammlung wird von der Swiss Association for Natural Language Processing (SwissNLP) geleitet. Das Media Technology Centre der ETH und Universität Zürich ist als Technologiepartner am Projekt beteiligt. Finanzielle Unterstützung kommt vom Schweizer Nationalfonds (SNF) und der AXA Versicherung. Tamedia und 20 Minuten stellen die Textdaten als Basis für die Sprachaufnahmen zur Verfügung.