«Sekunden KI»: Microsoft kann jede Stimme der Welt imitieren

Die «Sekunden KI» ist eine Sensation. Mit nur drei Sekunden langen Beispielen kann die künstliche Intelligenz jeder Stimme imitieren – mit grossen Risiken?

Mit VALL-E macht Microsoft den Mensch gläsern: Die «Sekunden KI» kann jede Stimme der Welt imitieren - pixabay

Das Wichtigste in Kürze

  • Microsoft und OpenAI präsentieren nach GPT3 und DALL-E nächste KI-Software
  • VALL-E kann Stimm-Imitationen erstellen auf Basis nur drei Sekunden langer Beispiele
  • Einsatz aktuell nur zu Forschungszwecken, da Missbrauch verheerend wäre

Nach DALL-E kommt VALL-E und damit Microsoft nächster Paukenschlag in Sachen künstlicher Intelligenz. Die «Sekunden KI» ist in der Lage Stimmen, Tonfall und Emotionen zu imitieren. Und dazu muss sie nur mit einer drei Sekunden langen Original-Sequenz trainiert werden.

Microsoft und OpenAI sind führend in der Entwicklung künstlicher Intelligenzen

VALL-E ähnelt anderen von Microsoft entwickelten KI-Tools wie ChatGPT und DALL-E. Sind sind in der Lage sind Bilder und Texte auf Basis von Stichwörtern zu erstellen. Microsoft ist einer der Unterstützer von OpenAI, der Organisation, die hinter diesen Tools steht.

VALL-E wurde mit 60'000 Stunden englischer Sprachdaten trainiert, was es ihm ermöglicht, überzeugende und natürlich klingende Aufnahmen zu erstellen. Dies ist ein bedeutender Fortschritt auf dem Gebiet der KI-generierten Audiodaten. Bisher war es unmöglich mit einer sehr kleinen Stichprobengrösse akkurate Imitationen von Stimmen zu erstellen.

Noch ist die «Sekunden KI» nicht immer treffsicher

Es ist jedoch zu beachten, dass die Qualität der von der «Sekunden KI» produzierten Aufnahmen variieren kann. Manche sind kaum von der echten Stimme zu unterscheiden und andere klingen blechern sind sofort zu erkennen. Die Detailtiefe einer 3-Sekunden-Aufnahme sind eben gering. Je mehr Daten in die KI eingespeist werden, desto genauer und realistischer werden die Ergebnisse.

Aktuell noch im nicht-öffentlichen Forschungsstadium

Derzeit ist VALL-E noch nicht öffentlich verfügbar, und es ist unklar, wann es das sein wird. Die Einsatzmöglichkeiten für dieses Tool sind jedoch enorm. Es könnte für Voice-over-Arbeiten, virtuelle Assistenten oder sogar in der Unterhaltung eingesetzt werden.

Täuschungsversuchen und Betrug wird der Weg geebnet

Es gibt jedoch auch Bedenken hinsichtlich des Missbrauchspotenzials, etwa bei der Erstellung gefälschter Audioinhalte. So könnten Fehlinformationen verbreitet werden oder Betrugsversuche initiiert. Daher müssen bei der Entwicklung und Freigabe eines solchen Tools ethische und rechtliche Fragen geprüft werden.