Technik: Kostenloses KI-Tool generiert Videos
Tencent präsentiert ein kostenloses KI-Modell zur Videogenerierung namens Hunyuan Video. Das Open-Source-Projekt soll mit kommerziellen Lösungen konkurrieren.
Das Wichtigste in Kürze
- Tencent präsentiert ein KI-Videogenerator, der als Open-Source funktioniert.
- Es soll das grösste kostenlose Projekt seiner Art sein.
Tencent hat mit Hunyuan Video ein neues Open-Source-Modell für KI-gestützte Videogenerierung vorgestellt. Mit über 13 Milliarden Parametern ist es laut Tencent das grösste öffentlich verfügbare Modell seiner Art, so «The-decoder».
Das System beherrscht ein breites Aufgabenspektrum. Es kann Videos aus Text generieren, Bilder in Videos umwandeln und Avatar-Animationen erstellen.
Auch die Generierung von Audio zu Videos gehört zum Funktionsumfang.
Technische Details und Leistung
Laut technischer Dokumentation übertrifft Hunyuan Video bestehende Systeme wie Runway Gen-3 und Luma 1.6. Besonders bei der Bewegungsqualität erzielt das System die besten Gesamtergebnisse, so «The-decoder».
Das Training des Modells erfolgt in mehreren Stufen. Zunächst wird es mit Bildern in niedriger Auflösung trainiert.
Danach folgt ein Mix-Scale-Training mit höheren Auflösungen. Anschliessend durchläuft das System ein progressives Video- und Bild-Training.
HunyuanVideo in der Praxis
Dabei werden Auflösung und Videolänge schrittweise erhöht. Diese Methode verbessert laut Entwicklerteam die Konvergenz und Qualität der generierten Videos.
Tests von «Ars Technica» zeigten, dass Hunyuan Video 5-Sekunden-Videos mit 864 × 480 Pixeln generieren kann. Die Verarbeitungszeit beträgt sieben bis neun Minuten pro Clip.
Einsatzmöglichkeiten und Kosten
Auf dem Cloudrechendienstleister Replicate kostet die Generierung eines Videos laut «Golem» rund 70 US-Cent (umgerechnet rund 0,60 Franken). Das Modell soll frei zum Download und zur Modifizierung zur Verfügung stehen.
Ein wesentliches Unterscheidungsmerkmal von Hunyuan Video ist die Fähigkeit, ohne inhaltliche Einschränkungen zu arbeiten. Dies unterscheidet es laut «Golem» von kommerziellen Alternativen mit strenger Inhaltsfilterung.
Laut «Ars Technica» liefert das Modell in verschiedenen Testszenarien vielversprechende Ergebnisse. Dies gilt für die Generierung kommerzieller Inhalte bis hin zur Erstellung komplexer Handlungsabläufe.
Technische Anforderungen und Einschränkungen
Technische Analysen deuten darauf hin, dass Hunyuan Video auf handelsüblicher Hardware mit 24-GByte-VRAM-GPU lokal funktionieren kann. Das Modell unterstützt Feinabstimmungen und LoRA-Implementierungen, so «Golem».
Wie «slashcam» berichtet, sprengt der Speicherbedarf für das Modell die VRAM-Anforderungen gängiger PC-GPUs. Mindestens 45 GB V-RAM werden für Clips in der kleinsten Auflösung (960 x 544 px) gefordert.
Für bessere Ergebnisse seien daher 60 – 80 GB dringend empfohlen. Hiermit lassen sich dann immerhin 1280 x 720px-Videos ohne Cloudhilfe erstellen.