Was ist AudioCraft, das neue KI-Tool unter Meta?
AudioCraft ist ein Open-Source-Programm, das aus Textansagen Effekte und Musik erstellt, ähnlich wie es KI-Bild- oder Videogeneratoren tun. AudioCraft bietet drei Modelle an:
- MusicGen zum Komponieren von Musik
- AudioGen zum Erstellen von Soundeffekten
- EnCodec hilft bei der Audiokomprimierung
MusicGen war zuvor unter Musikschaffenden und KI-Hobbyisten bekannt. Doch nun hat Meta den Code für dieses Modell enthüllt, der es Nutzern ermöglicht, es mit eigenen Musikdaten anzureichern. Verständlicherweise stellten sich sofort ethische und rechtliche Fragen, da die meisten KI-Musikwerke von Musikverlegern sofort als Verletzung geistigen Eigentums gemeldet wurden.
Meta gab ausdrücklich an, dass das Standardmodell nur auf der Grundlage firmeneigener Musik und deren lizenzierter Musik erstellt wurde. Konkret nutzten sie 20.000 Stunden Audio und 400.000 Aufnahmen sowie Textbeschreibungen und Metadaten, alles unter dem Dach der Meta Music Initiative Sound Collection, der Plattformen Shutterstock und Pond5. Außerdem haben sie vor der Veröffentlichung sämtliche Gesangsstimmen entfernt, um eine Nachahmung der Stimmen der Ersteller zu verhindern.
Das zweite Modell, AudioGen, widmet sich der Erzeugung von Umgebungsgeräuschen und Soundeffekten. AudioGen ist ein diffusionsbasiertes Modell, wie die meisten modernen Bildgeneratoren (DALL-E 2, Stable Diffusion...). Bei der Diffusion lernt das Modell, anfängliche Daten, die vollständig aus Rauschen bestehen – etwa Audio oder Bilder –, schrittweise zu entrauschen und sie Schritt für Schritt näher an die Zieleingabe heranzuführen.
Zusätzlich zu den Effekten wurde AudioGen auch zur Erzeugung von Sprache entwickelt, was laut Meta von manchen dazu missbraucht werden könnte, Stimmen zu fälschen. Trotz der Bedenken haben sie zumindest vorerst keine spezifischen Einschränkungen für die verschiedenen Verwendungsmöglichkeiten von AudioCraft festgelegt.
Das dritte Modell, EnCodec, ist eine Verbesserung gegenüber Metas Vorgängermodell, um Musik mit weniger Artefakten zu erstellen. Meta behauptet, Audiosequenzen effizienter zu modellieren und unterschiedliche Informationsebenen zu erfassen, wenn Daten-Audiowellenformen trainiert werden, um die Erstellung neuer Audiodaten zu unterstützen.
Meta stellte sich AudioCraft als ein Werkzeug für Musiker und Schöpfer vor, mit dem sie neue Kompositionen erstellen können, ohne physisch Instrumente spielen zu müssen. Sie richteten sich auch an Entwickler mit einem begrenzteren Budget, die mit AudioCraft unterschiedliche Sounds für virtuelle Welten erstellen könnten, und Instagram-/TikTok-Ersteller könnten beispielsweise die am besten geeigneten Sounds für ihre Beiträge erstellen.
Zumindest vorerst erlaubt die Lizenz von AudioCraft keine kommerzielle Nutzung.
Wie installiere und teste ich das AudioCraft AI-Tool?
Koda se nahaja na Githubu, za namestitev pa imate več možnosti. Uporabite lahko program Pinokio (https://pinokio.computer), ki vam bo bolj ali manj samodejno namestil AI glasbeno orodje. V njihovi knjižnici morate izbrati modul AudioGradio, ga namestiti (traja nekaj minut) in na koncu boste dobili lokalni IP, s katerim boste lahko preizkusili AudioCraft.
Drugi načini zahtevajo prednameščen Python, Pip, Anacondo, minicondo ali podobne programe. Dober in enostavno razumljiv vodič je na GitHubu (https://bit.ly/GHglasba) objavil uporabnik mberman84 in velja za program miniconda. Končni rezultat je enak. Dobili boste IP, ki ga vnesete v svoj brskalnik in začnete lahko z eksperimentiranjem.