von Florian Woeste und Anton Wiehe
Wir führen ein in die Welt von ‘Text+Musik zu Video’. Jüngste Fortschritte bei generativen Machine Learning Modellen wie DALL-E 2 oder Stable Diffusion ermöglichen eindrucksvolle Visualisierungen anhand von nicht mehr als ein paar Wörtern. Was steckt dahinter? Wohin geht es weiter und was braucht man zum selber machen?