Erfahren Sie alles über KI, die Videos aus Text generiert

Sora ist das künstliche Intelligenzmodell von OpenAI, das eine Textaufforderung in ein Video umwandeln kann. Sora stellt möglicherweise eine Revolution im künstlerischen Schaffen dar und wirft viele Fragen auf, die wir hier beantworten möchten.

Video erstellt von Sora
Bildnachweis: OpenAI

Nachdem OpenAI mit seinem ChatGPT-Textgenerator und seinem DALL-E-Bildgenerator beispiellose Begeisterung hervorrief, präsentierte OpenAI Sora, seinen Videogenerator. Wie bei den anderen Plattformen handelt es sich um ein auf künstlicher Intelligenz basierendes Tool, das Inhalte aus einer Eingabeaufforderung in Textform erstellen kann. Sora verspricht, viele kreative Anwendungen im Internet und in anderen Bereichen zu revolutionieren. Hier erfahren Sie, was Sie darüber wissen müssen.

Wie funktioniert Sora?

Sora basiert, wie die GPT-Modelle, auf a Transformatorarchitektur. In einem neuronalen Netzwerk nutzt ein Transformator sein Fachgebiet, um Beziehungen zwischen den Komponenten einer Sequenz herzustellen, sodass er dann eine Eingabesequenz in eine Ausgabesequenz umwandeln und eine Antwort auf eine Eingabeaufforderung generieren kann. Dieses System erweckt den Eindruck, dass die KI die Frage versteht und überlegt, eine relevante Antwort zu finden, tatsächlich sind jedoch keine logischen Fähigkeiten erforderlich. Hierbei handelt es sich um Algorithmen, die mathematische Darstellungen verwenden, um Konzepte miteinander in Beziehung zu setzen.

Wenn große Sprachmodelle (LLM) in ihrem Betrieb Token verwenden, verwendet Sora das, was OpenAI als Token bezeichnet. „Patches“ (visuelle Korrekturen). Diese Technik hat sich im Bereich der Datenvisualisierung bereits bewährt. Videos werden durch Komprimierung in Patches umgewandelt, die dann als Token fungieren. Sie können verwendet werden, um mithilfe des Transformators ein Video (oder ein Bild) zu rekonstruieren.

Sora-PatchesSora-Patches
Bildnachweis: OpenAI

„Sora ist ein Streaming-Modell, das ein Video generiert, beginnend mit einem Video, das wie statisches Rauschen aussieht, und es schrittweise umwandelt, indem das Rauschen in mehreren Schritten entfernt wird.“, erklärt OpenAI. Es ist möglich, ein Video in einem Durchgang mit einer einzigen Eingabeaufforderung zu erstellen oder mehrere Eingabeaufforderungen zu verwenden, um das Video nach und nach zu verlängern oder zu korrigieren.

Sora-LärmSora-Lärm
Bildnachweis: OpenAI

Das Modell verwendet dasselbe Rekapitulationstechnik Wird von DALL-E 3 verwendet. Dabei werden sehr detaillierte und beschreibende Legenden generiert, um eine umfangreiche visuelle Trainingsdatenbank zu entwickeln. Das Modell kann somit auf diese Datenbank zurückgreifen, um den Textanweisungen des Benutzers im generierten Video genauer zu folgen.

Zusätzlich zu einer Textaufforderung unterstützt Sora Verarbeitungsanweisungen, die ein Standbild enthalten. Anschließend wird eine Animation basierend auf dem Inhalt dieses Bildes erstellt. Die Eingabeaufforderung kann sogar ein Video vorschlagen, das Sora erweitern oder fehlende Szenen hinzufügen kann.

Wie lang ist ein von Sora erstelltes Video?

Derzeit kann Sora Videos mit einer Länge von bis zu einer Minute erstellen. Diese Grenze ist auf die Menge an Ressourcen zurückzuführen, die erforderlich sind, um ein Video zu erstellen, das die Anweisungen des Benutzers und den gewünschten visuellen Stil strikt respektiert. OpenAI hat nicht mitgeteilt, welche Verarbeitungszeit für die Erstellung eines Videos erforderlich ist. Rückmeldungen früher Nutzer scheinen darauf hinzudeuten, dass die Erstellung eines einminütigen Videos mit Sora etwa eine Stunde dauert. Eine solche Verzögerung stellt eine große Schwäche des Dienstes dar, da sie Benutzer daran hindert, ihre Videos effektiv mit neuen Aufforderungen zu korrigieren, um sie zu optimieren und relevantere Ergebnisse zu erhalten.

Wie gut ist die Bildqualität von Sora?

Sora generiert Videos in Auflösung bis zu 1920 x 1080p, also Full HD. Es kann auch Videos im Hochformat bis zu 1080 x 1920p produzieren und sich an jedes Seitenverhältnis anpassen. Im Gegensatz zu anderen Diensten dieser Art ist die Anzahl der Bilder pro Sekunde der Videos nicht bekannt.

Sora ist in der Lage zu erschaffen ultrarealistische Darstellungen, aber auch abstraktere Szenen, entsprechend den in der Eingabeaufforderung erläuterten Wünschen. Es können Kunstgriffe und Aberrationen im Bild auftreten, und wir können ein Phänomen von Halluzinationen bemerken, wie bei der Bilderzeugung mit DALL-E. Auch Fehler in Bewegungen sowie in Interaktionen zwischen Charakteren oder mit dem Setting und Objekten können auftreten. Aber die ersten von OpenAI veröffentlichten Beispiele sind beeindruckend und wir können davon ausgehen, dass Sora bereits bereit sein könnte, Werbespots zu generieren, die im Internet oder im Fernsehen ausgestrahlt werden.

Nach eigenen Angaben von OpenAI muss Sora noch verbessert werden. „Es kann schwierig sein, die Physik einer komplexen Szene genau zu simulieren und bestimmte Fälle von Ursache und Wirkung nicht zu verstehen.“, gibt das Unternehmen zu. Wenn eine Person beispielsweise in einen Keks beißt, weist dieser möglicherweise keine Bissspur auf. Der Umgang mit Glasscherben ist ebenfalls eine Schwierigkeit, auf die OpenAI stößt. Das Muster kann in den räumlichen Anweisungen einer Eingabeaufforderung verwechselt werden, indem beispielsweise links und rechts vermischt werden. Es kann auch schwierig sein, Richtungsanweisungen für eine Szene zu befolgen, beispielsweise eine bestimmte Flugbahn oder einen bestimmten Kamerawinkel.

Sora hingegen ist in der Lage, Szenen mit präzisen Details des Motivs und des Hintergrunds zu erstellen, Emotionen auszudrücken, einen visuellen Stil zu respektieren, Einstellungen in einem einzigen Video mehrmals zu ändern oder sogar ein bestimmtes Filmformat zu übernehmen. wie 35 mm. Die 3D-Konsistenz wird bereits beherrscht. Sora kann Videos mit dynamischer Kamerabewegung erstellen. „Während sich die Kamera bewegt und dreht, bewegen sich die Personen und Elemente in der Szene kohärent im dreidimensionalen Raum.“wir lernen.

Ebenso ist OpenAI mit der Leistung von Sora in Bezug auf die zeitliche Kohärenz im gesamten Video und die Objektpermanenz zufrieden. „Unser Modell kann Menschen, Tiere und Objekte auch dann bewahren, wenn sie verborgen sind oder den Rahmen verlassen. Es kann mehrere Aufnahmen desselben Charakters in einem einzigen Beispiel erzeugen und deren Aussehen während des gesamten Videos beibehalten.“sagt das Unternehmen.

Wie probiere ich Sora aus?

Sora ist nur für Mitglieder der zugänglichOpenAI Red Teaming-Netzwerk. Hierbei handelt es sich um eine sorgfältig ausgewählte Gruppe von Benutzern, deren Aufgabe es ist, die Fähigkeiten des Tools zu testen. Ziel ist es, technische, rechtliche oder ethische Probleme an OpenAI zu melden, damit diese vor einem breiteren Start gelöst werden können. Das Thema Deepfakes beunruhigt vor allem Herausgeber von Lösungen zur Videogenerierung. Hier müssen Barrieren errichtet werden. Die Achtung des Urheberrechts ist ein weiterer wichtiger Aspekt, den es zu berücksichtigen gilt.

„Wir gewähren auch Zugang zu einer Reihe von Künstlern, Designern und Filmemachern, um Feedback zur Weiterentwicklung des Modells zu erhalten, damit es für Kreativprofis so nützlich wie möglich ist.“, berichtet auch OpenAI. Das Unternehmen teilt seine Fortschritte und öffnet die Tür zu Sora jetzt auch einigen Leuten außerhalb von OpenAI, um so viel Feedback wie möglich zu erhalten und sein Tool zu verbessern. Wir wissen noch nicht, wann und in welcher Form Sora für die breite Öffentlichkeit verfügbar sein wird.

Wird Sora in ChatGPT integriert?

Wir wissen derzeit nicht, wie OpenAI Sora an die breite Öffentlichkeit verteilen will. Wenn wir uns auf die jüngsten strategischen Entscheidungen des Unternehmens verlassen, ist es nicht sicher, ob das Tool über eine eigene Benutzerplattform verfügt. DALL-E 2 akzeptiert keine neuen Clients mehr über seine eigene Schnittstelle, wohingegen Sie eine kostenpflichtige oder Entwicklerversion von ChatGPT nutzen müssen, um auf DALL-E 3 zuzugreifen. Wir können uns daher vorstellen, dass Sora beim Start direkt in integriert wird ChatGPT Plus. Es ist nicht sicher, dass Sora bei seiner Veröffentlichung kostenlos, auch nur in begrenztem Umfang, verfügbar sein wird.

ChatGPTChatGPT
Bildnachweis: 123RF

Welche Sicherheitsmaßnahmen sind in Sora integriert?

Bevor Sora der breiten Öffentlichkeit zugänglich gemacht wird, hat OpenAI bereits eine Reihe von Maßnahmen angekündigt, um die Risiken eines Missbrauchs dieses leistungsstarken Tools zu verringern. Das Unternehmen entwickelt derzeit Tools „um irreführende Inhalte zu erkennen“, wobei er sich insbesondere auf ein Klassifizierungssystem berief, das die Erkennung eines von Sora erstellten Videos ermöglichen solle. Es wird auch angegeben, dass die Teams planen, das Modell einzubeziehen, wenn das Modell in Zukunft in ein OpenAI-Produkt integriert werden sollte C2PA-Metadaten. Dieser offene Standard, der bereits für von DALL-E 3 generierte Bilder verwendet wird, ermöglicht es, die Herkunft von Inhalten zurückzuverfolgen, um festzustellen, ob sie von einer KI erstellt wurden oder nicht.

Sora wird auch von Sicherheitsfunktionen profitieren, die bereits in anderen seiner Dienste implementiert sind. Geplant ist ein Textklassifikator Deren Aufgabe besteht darin, Eingabeaufforderungen zu prüfen und abzulehnen, die gegen die Nutzungsrichtlinien von OpenAI verstoßen. Eingabeaufforderungen, die Inhalte mit extremer Gewalt, sexuellen Inhalten, hasserfüllten Bildern, Ähnlichkeit mit einer Berühmtheit oder der IP-Adresse eines Dritten anfordern, sind verboten. Darüber hinaus untersuchen Bildklassifikatoren die Bilder jedes generierten Videos, um sicherzustellen, dass kein Video gegen diese berühmten Nutzungsrichtlinien verstößt.

Wer sind Soras Konkurrenten?

Nach Text- und Bildgenerierungsmodellen arbeiten die Hauptakteure im Bereich der generationsübergreifenden künstlichen Intelligenz ernsthaft an der Entwicklung von Videogenerierungsmodellen. Google ist mit Gemini einer der Hauptkonkurrenten von ChatGPT und GPT-4 und stellt sich mit Lumiere auch als harter Gegner im Bereich der Videoerstellung dar. Google Lumiere, das ebenfalls nicht für die breite Öffentlichkeit zugänglich ist, ist derzeit auf Fünf-Sekunden-Videos beschränkt. Die Eingabeaufforderung kann ein Bild und nicht nur Text enthalten.

Unter den digitalen Schwergewichten interessiert sich auch Meta für das Thema, insbesondere mit Emu-Video, mit dem Sie Videos aus einer Nur-Text-Eingabeaufforderung, einer Nur-Bild-Eingabeaufforderung oder einer Kombination aus beidem erstellen können. Wir können Gen-2 von Runway zitieren, das in der Lage ist, Videos nicht nur aus Text oder Bildern, sondern auch aus einem anderen Video zu erstellen. Stable Video Diffusion und Pika sind ebenfalls ernsthafte Konkurrenten auf diesem Markt.

Leave a Reply

Your email address will not be published. Required fields are marked *