OpenAI a annoncé jeudi le lancement, auprès d’un public restreint, d’une nouvelle interface d’intelligence artificielle (IA) générative, baptisée Sora et capable de créer des séquences vidéo sur simple demande sous forme de texte en langage courant.

La start-up de San Francisco n’est pas la première à proposer un logiciel vidéo qui s’appuie sur l’IA générative.

Une autre jeune société, Runway, a lancé Gen-2 en juin, avec des séquences de quelques secondes, tandis que Google prépare Lumiere et Meta, Emu, qui ne sont pas encore accessibles à des utilisateurs tiers.

A en croire la description du logiciel et des exemples présentés sur le site d’OpenAI, Sora apparaît comme l’interface disponible la plus aboutie à ce jour.

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

A partir d’une requête simple, demandant « des images de la Californie durant la ruée vers l’or », Sora a livré un film d’une ville typique du XIXe siècle, comme tourné au drone, qui ressemble à des images d’archives.

Un autre montre une femme japonaise marchant dans une rue de Tokyo, avec des changements d’angles de caméra. Elle est longue d’une minute, la durée maximum que permet Sora en l’état.

Seuls ont, pour l’heure, accès à l’interface des « experts de domaine comme la désinformation, les contenus à caractère haineux et les biais ».

Ils vont tester le modèle de façon « adversariale », c’est-à-dire en lui demandant de créer des contenus qui sont théoriquement jugés inacceptables.

Prompt: The camera directly faces colorful buildings in burano italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.

OpenAI souhaite ainsi se servir de ce retour d’expérience pour fixer des garde-fous à Sora, afin qu’il « rejette des demandes qui sont contraires à nos règlements, notamment celles qui comprennent de l’extrême violence, du sexe, des images haineuses, des célébrités ou du contenu protégé par le droit de la propriété intellectuelle ».

Le créateur de ChatGPT a également donné accès à des artistes visuels, des designers et des réalisateurs pour mieux comprendre « comment travailler à ce que le modèle soit le plus utile pour les professionnels de la création ».

A même de générer une vidéo grâce à une demande écrite, Sora peut aussi le faire à partir d’une image.

L’interface est, de même, en mesure de produire une séquence qui va prolonger la durée d’un film existant ou de reconstituer d’éventuels passages manquants d’une vidéo.