Actualités

La révolution des IA dans le monde de la video

Dans la dernière décennie, les IA ont connus des fortes mutations avec les avancés technologiques. Surtout en raison de l’amélioration de la puissance de calcul des ordinateurs et d’un accès très vaste à des données. Pour montrer cette révolution de l’IA dans la video on va se pencher sur 3 exemples qui poussent les possibilités encore plus loin. Que ce soit pour réaliser des vidéos publicitaires, des films corporates ou tous autres types de vidéos, voici nos conseils. N’hésitez pas à regarder notre home ou nos vidéos sur notre portfolio.

Aujourd’hui ces outils sont utilisés un peu partout dans les différentes industries, et même si ce thème revient en force depuis quelques mois, les IA sont déjà une révolution dans la video et aussi dans notre quotidien depuis longtemps. Dans les voitures autonomes, nos boites emails, dans les réseaux sociaux, les moteurs de recherche, dans les logiciels de traduction ou dans les applications de navigation, comme Waze ou Google Maps. 

Comment ça marche ?

Tout d’abord, il faut comprendre comment marche une intelligence artificielle. Les IA ne fonctionnent pas toutes de la même manière et il existe différents types d’algorithmes. Mais en général les IA apprennent à partir des données en utilisant des algorithmes mathématiques. La première étape c’est l’apprentissage, où les IA sont entraînées à partir d’un ensemble de données. 

Ensuite, l’IA utilise ces données pour apprendre à identifier des modèles et des relations entre les différentes variables.

Quand l’entraînement est fini, l’IA va pouvoir utiliser ce qu’elle a appris sur des nouvelles données. Ça peut servir à la reconnaissance vocale, reconnaissance d’image, traduction automatique, recommandation de produits ou la conduite autonome. 

Si on s’intéresse à la génération d’images et videos, il faut parler de l’IA générative, qui est capable de générer de nouveaux contenus de manière autonome (images, videos, musique, textes) à partir des données d’apprentissage. Elles imitent les créations humaines à travers des traitements automatiques du langage, de la vision par ordinateur, de la reconnaissance de la parole, de l’apprentissage en profondeur, de la génération de données et de l’optimisation.

C’est un type de IA qui est utilisé un peu partout, comme dans la création d’œuvres artistiques, la génération de contenu de jeux vidéo, dans les chatbots, génération de code ou création de contenus pour les réseaux sociaux.

« It’s much harder to generate video than photos because beyond correctly generating each pixel, the system also has to predict how they’ll change over time. » Mark Zuckerberg sur Make-A-Video, une plateforme de génération de vidéos crée par META.

Les 4 IA qui apportent un grand plus pour la video

L’IA générative peut devenir l’allié des professionnels de l’image. On peut la voir comme des outils dans la production d’art. Beaucoup d’artistes pensent déjà comme ça, comme c’est le cas de Glenn Marshal qui réalise des videos en rotoscopie sur YouTube et ensuite les modifie à l’aide de l’intelligence artificielle.

Des formes d’intelligence artificielle sont déjà présentes sur les logiciels utilisés par les artistes, comme c’est le cas des programmes d’adobe. Les nouveautés dans l’IA ont fait que aujourd’hui on a de plus en plus d’outils d’assistance, et donc beaucoup de tâches dans la production d’art sont simplifiées et font gagner du temps pour l’artiste. Mise à jour 23 février 2024

SORA

YouTube player


OpenAI a récemment annoncé le développement d’une intelligence artificielle (IA) nommée Sora, prétendument capable de produire des vidéos à partir de simples consignes textuelles. La société américaine a diffusé sur X plusieurs vidéos qu’elle affirme avoir générées avec cette technologie. Ces vidéos suscitent parfois un trouble perceptif, au point où il devient difficile de distinguer celles produites par l’IA de vidéos authentiques. Toutefois, il convient de noter que cette IA n’est pas encore accessible au grand public. Par conséquent, il est prématuré d’affirmer de manière définitive que les vidéos diffusées ont bel et bien été créées par Sora et n’ont subi aucune retouche.

RUNWAY

Runway est un logiciel de montage très complet, utilisant des capacités de machine Learning. 

Ce logiciel a été crée en 2019 aux Etats Unis, et offre plus de 30 outils et fonctions pour aider dans le processus de post-production. 

On peut trouver des outils de masquage, de correction de couleur, de compositing, de génération, de montage, de fond vert ou de tracking. On peut par exemple, enlever un objet de l’image, ou enlever le fond, ou encore mettre des tracking sur un élément de la video. Tout ça est fait directement sur le navigateur de l’utilisateur, il peut tout faire sur le logiciel et ensuite exporter le résultat final, tout comme sur un logiciel de montage traditionnel.  

Runway est disponible pour tout le monde avec un compte actif sur le site. Ils offrent trois plans, dont un qui permet d’explorer le logiciel de manière gratuite, offrant à l’utilisateur l’opportunité de créer 3 projets. 

En 2022, Runway a mis sur sa plateforme l’IA générative, GEN-1. Un outil qui permet de créer des nouvelles videos à partir de videos existants, ajoutant des différents styles : cela peut se faire avec l’aide d’une image, d’un preset suggéré par le logiciel, ou d’un prompt. Gen-1 fonctionne également sur le cloud via le site de Runway. 

Cette année, ils ont annonce la version améliorée de Gen-1, Gen-2, qui offre aussi un outil pour générer des videos à partir du texte.

Cette plateforme est déjà très connue par les professionnels dans la post-production vidéo. En effet l’équipe des effets visuels sur le film « Everything Everywhere All at Once », a utilisé la technologie pour créer certaines scènes du film.

« I used Runway for one of the moving rock scenes in the film. (…) I used it on Runway and it gave me the perfect cut out. It gave me a nice, clean cut that I can use to create my background and track everything. It was easy peasy for that one. » Evan Halleck 

REPLICATE

Replicate est une plateforme qui facilite l‘expérience de l’utilisateur pour générer du contenu avec des outils d’IA. Sur la partie Enter Replicate, l’utilisateur a accès à une grande sélection de modèles de open source, que les ingénieurs de software peuvent utiliser avec quelques lignes de code.

La plateforme offre également des modèles comme Stable diffusion, pour créer ou modifier des videos. Sur la fenêtre Explore du site, l’utilisateur peut choisir dans la collection, des différents types de modèles: génération d’audio, génération d’image à partir du texte ou de la génération de texte à partir de images, de restauration d’images ou de la génération de videos.

L’utilisateur peut choisir entre les modèles IA et recréer son propre prompt sur les modèles de génération d’images. Cette plateforme fonctionne avec Github, pour l’utiliser il faut avoir un compte Github active. 


SYNTHESIA

Dans l’univers corporate il faut souvent faire passer des messages par video. Mais ces videos peuvent être dispendieux: il faut trouver des acteurs, un lieu et l’équipement pour filmer. 

Synthesia est un logiciel qui remplace ce processus dans sa globalité, permettant de produire des videos pilotées par l’IA, à partir d’un texte et d’un avatar animé, grâce à un système de text to speech.

Pour créer une video il faut commencer par choisir le présentateur. L’utilisateur peut choisir entre plus de 125 avatars déjà présents dans le logiciel. Cependant, il est aussi possible de créer son propre avatar. Un sosie virtuel qui peut être crée à partir d’une photo. Par contre, si on choisit cette option il faudra payer une somme en plus, et la video prendra plus de temps à être généré.

Il faut écrire le script, et ensuite c’est la plateforme qui va générer la video automatiquement. En ce qui concerne l’audio, l’utilisateur peut choisir la voix et l’accent du présentateur. Il peut également choisir entre plus de 120 langues. En plus de ça, il est aussi possible d’ajouter son propre audio, et la plate-forme le synchronise avec la video par la suite.

L’utilisateur peut aussi choisir l’arrière plan de la video, la musique de fond, et il existe plus de 60 templates déjà crées que l’utilisateur peut modifier pour ajouter du texte animé à la video.

Synthesia est capable de générer des videos en haute qualité jusqu’à 30 min.

Il est possible d’utiliser synthesia pour faire tous types de videos mais les utilisations les plus courantes sont les videos de communication pour les entreprises, les videos d’entraînement, apprentissage en ligne, ou les videos tutoriels.

Synthesia permet de gagner du temps dans la création de videos professionnelles, d’économiser de l’argent dans l’équipement, les acteurs et les lieux, en plus il n’est pas nécessaire d’avoir de l’expérience préalable dans la production ou création video pour comprendre la plateforme. 

Petit bonus : Les Prompts

Un prompt c’est un court texte qui sert à indiquer à l’intelligence artificielle ce qu’on veut voir être généré. La construction d’un prompt peut varier de plateforme en plateforme. Des fois il va falloir plusieurs essaies pour trouver le résultat que l’on veut. 

La technologie IA va identifier chaque mot et chercher dans sa base de données l’image qui correspond le mieux à la description donnée par l’utilisateur. C’est pour ça qu’il faut faire une description détaillé et organisée, et surtout ne pas faire des fautes orthographes sinon l’IA ne va pas reconnaître le mot. 

Il ne faut pas oublier les éléments suivants, parce que plus votre prompt est détaillé, plus de chance on a d’avoir le résultat que l’on veut.

  • Au début d’un prompt il faut toujours mettre un terme simple qui indique le type d’oeuvre que l’on veut générer. Par exemple : Photographie, Affiche, Peinture ou Peinture digitale
  • Il faut toujours définir le sujet, ce que on veut voir apparaître (l’objet ou le personnage), avec sa description (des adjectifs de type, forme et couleur). Ainsi que sa position dans le cadre : plein cadre, décalé sur la droite.
  • La troisième étape c’est le contexte, ou se trouve le sujet ou dans quel type d’environnement. Tout ce qui entoure le sujet principal. Par exemple : Dans le soir dans une foret sombre ou Au petit matin dans le brouillard.
  • Décrire l’émotion ou le sentiment, (ce qu’on veut faire passer comme émotion par l’image). Par exemple : Joyeuse, Futuriste, Épique, Post-apocalyptique.
  • Style ou format de L’image. S’il s’agit d’une image vertical pour les réseaux sociaux ou s’il s’agit d’une image destiné à la publicité il faut le préciser, puisque ça change le style de l’image. De même si on veut donner un style spécifique à l’image, on peut utiliser le nom d’artistes déjà existants. Par exemple : Style Banksy, Style Vincent Van Gogh.
  • Info techniques (préciser le cadrage, le type d’objectif ou l’angle). On peut utiliser des termes comme : Grand-angle, Fish eye, 50 mm.
  • On peut même préciser la qualité d’image sur certaines plateformes. Et utiliser les termes HD, 4K.

Beaucoup d’artistes voient les IA comme une menace pour le futur, qui va les mettre au chômage. Parce que ces outils permettent de faire des tâches très rapidement, alors que si un humain le fera cela aurait pris beaucoup plus de temps. Alors qu’en vérité les IA ne font qu’imiter les créations humaines à travers des traitements automatiques des œuvres de ces artistes. 

Au contraire, il faut voir l’IA comme une révolution pour la video mais aussi pour les artistes, designers, rédacteurs. La possibilité pour eux d’avoir des outils qui automatisent les tâches les plus répétitives et longues pour laisser du temps à la création.