Générateur vidéo IA Runway : controverse sur les données d’entrainement

Published On: juillet 26, 2024//Categories: News, IA//3 min read//587 words//
1703205214

Le géant de l’IA créative sous le feu des critiques

Runway, la startup spécialisée dans l’IA générative vidéo, fait face à une polémique concernant ses méthodes d’entraînement. Selon une enquête menée par 404 Media, l’entreprise aurait utilisé des milliers de vidéos YouTube et de films piratés pour former son modèle d’intelligence artificielle. Cette révélation soulève de sérieuses questions éthiques et légales sur les pratiques de l’industrie de l’IA.

Un dataset massif et controversé

Un document confidentiel obtenu par 404 Media révèle l’ampleur du dataset utilisé par Runway. On y trouve des liens vers des chaînes YouTube appartenant à des géants du divertissement comme Netflix, Disney et Nintendo, mais aussi à des créateurs de contenu populaires tels que MKBHD et Linus Tech Tips. Plus surprenant encore, des médias comme The Verge et Wired figurent également dans cette liste.

Un ancien employé de Runway a déclaré à 404 Media : « Les chaînes présentes dans ce tableur résultent d’un effort collectif pour trouver des vidéos de qualité afin de construire le modèle. Ces données ont ensuite été utilisées comme input pour un énorme web crawler qui a téléchargé toutes les vidéos de ces chaînes, en utilisant des proxys pour éviter d’être bloqué par Google. »

Des sources douteuses

Au-delà des contenus YouTube, le dataset de Runway contiendrait également des liens vers des sites de streaming illégaux comme KissCartoon. Cette utilisation de contenus piratés pour entraîner une IA commerciale soulève de sérieuses questions juridiques.

Gen-3 Alpha : l’IA générative au cœur de la tempête

Runway a récemment lancé Gen-3 Alpha, un outil capable de « créer des vidéos dans n’importe quel style imaginable ». Si les capacités de cet outil sont impressionnantes, elles reposent sur un apprentissage massif qui semble maintenant controversé.

Anastasis Germanidis, cofondateur de Runway, a déclaré à TechCrunch en juin que l’entreprise utilise des « datasets internes et curés » pour entraîner ses modèles, sans fournir plus de détails. Cette opacité alimente les inquiétudes quant aux pratiques de l’entreprise.

Une industrie sous pression

Runway n’est pas la seule entreprise d’IA à faire face à ce type de controverse. OpenAI, Anthropic, Apple et Salesforce ont également été accusés d’avoir utilisé des vidéos YouTube sans autorisation pour entraîner leurs modèles d’IA.

Neal Mohan, PDG de YouTube, a récemment déclaré à Bloomberg que l’utilisation de vidéos de la plateforme pour entraîner des IA était « une violation claire » de leurs politiques. Cette prise de position pourrait avoir des répercussions importantes sur l’industrie de l’IA générative.

Vers une régulation de l’IA générative ?

Cette affaire met en lumière le besoin urgent de clarifier les règles entourant l’utilisation de contenus protégés par le droit d’auteur pour l’entraînement des IA. Alors que ces technologies révolutionnent la création de contenu, il est crucial de trouver un équilibre entre innovation et respect de la propriété intellectuelle.

L’analogie du ninja data-cueilleur s’impose ici : tout comme un ninja doit maîtriser l’art de se faufiler sans se faire repérer, les entreprises d’IA doivent apprendre à naviguer dans le paysage complexe des droits d’auteur à l’ère numérique. La question est de savoir si elles y parviendront sans se faire prendre la main dans le sac de données.