Anthropic accusé de scraping massif

Published On: juillet 27, 2024//Categories: News, IA//3 min read//512 words//
Sommaire
4b8bc05b916dc4fbaf2543f76f946e5587aaeb43 2400x1260 1

La start-up d’IA Anthropic fait face à des accusations de collecte agressive de données en ligne

Dans le monde en constante évolution de l’intelligence artificielle, une nouvelle controverse émerge. Anthropic, une start-up d’IA prometteuse, se retrouve au cœur d’une polémique concernant ses pratiques de collecte de données. Des éditeurs web accusent l’entreprise de scraping massif, une pratique qui soulève des questions éthiques et légales dans le domaine de l’IA.

Le scraping de données : une pratique controversée dans l’IA

Le scraping, ou extraction automatisée de données web, est une technique couramment utilisée par les entreprises d’IA pour alimenter leurs modèles de langage. Cependant, l’ampleur et l’agressivité de ces pratiques soulèvent des inquiétudes croissantes.

Matt Barrie, PDG de Freelancer.com, a déclaré : « Anthropic est de loin le scraper le plus agressif » de son site. Selon lui, la plateforme a reçu 3,5 millions de visites d’un « crawler » lié à Anthropic en seulement quatre heures, surpassant largement les autres acteurs du secteur.

Impact sur les sites web et leurs utilisateurs

Cette collecte massive de données n’est pas sans conséquences. Kyle Wiens, PDG d’iFixit.com, rapporte avoir reçu 1 million de requêtes des bots d’Anthropic en 24 heures, déclenchant toutes les alarmes de trafic du site. « Cela rend le site plus lent pour tout le monde et affecte finalement nos revenus », explique Barrie.

Anthropic : entre promesses éthiques et pratiques contestées

Fondée par d’anciens chercheurs d’OpenAI, Anthropic s’est positionnée comme un acteur « responsable » dans le développement de l’IA. Cependant, ces accusations remettent en question cet engagement éthique.

Face à ces allégations, Anthropic a déclaré respecter le protocole robots.txt et viser une perturbation minimale dans ses activités de crawling. L’entreprise a également indiqué qu’elle enquêtait sur les cas signalés.

Le dilemme de l’IA : données vs éthique

Cette controverse met en lumière le délicat équilibre entre le besoin de données pour entraîner les modèles d’IA et le respect de la propriété intellectuelle et des ressources des sites web. Elle soulève également des questions sur la régulation nécessaire dans ce domaine en rapide évolution.

Vers une nouvelle ère de partenariats dans l’IA ?

Alors que certaines entreprises comme OpenAI ont commencé à établir des partenariats avec des éditeurs pour accéder à leur contenu, Anthropic n’a pas encore annoncé de telles collaborations. Cette approche pourrait représenter une solution plus éthique et mutuellement bénéfique pour l’avenir de l’IA.

Eric Holscher, co-fondateur de Read the Docs, résume bien la situation : « Les crawlers d’IA agissent d’une manière qui n’est pas respectueuse envers les sites qu’ils crawlent, et cela va provoquer une réaction contre les crawlers d’IA en général. »

Alors que l’industrie de l’IA continue de se développer à un rythme effréné, il est clair que des discussions approfondies sur l’éthique, la régulation et la collaboration seront nécessaires pour assurer un développement responsable et durable de cette technologie révolutionnaire.