ACTUALITETHE PROMPT

Google recycle le web pour ses IA, même quand on lui dit non

Le procès antitrust en cours aux États-Unis met en lumière les pratiques de Google en matière d’entraînement de ses modèles d’intelligence artificielle. Au centre des interrogations : l’usage des contenus publiés en ligne, même lorsque leurs auteurs ont explicitement refusé qu’ils soient utilisés à cette fin.

Le 3 mai dernier, dans le cadre d’une audience devant un tribunal fédéral à Washington, Eli Collins, vice-président en charge du produit chez Google DeepMind, a confirmé un point technique aux implications majeures : les équipes en charge de la recherche chez Google peuvent entraîner leurs produits d’intelligence artificielle, comme les “AI Overviews”, sur des contenus web dont les éditeurs ont demandé l’exclusion du processus d’entraînement. Le filtre d’exclusion, basé sur le fichier robots.txt, ne s’applique en effet qu’aux modèles développés par DeepMind. Il ne régule pas les usages faits par d’autres divisions du groupe, notamment celle en charge du moteur de recherche.

Un choix binaire pour les éditeurs de contenus

Cette distinction interne crée une situation singulière. Les éditeurs disposent bien d’un moyen technique de signaler leur refus de voir leur contenu utilisé pour former les modèles d’IA : le fichier robots.txt, largement utilisé depuis les débuts du web pour contrôler l’indexation par les moteurs. Toutefois, Google a précisé que l’exclusion des contenus de l’entraînement IA n’est possible que si ces contenus sont également exclus de l’indexation dans le moteur de recherche.

Autrement dit, les éditeurs doivent choisir : accepter que leurs contenus participent à l’entraînement des produits d’IA de Google, ou renoncer à leur visibilité dans le moteur. Un dilemme difficile à arbitrer tant les conséquences sont lourdes pour les acteurs dépendant du référencement pour leur trafic et leurs revenus.

Des volumes massifs de données, partiellement filtrés

Un document interne présenté à l’audience révèle qu’en août 2024, Google aurait retiré 80 milliards de “tokens” (unités de texte) sur un total de 160 milliards après avoir appliqué les filtres d’exclusion. Cette opération marque une tentative de prise en compte des préférences des éditeurs, mais ne constitue qu’un filtre partiel. Le même document mentionne également l’utilisation de données issues des sessions de recherche, de vidéos YouTube et d’autres interactions avec les services de Google pour améliorer les modèles.

Ces données, souvent comportementales, ne sont pas soumises aux mêmes mécanismes de contrôle que les contenus web. Elles confèrent à Google un avantage structurel dans la constitution de jeux de données internes pour l’entraînement de ses IA.

Une boucle d’amélioration continue

Les réponses générées par l’IA dans les résultats de recherche — en haut de page, avant les liens classiques — suscitent une inquiétude croissante. Plusieurs éditeurs de sites web estiment que ces réponses diminuent le nombre de clics redirigés vers leurs pages, au profit d’une information résumée directement dans l’interface de recherche. Ce phénomène accentue non seulement la dépendance à la plateforme, mais réduit les perspectives économiques des producteurs de contenu.

Dans le même temps, les modèles d’IA intégrés à la recherche bénéficient d’une exposition massive, et sont continuellement améliorés par l’interaction des utilisateurs avec les services Google. Cette boucle — collecte de données, génération de réponses, captation de l’attention, nouvel entraînement — renforce progressivement la qualité des services proposés, et renforce significativement la position de Google.

Une dimension concurrentielle et juridique

Le procès en cours, intenté par le Département de la Justice américain, cherche à déterminer si les pratiques de Google en matière de recherche et d’intelligence artificielle enfreignent les lois antitrust. Parmi les propositions évoquées : l’interdiction de contrats par lesquels Google devient le moteur de recherche par défaut, ou encore la cession de son navigateur Chrome. Les autorités souhaitent également imposer des restrictions à la manière dont les données collectées via la recherche peuvent être utilisées pour entraîner les modèles IA.

Lors de l’audience, Diana Aguilar, représentant le DOJ, a cité un document interne dans lequel le CEO de DeepMind, Demis Hassabis, évoquait la possibilité d’entraîner un modèle avec les données de classement issues du moteur de recherche, afin d’évaluer l’amélioration obtenue.

Une régulation encore floue

L’affaire illustre la complexité des mécanismes de gouvernance autour de l’IA, et la difficulté pour les régulateurs à suivre l’évolution rapide des pratiques. Si le robots.txt demeure un outil utile pour encadrer l’indexation, il apparaît insuffisant face à l’intégration de l’IA dans les interfaces de recherche.

Le débat ouvert par ce procès dépasse le seul cas de Google. Il interroge la manière dont les entreprises technologiques peuvent constituer et exploiter des avantages compétitifs à partir de ressources qui relèvent, en partie, du domaine public ou des productions de tiers. Il pose également la question d’une régulation effective, capable de distinguer les usages légitimes de l’IA des pratiques pouvant renforcer une situation de domination.

Suivez nous:
Bouton retour en haut de la page