X n’entrainera plus son IA Grok avec les données de ses utilisateurs européens

La Data Protection Commission (DPC), l'équivalent de la CNIL en Irlande, a annoncé mercredi 4 septembre avoir trouvé un accord avec le réseau social X. Celui-ci s'est engagé à arrêter d'entrainer Grok avec les données publiques (en clair, les tweets) de ses utilisateurs européens.

En aout, l'entreprise d'Elon Musk avait déjà suspendu ce traitement suite à la saisie de la Haute cour irlandaise par la DPC sur les bases de la loi irlandaise de protection des données votée en 2018.

La DPC explique avoir adressé parallèlement une demande d'avis au Comité européen de la protection des données (CEPD) pour éclaircir les modalités légales encadrant l'entrainement des modèles d'IA, notamment à propos de la base juridique invoquée par le responsable du traitement des données pour fonder ce traitement.

Le mois dernier, le responsable de la DPC, Des Hogan, expliquait vouloir étudier la compatibilité de ce traitement avec le RGPD : « mon collègue, le commissaire Dale Sunderland, et moi-même nous félicitons que la société X ait accepté de suspendre le traitement des données pendant que la DPC, en collaboration avec nos homologues de l'UE et de l'EEE, continue d'examiner dans quelle mesure le traitement des données est conforme au RGPD ».

Depuis le mois de mai, X a mis en place un système d'opt out pour tous ses utilisateurs, tout en restant discret sur le sujet.

Commentaires (12)


Bon, y'a plus qu'à attendre l'actu qui dira qu'en réalité l'opt-out devenu opt-in est resté de l'opt-out avec une case inutilisée par le serveur.
Bah, c'est pas grâve. X a déjà récupéré suffisamment de déjections tweets pour ne pas avoir besoin d'en récolter de nouveaux avant longtemps :D

fdorin

Bah, c'est pas grâve. X a déjà récupéré suffisamment de déjections tweets pour ne pas avoir besoin d'en récolter de nouveaux avant longtemps :D
Remarque, je suis quand même curieux de savoir si un process d'entraînement d'IA est aussi sujet au shit in, shit out.

SebGF

Remarque, je suis quand même curieux de savoir si un process d'entraînement d'IA est aussi sujet au shit in, shit out.
Non ce n'est pas ce que j'avais en tête. Ce procédé a effectivement démontré son inefficacité, comme la photocopie d'une photocopie avec une dégradation continue à chaque itération.

Je parlais plutôt du contenu qu'on pourrait estimer faiblement qualitatif (même si ça reste très subjectif) comme des posts de médias sociaux. Quels seraient l'impact sur le modèle ?

En principe, celui-ci ne fait "que" d'associer des poids à des bouts de mots selon des contextes donnés. Il apprend à lire, pour résumer simplement. Mais quel serait l'impact d'apprendre à lire sur des contenus provenant de médias sociaux versus les corpus de texte plus habituels comme Wikipedia, les oeuvres littéraires du domaine public, toussa.
Ou même pas. Franchement les LLM sont fondamentalement une telle boîte noire y compris pour les gens qui les entraînent que c’est juste quasi impossible de prouver depuis quoi cela a été entraîné. Au début des LLM on a eu quelques hallucinations où le truc pouvait ressortir des chapitres entiers de bouquins mais il me semble que ça s’est perfectionné et que ça n’arrive quasi plus. Alors pour des tweets …

À partir de là c’est juste open bar, tu scrapes tout ce que tu peux et tu peux jurer que tu fais attention. C’est pas comme si le LLM stockait quelque part ce qu’il a lu.

(C’est basiquement le même problème que pour les contenus soumis au droits d’auteur)

jpaul

Ou même pas. Franchement les LLM sont fondamentalement une telle boîte noire y compris pour les gens qui les entraînent que c’est juste quasi impossible de prouver depuis quoi cela a été entraîné. Au début des LLM on a eu quelques hallucinations où le truc pouvait ressortir des chapitres entiers de bouquins mais il me semble que ça s’est perfectionné et que ça n’arrive quasi plus. Alors pour des tweets …

À partir de là c’est juste open bar, tu scrapes tout ce que tu peux et tu peux jurer que tu fais attention. C’est pas comme si le LLM stockait quelque part ce qu’il a lu.

(C’est basiquement le même problème que pour les contenus soumis au droits d’auteur)
Le phénomène que tu cites n'est pas l'hallucination mais la mémorisation. Là où halluciner est considéré (même si y'a des opinions divergentes) comme une force des LLM, la mémorisation est un problème car il n'est pas censé pouvoir recracher des données d'entraînement.

Cf mon résumé du principe de fonctionnement dans mon message.
Que deviennent les données déjà collectées ?
Mais qui peut croire ces gens sur parole ? Y a-t-il une vérification indépendante qui est faite ?
Les CNIL ont le pouvoir de vérifier.

fred42

Les CNIL ont le pouvoir de vérifier.
S'agissant de la DPC, on sait à quoi s'en tenir vu leur absence permanente de volonté de faire respecter les règles.
Perso, je suis sûr qu'ils continueront étant donné qu'ils sont en guerre ouverte (et en mode balek) avc l'Union Européenne.
Fermer