X n’entrainera plus son IA Grok avec les données de ses utilisateurs européens

Le 05 septembre 2024 à 09h20

2 min

IA et algorithmes

La Data Protection Commission (DPC), l'équivalent de la CNIL en Irlande, a annoncé mercredi 4 septembre avoir trouvé un accord avec le réseau social X. Celui-ci s'est engagé à arrêter d'entrainer Grok avec les données publiques (en clair, les tweets) de ses utilisateurs européens.

En aout, l'entreprise d'Elon Musk avait déjà suspendu ce traitement suite à la saisie de la Haute cour irlandaise par la DPC sur les bases de la loi irlandaise de protection des données votée en 2018.

La DPC explique avoir adressé parallèlement une demande d'avis au Comité européen de la protection des données (CEPD) pour éclaircir les modalités légales encadrant l'entrainement des modèles d'IA, notamment à propos de la base juridique invoquée par le responsable du traitement des données pour fonder ce traitement.

Le mois dernier, le responsable de la DPC, Des Hogan, expliquait vouloir étudier la compatibilité de ce traitement avec le RGPD : « mon collègue, le commissaire Dale Sunderland, et moi-même nous félicitons que la société X ait accepté de suspendre le traitement des données pendant que la DPC, en collaboration avec nos homologues de l'UE et de l'EEE, continue d'examiner dans quelle mesure le traitement des données est conforme au RGPD ».

Depuis le mois de mai, X a mis en place un système d'opt out pour tous ses utilisateurs, tout en restant discret sur le sujet.

Martin Clavey

Le 05 septembre 2024 à 09h20

Commentaires (12)

Abonnez-vous pour prendre part au débat

Déjà abonné ? Se connecter

Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles

Profitez d’un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

SebGF Abonné

Le 05/09/2024 à 09h24

Bon, y'a plus qu'à attendre l'actu qui dira qu'en réalité l'opt-out devenu opt-in est resté de l'opt-out avec une case inutilisée par le serveur.

fdorin Abonné

Le 05/09/2024 à 09h40

Bah, c'est pas grâve. X a déjà récupéré suffisamment de ~~déjections~~ tweets pour ne pas avoir besoin d'en récolter de nouveaux avant longtemps

SebGF Abonné

Le 05/09/2024 à 10h19

Remarque, je suis quand même curieux de savoir si un process d'entraînement d'IA est aussi sujet au shit in, shit out.

Martin Clavey Équipe

Le 05/09/2024 à 11h32

Voir sur le sujet L’entrainement sur des données synthétiques, talon d’Achille de l’IA générative (avec son sous-titre et Les IA génératives tournent mal quand elles sont entraînées sur leurs propres données ;)

SebGF Abonné

Le 05/09/2024 à 13h07

Non ce n'est pas ce que j'avais en tête. Ce procédé a effectivement démontré son inefficacité, comme la photocopie d'une photocopie avec une dégradation continue à chaque itération.

Je parlais plutôt du contenu qu'on pourrait estimer faiblement qualitatif (même si ça reste très subjectif) comme des posts de médias sociaux. Quels seraient l'impact sur le modèle ?

En principe, celui-ci ne fait "que" d'associer des poids à des bouts de mots selon des contextes donnés. Il apprend à lire, pour résumer simplement. Mais quel serait l'impact d'apprendre à lire sur des contenus provenant de médias sociaux versus les corpus de texte plus habituels comme Wikipedia, les oeuvres littéraires du domaine public, toussa.

jpaul

Le 06/09/2024 à 08h11

Ou même pas. Franchement les LLM sont fondamentalement une telle boîte noire y compris pour les gens qui les entraînent que c’est juste quasi impossible de prouver depuis quoi cela a été entraîné. Au début des LLM on a eu quelques hallucinations où le truc pouvait ressortir des chapitres entiers de bouquins mais il me semble que ça s’est perfectionné et que ça n’arrive quasi plus. Alors pour des tweets …

À partir de là c’est juste open bar, tu scrapes tout ce que tu peux et tu peux jurer que tu fais attention. C’est pas comme si le LLM stockait quelque part ce qu’il a lu.

(C’est basiquement le même problème que pour les contenus soumis au droits d’auteur)

SebGF Abonné

Le 06/09/2024 à 09h53

Le phénomène que tu cites n'est pas l'hallucination mais la mémorisation. Là où halluciner est considéré (même si y'a des opinions divergentes) comme une force des LLM, la mémorisation est un problème car il n'est pas censé pouvoir recracher des données d'entraînement.

Cf mon résumé du principe de fonctionnement dans mon message.

Jarodd Abonné

Le 05/09/2024 à 09h49

Que deviennent les données déjà collectées ?

sitesref Abonné

Le 05/09/2024 à 13h51

Mais qui peut croire ces gens sur parole ? Y a-t-il une vérification indépendante qui est faite ?

fred42 Abonné

Le 05/09/2024 à 13h56

Les CNIL ont le pouvoir de vérifier.

sitesref Abonné

Le 05/09/2024 à 21h28

S'agissant de la DPC, on sait à quoi s'en tenir vu leur absence permanente de volonté de faire respecter les règles.

Gilbert_Gosseyn Abonné

Le 05/09/2024 à 14h33

Perso, je suis sûr qu'ils continueront étant donné qu'ils sont en guerre ouverte (et en mode balek) avc l'Union Européenne.

Catégories

Nous Suivre

À propos

X n’entrainera plus son IA Grok avec les données de ses utilisateurs européens

Commentaires (12)