Bluesky n’utilise pas les données pour entrainer ses IA, mais d’autres le peuvent

Le 28 novembre à 08h57

2 min

Réseaux sociaux

Sociaux

Bluesky a actuellement le vent en poupe. Devant l’arrivée de millions de nouveaux utilisateurs, le réseau a quadruplé la taille de son équipe de modération, tandis que la Commission européenne surveille une potentielle future application du DSA.

Bluesky est-il décentralisé ?

Bluesky a également précisé mi-novembre que les données des utilisateurs ne seraient pas utilisées. « Nous n'utilisons aucun de vos contenus pour entraîner l'IA générative, et nous n'avons pas l'intention de le faire », a ainsi promis l’entreprise. Dans un autre message, elle a précisé que l’IA était utilisée pour l’aide à la modération et pour le flux algorithmique Discover.

Hier cependant, la société a publié quelques précisions importantes, notamment l’aspect public des informations qui y sont publiées, ce que nous relevions dans un récent article. Traduction : ce n’est pas parce que Bluesky n’utilisera pas les données de ses utilisateurs que d’autres ne se gêneront pas pour les aspirer.

Bluesky indique donc réfléchir à l’arrivée d’un nouveau paramètre qui, à l’instar du fichier robots.txt des sites web, pourrait indiquer si les données d’un compte peuvent être reprises. « Par exemple, cela pourrait ressembler à un paramètre qui permet aux utilisateurs de Bluesky de spécifier s'ils consentent à ce que des développeurs externes utilisent leur contenu dans des ensembles de données d'entraînement à l'IA. Bluesky ne sera pas en mesure de faire respecter ce consentement en dehors de nos systèmes », a expliqué le réseau.

Problème, « il appartiendra aux développeurs extérieurs de respecter ces paramètres ». En d’autres termes, le respect de ce choix ne sera pas garanti. Certains se penchent déjà sur le filon, comme l’a rapporté 404 Media il y a deux jours. Un « bibliothécaire de machine learning » de Hugging Face, Daniel van Strien, a ainsi aspiré un million de publications à des fins de recherches. Suite à la polémique qui a suivi, il a supprimé les données dans son dépôt et s’est excusé d’avoir « violé les principes de transparence et de consentement dans la collecte de données ».

Vincent Hermann

Le 28 novembre à 08h57

Commentaires (9)

Gilbert_Gosseyn Abonné

Le 28/11/2024 à 09h15

Autant dire que les Meta, Alphabet (Google), Amazon et Microsoft se frottent les mains et sont déjà partis à l'assaut de ces données.

SebGF Abonné

Le 28/11/2024 à 09h36

De toute façon il faut rappeler que tout ce qui est public est... public. Et donc n'importe qui peut faire n'importe quoi avec.

Furanku Abonné

Le 28/11/2024 à 09h43

Oui mais non. En théorie il y a quand même des cadres pour limiter ce que l'on peut faire des données publiques, que ce soit dans les conditions générales des plateformes ou encore par la Loi.

En théorie...

SebGF Abonné

Modifié le 28/11/2024 à 09h52

En théorie j'ai besoin d'un permis pour conduire une voiture. En théorie ;)

N'oublions pas que le mot d'ordre reste : Ask for forgiveness, not permission.

La portée de mon message était : prenez conscience que tout le monde n'et pas un Chevalier Blanc de Vertu et qu'il y a des requins qui vont forcément scrapper.

Furanku Abonné

Le 28/11/2024 à 11h15

Comme OpenAI ou NVIDIA ?

SebGF Abonné

Le 28/11/2024 à 11h41

Pas que. Cf Clearview par exemple.

Et autres réseaux encore moins bien intentionnés qui collectent les données publiques sans savoir ce qui en est fait. (sans oublier évidemment le renseignement étatique et j'en passe)

Au final, c'est un problème vieux comme le Web : si c'est public, c'est public et c'est récupérable / exploitable par n'importe qui et n'importe quoi.

anagrys Abonné

Le 29/11/2024 à 10h47

On pourrait te faire la même réponse : oui mais non.
En pratique, tout ce que tu postes n'importe où sur le web pourra être repris, modifié, réutilisé, et bien sûr sans aucune possibilité de contrôle de ta part. C'est la première chose que j'essaierai de faire comprendre à mes enfants quand ils feront leurs débuts sur les réseaux sociaux.

127.0.0.1

Le 28/11/2024 à 09h40

Bluesky indique donc réfléchir à l’arrivée d’un nouveau paramètre qui, à l’instar du fichier robots.txt des sites web, pourrait indiquer si les données d’un compte peuvent être reprises.

RFC 35140 Do-Not-Stab.

severo_bo Abonné

Le 28/11/2024 à 15h22

à noter que PLOS ONE a publié ce mois-ci un article scientifique qui publie un jeu de données encore plus gros : https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0310330. Le jeu de données est ici : https://zenodo.org/records/11082879 et n'a pas encore été dépublié.

The dataset contains the complete post history of over 4M users (81% of all registered accounts), totaling 235M posts.

S'abonner à

Bluesky n’utilise pas les données pour entrainer ses IA, mais d’autres le peuvent

Commentaires (9)

Vous devez être abonné pour pouvoir commenter.

Bluesky n’utilise pas les données pour entrainer ses IA, mais d’autres le peuvent