Quand les réseaux sociaux ferment l'accès à l'analyse de leurs données par les chercheurs

Quand les réseaux sociaux ferment l’accès à l’analyse de leurs données par les chercheurs

Not api :(

2

Quand les réseaux sociaux ferment l'accès à l'analyse de leurs données par les chercheurs

Twitter puis Reddit ont récemment décidé de couper l'accès gratuit à leurs api, voyant l'opportunité financière qu'ils pouvaient tirer de la vente de l'accès aux données des réseaux sociaux au moment de l'engouement pour les grands modèles de langage. Les chercheurs en sciences sociales sont les victimes collatérales de ce revirement.

L'accès gratuit aux API de certains réseaux sociaux a permis à de nombreux chercheurs en sciences sociales de se plonger dans des données et de créer de nouvelles façons d'étudier les comportements sociaux.

Que ce soit pour analyser des nouvelles pratiques numériques, des opinions politiques, des interactions entre groupes sociaux ou réaliser des études géographiques, les chercheurs en sciences sociales ont trouvé là un nouveau terrain d'étude. Un nouveau champ disciplinaire, les humanités numériques (ou digital humanities), a ainsi émergé. Bien que ce dernier ne puisse se résumer à l'étude des données des réseaux sociaux, l'accès à leurs données a joué un rôle majeur dans le développement des humanités numériques.

Des chercheuses et chercheurs s'inquiètent maintenant de se voir empêchés d'analyser ce qu'il se passe en ligne à cause de la monétisation de l'accès aux API des réseaux sociaux.

Des réseaux sociaux plus ou moins ouverts à la recherche

Les réseaux sociaux ont des politiques qui varient concernant l'utilisation de leurs API et leur ouverture aux chercheurs.  LinkedIn n'a, par exemple, jamais été très enclin à leur ouvrir ses portes.

Si Facebook et Meta n'ont pas été des plus ouverts sur le sujet, l'entreprise avait racheté CrowdTangle en novembre 2016, quelques mois après la révélation du scandale de Cambridge Analytica. Cette start-up qui fournissait des données d'analyse de divers réseaux, notamment aux médias, s'est petit à petit concentrée sur les données du groupe (venant de Facebook et Instagram) qu'elle venait d'intégrer. En 2019, Facebook ouvrait au compte-gouttes, l'accès de cette plateforme d'analyse aux chercheurs qui la contactaient. Suite à la pandémie de Covid-19, l'entreprise a agrandi sa proposition, proposant un formulaire pour faire ce genre de demandes. Mais Meta n'a jamais été au-delà. Depuis l'année dernière, CrowdTangle est laissé à l'abandon par le groupe : « Cet outil est en train de mourir » expliquait son ancien PDG Brandon Silverman devant la Commission judiciaire du Sénat des États-Unis en 2022.

TikTok s'ouvre un peu, les chercheurs méfiants

De la même façon, TikTok a longtemps laissé les chercheurs se débrouiller sans aucun outil automatique pour analyser les contenus de sa plateforme. En février dernier, alors que le monde occidental montrait de plus en plus sa méfiance envers le réseau social chinois, l'entreprise a annoncé ouvrir l'accès de son API aux chercheurs. Le mouvement reste tout relatif, puisque seuls les chercheurs installés aux États-Unis peuvent y avoir accès et seulement après l'approbation de leur demande par la division « Sécurité des données » de la branche américaine de l'entreprise. 

Suite à cette annonce, des chercheurs de Stanford ont publié une analyse détaillée des possibilités que permet cet outil. En 2022, ils avaient analysé (sans accès à l'API donc) plus de 100 heures de vidéos TikTok pour étudier les rumeurs sur les élections de mi-mandat américaines. Ils expliquent que cette API ne tient pas compte de plusieurs caractéristiques significatives du réseau social de vidéo et a des limites pour l'étude de contenus comme ceux de la page « For You » ou la recherche sur les contenus modérés. En conclusion, ils mettent en avant le fait que « la façon dont TikTok partage ses données va influencer considérablement la manière dont les chercheurs étudient TikTok ». Selon les auteurs de l'étude, cela risque de donner une « image erronée de ce qui se passe sur TikTok ».

Fermeture des deux réseaux les plus ouverts

Mais, évidemment, ce qui inquiète le plus, ce sont les fermetures des accès gratuits aux API de Twitter et Reddit. Historiquement, ce sont les deux réseaux sociaux les plus ouverts à l'étude de leurs contenus. Et les chercheurs ne se sont pas privés d'en profiter. Utilisant l'API de Twitter, des chercheurs ont, par exemple, dès 2013, utilisé la géolocalisation pour étudier [PDF] l'accès à la santé publique. Diverses études du monde politique ont aussi pu être réalisées grâce à cet outil au cours des années de vie du réseau social.

Grâce à son ouverture, Reddit a aussi donné lieu à de nombreuses études. En 2021, Sarah Gilbert et ses collègues ont par exemple publié [PDF] une analyse systématique de 727 articles scientifiques utilisant les données du réseau social publiés entre 2010 et 2020.

Réaction des chercheurs

Dans une tribune publiée dans Le Monde vendredi dernier, des chercheurs et chercheuses comme Mélanie Dulong de Rosnay, directrice Centre Internet et société du CNRS ou Frédéric Clavert, maître de conférences à l'université du Luxembourg, s'alarment du mouvement de fermeture des réseaux sociaux vis-à-vis de la recherche : « c’est un territoire social central et un champ d’exploration colossal dont l’opacité, accentuée par le recours à l’intelligence artificielle pour classer les contenus, empêche les chercheurs d’exercer leur métier  », explique-t-il.

Selon eux, cette tendance à la fermeture des réseaux sociaux freine la recherche « et bride plus largement toutes celles et tous ceux qui utilisent cette « observabilité » pour aider la société à se comprendre elle-même : sociologues, historiens, juristes, politologues, activistes, datajournalistes… ». Ils soulignent par ailleurs que les éventuelles études doivent pouvoir se faire avant que la production numérique « ne soit sélectionnée, hiérarchisée, raccourcie par des interfaces et des algorithmes ».

Prise en compte par le Digital Services Act

Cette tribune remarque que le Digital Services Act européen impose aux très grandes plateformes, à partir du 25 août, « la transmission notamment de leurs données, sur demande, par l’intermédiaire d’un coordinateur national des services numériques, dans le cadre de projets scientifiques sur la désinformation et autres "risques systémiques" ». Mais, pour ces chercheurs, cet accès reste très limité et ne prévoit qu'une mission de « police du Net ».

La Commission européenne a justement ouvert une consultation sur le sujet en mai dernier, car elle doit préciser les conditions dans lesquelles le partage des données doit avoir lieu et les finalités pour lesquelles les données peuvent être utilisées. La chercheuse Anna Lenhart, de l'Université du Maryland aux États-Unis, a analysé les réponses et explique qu' « il est clairement reconnu qu'un accès à plusieurs niveaux est nécessaire avec des données publiques/moins sensibles largement disponibles dans les API, les csv prédéfinis et les bacs à sable/salles blanches pour d'autres ensembles de données ». Elle ajoute que « concernant les API de données publiques, les commentateurs ont souligné qu'elles devraient être faciles à utiliser, gratuites/nominales, avoir des limites de débit raisonnables et être ouvertes à une large définition de « chercheur » et à un large éventail de sujets de recherche ».

Anna Lenhart observe, « sans surprise », une tension entre industriels et chercheurs sur la largeur de l'éventail de données qui devraient être partagées. Enfin, elle constate que la plupart des personnes ou organisations qui ont répondu à la consultation réclament qu'un organisme intermédiaire indépendant soit mis en place pour « gérer les différends, former des chercheurs/plateformes, conseiller le processus de vérification, définir/financer un programme de recherche, faciliter l'accès à des ensembles de données normalisés ».

Reste maintenant à la Commission de prendre en compte toutes ces contributions pour écrire un acte dont l'adoption est prévue pour le premier trimestre 2024.

Commentaires (2)


qu’ils pouvaient tirer profits de la vente de l’accès aux données des réseaux sociaux



purée !!!
“on vit dans un Monde formidable” ! :mad:


Ben… C’est la suite logique de leur business model qui est de vendre des espaces publicitaires pour des profils à des annonceurs.



Mais bon, les médias sociaux centralisés comme Twitter et compagnie sont des plateformes fermées par définition. Ca n’a donc rien d’étonnant.


Fermer