L’INA propose de passer cinq ans de médias au crible de l’IA

Intelligence Nationale Artificielle

L’INA a ouvert jeudi une plateforme dédiée à l’analyse des tendances médiatiques, sur un corpus de cinq ans d’archive. Sous-tendu par plusieurs outils d’IA, le projet permet par exemple d’explorer l’évolution des occurrences d’un mot donné sur les chaines d’information en continu. Le tout avec une méthodologie qui se veut transparente.

Alexandre Laurent

Le 04 octobre à 14h30

5 min

Société numérique

Société

Les amateurs de linguistique ou de sociologie des médias vont pouvoir s’en donner à cœur joie. L’INA, l’organisme public chargé de valoriser les archives audiovisuelles et numériques, a mis en ligne sur data.ina.fr une plateforme de visualisation de données qui permet de naviguer de façon très intuitive dans un corpus de cinq ans d’émissions radio et TV diffusées entre 2019 et 2024. Dans le détail, il promet l’accès à 700 000 heures de programmes : des journaux télévisés, le flux des chaines d’information en continu et les matinales de radio.

Montrer la tendance de l’usage d’un nom ou d’un mot

À la différence de certains outils développés par l’INA en direction du monde universitaire, cette nouvelle plateforme se veut tournée vers le grand public. Il n’est donc pas question d’accéder directement aux jeux de données, mais plutôt de les explorer par l’intermédiaire d’entrées, qui font office de grille de lecture, pour analyser l’évolution du traitement médiatique au fil des cinq années couvertes par le corpus : nom de personnalité, mot clé, lieu géographique, ou répartition du temps de parole entre les femmes et les hommes.

La plateforme permet ainsi de comparer très simplement la fréquence de mentions relatives à des personnalités politiques, en visualisant les différences de traitement d’une chaîne à l’autre. Elle propose aussi de visualiser l’ampleur de certains phénomènes médiatiques : ci-dessus, une recherche sur le terme « intelligence artificielle » illustre par exemple comment les chaînes de télévision se sont emparées du sujet suite à la sortie de ChatGPT.

D’autres requêtes livrent des résultats plus subtils. « Avec data.ina.fr, on peut comprendre des évolutions de société saisissantes, en réalisant que « metoo » n'a jamais été autant prononcée sur les chaînes infos françaises qu'au cours du premier semestre 2024 - ce qui en dit long sur la manière dont un seul message posté sur twitter en octobre 2017 peut produire des effets structurels sur les termes du débat public sept années plus tard », illustre par exemple sur LinkedIn Antoine Baylet, directeur éditorial de l’INA.

Un décompte réalisé par trois IA

Sur tous les écrans de sa plateforme, l’INA procède à des rappels méthodologiques, qui commencent par une mention systématique : l’exploration repose sur une transcription de la parole prononcée dans des archives audio ou vidéo réalisée de façon automatique.

L’institut de Bry-sur-Marne exploite pour ce faire trois outils d’intelligence artificielle, dont deux sont externes : Whisper, l’outil de transcription speech to text d’OpenAI, et TextRazor, une API d’extraction de mots clé d’origine britannique. L’INA y ajoute une troisième brique, développée en interne cette fois. Baptisée INASpeechSegmenter, elle calcule « la répartition des sons entre la parole des femmes, des hommes, le bruit, la musique et le silence dans un document audiovisuel », explique la FAQ du site.

Une procédure de contrôle basée sur des échantillons

Reste une dernière étape, et non des moindres pour que l’outil tienne sa promesse : contrôler sa fiabilité. Sur ce point, l’INA se veut là aussi transparente, avec un processus en quatre étapes détaillé dans sa FAQ, qui commence par une vérification de la complétude et de l’intégrité des sources. L’institut indique ne pas chercher à corriger les éventuelles aberrations de la reconnaissance automatique : les transcriptions fautives sont simplement écartées. La clé de lecture « Personnalités » (qui sera sans doute l’une des plus utilisées) a quant à elle fait l’objet d’un contrôle de pertinence sous forme de vérifications manuelles d’extraits sur l’équivalent de 1050 « top 20 ». Enfin, les équipes de l’INA expliquent avoir procédé à la transcription manuelle de 120 extraits de cinq minutes inscrits dans le corpus, pour vérifier l’efficacité du traitement automatisé. « On obtient ainsi un taux de confiance de 83% pour l’association de Whisper et TextRazor », indique l’INA, qui dispose par ailleurs de jeux de données spécifiques dédiés au monde de la recherche.

Faute de pouvoir résoudre toutes les confusions liées aux homonymies, la plateforme s’efforce par ailleurs d’alerter en cas de risque, par exemple quand le nom d’une personnalité est susceptible d’être confondu avec celui d’une marque ou d’un monument.

Commentaires (6)

linkin623 Abonné

Le 04/10/2024 à 15h27

Aller un ptit spoiler, pas besoin de faire turbiner des GPU au nucléaire:
- Guerre
- Immigration
- Gouvernement & népotisme
- Macron
- Hannouna
- Émissions de chansons (toujours les mêmes...)
- Beaucoup, beaucoup de publicités
- Foot
.......
- Nazis (au moins une soirée dédiée chaque semaine sur Arte)

Alexandre Laurent Équipe

Le 04/10/2024 à 16h28

Ce résumé peut-être un peu caricatural

ne rend pas hommage à l'intérêt - réel - de la plateforme

guimoploup

Le 04/10/2024 à 16h26

Je ne sais pas quelles années l'INA va choisir.
Si ils prennent les 5 dernières années, peu de chance que cela fonctionne, tellement le "I" de IA risque de manquer :) L'algorithme d'apprentissage risque de se retrouver en PLS

Alexandre Laurent Équipe

Le 04/10/2024 à 16h29

Le corpus couvre du 1er janvier 19 au 30 juin 24. A défaut d'intelligence, il y a eu beaucoup de phénomènes médiatiques intenses sur cette période !

1.1.1.1 Abonné

Modifié le 04/10/2024 à 17h54

Ok ça fonctionne, mais ça concerne uniquement les JT du soir de cinq chaines, sur les cinq dernières années.
Avec Google Trends, on a peu ou prou les mêmes courbes avec vingt années d'historique.
Un exemple avec le terme "antisémitisme" (en bleu sur Trends) :

Pour "intelligence artificielle" :

SebGF Abonné

Le 04/10/2024 à 18h13

L'idée est sympa, par contre la section par mot-clé est bloquée par cookie wall qui m'a obligé de passer en navigation privée pour désactiver les trackers. Un peu regrettable de la part d'un institut public.

Les autres sections par thématique sont assez intéressantes, notamment la différence des temps de parole homme/femmes selon les chaines. On constate une certaine régularité dans les résultats avec un écart pas spécialement élevé, même si déséquilibré en la faveur des hommes, sur la plupart des chaînes, sauf Canal+ où c'est plus en retrait pour les femmes.