Booster les sondages avec l’IA générative, une (fausse) bonne idée ?

IFlop

Illustration : Flock

Martin Clavey

Le 04 juin à 11h54

Avec l’arrivée de l’IA générative, un fantasme de sondeur arrive : et si on pouvait augmenter un échantillon de sondage avec l’IA générative pour le rendre plus représentatif ? Et même, allons-y, et si on pouvait sonder la population sans faire aucune enquête ? Les chercheurs en statistiques Arthur Charpentier et Guillaume Chauvet nous répondent.

Booster les sondages avec l’IA générative, une (fausse) bonne idée ?

IFlop

Illustration : Flock

Martin Clavey

Le 04 juin à 11h54

Sciences et espace

Sciences

12 min

Si peu d’entreprises de sondages ont passé le pas publiquement, elles lorgnent toutes sur l’IA générative pour booster leur production d’études. En effet, quoi de mieux pour faire baisser les coûts et augmenter la productivité de ce genre d’entreprise si l’IA générative leur permettait d’interroger beaucoup moins de personnes via téléphone ou questionnaires autoadministrés sur Internet ?

En 2024, l’IFOP a publié un premier sondage de cette espèce en s’associant avec l’entreprise FAIRGEN [PDF] dont un extrait de la notice a circulé de nouveau sur les réseaux sociaux récemment. Celui-ci s’intéressait à l’intention de vote des enseignants aux élections européennes. Il affichait s’appuyer sur « un échantillon de 8 000 personnes représentatif de la population française âgée de 18 ans et plus » incluant « l’équivalent statistique » de 580 enseignants de collège et de lycée. De fait, ce ne sont pas 580 enseignants qui ont été interrogés mais 116, dont les interviews ont été « extrapolées par la technologie DataBoostAI » développée par FAIRGEN.

« Basée sur l’IA générative, elle repose sur un principe de mise en relation holistique des données recueillies lors du terrain de façon à améliorer la précision statistique des résultats par génération d’échantillons synthétiques », ajoutait la notice sans plus de précision. Si l’entreprise de sondage avertissait sur le côté non prédictif des résultats de son travail le jour du vote, elle ne faisait aucune remarque dans ses avertissements concernant l’utilisation de l’IA générative. Si la méthodologie de ce sondage a eu de nouveaux échos récemment sur les réseaux sociaux, nous n’avons pas trouvé d’autre sondage en France de cette entreprise utilisant ce genre de technique.

Interrogé par Next, l’Ifop n’a pour l’instant pas donné suite à notre email. Elle se vante toujours sur son site d’être les « pionniers de la donnée synthétique » et d’être, « depuis 2023, le design partner de Fairgen ». « Ensemble, nous contribuons à fiabiliser cette technologie en nous appuyant sur des échantillons réels, dans le respect de la rigueur scientifique qui caractérise le Groupe Ifop », ajoute-t-elle.

Son concurrent en France, Ipsos/Bva, semble prendre un peu plus de recul avant de publier des sondages utilisant ce genre de données synthétiques. « Dans le domaine des sondages d’opinion publique, sur des enjeux électoraux, politiques ou au débat d’actualité, ce ne sont pas des choses que nous avons mises en place jusqu’à présent », nous assure Mathieu Gallard, directeur d’études chez Ipsos. Il ne rejette cependant pas totalement la possibilité d’utiliser ce genre de techniques : « Ça ne nous empêche pas pour autant de réfléchir, de faire des tests et de voir comment ça fonctionne soit sur d’autres types d’applications plus marketing soit dans d’autres pays ». À ce stade, il ne peut pas dire si cela sera le cas pour la campagne électorale qui s’ouvre dans le cadre de l’élection présidentielle de 2027.

L’intérêt ? Ce serait moins cher et plus rapide

Il reste 76% de l'article à découvrir.

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

La suite de cet article est réservée à nos abonnés

Soutenez un journalisme indépendant,
expert et sans pub.

Abonnez-vous sur next.ink/subs

Commentaires (14)

TexMex Premium

Le 4 juin à 12h47

Que dire ???

Just checking : C'est totalement chtarb ?

Right... Right...

thøth Premium

Le 4 juin à 13h40

En soi la question des données synthétiques est intéressante.

Mais pour la genAI c’est un tout autre problème, parce que la plupart des modèles sont hébergés, on ne les maîtrise pas.

Donc la question c’est plutôt de savoir si on accepte de prendre des décisions politiques en se basant sur des données générées par des boîtes noires contrôlées par des entreprises privées à but très lucratif.
Même en-dehors des sondages, je pense que pas mal de nos représentants vont être tentés de demander la réponse à une genAI plutôt que faire une commission d’enquête ou de travailler au sein des groupes d’études.

foilivier Premium

Le 4 juin à 13h36

"De fait, ce ne sont pas 580 enseignants qui ont été interrogés mais 116, dont les interviews ont été « extrapolées par la technologie DataBoostAI » développée par FAIRGEN."

Un joli nom pour une règle de trois ... ;)

stratic Premium

Le 4 juin à 13h38

C'est un premier pas vers le progrès. À terme, nous n'aurons probablement plus besoin de voter. Ce sera plus simple. Une IA désignera directement les élus.

Aprés réflexion, à l'étape suivante, on pourrait peut être aussi se passer d'élus...

thøth Premium

Modifié le 4 juin à 13h47

Reste à savoir laquelle nous dirigera : plutôt celle de Musk ? Plutôt celle que se paye Thiel (partenariat entre palantir et anthropic) ?
Tant de choix et de nuances.

Thorgalix_21 Premium

Le 4 juin à 13h55

Entre celle de Musk et Thiel, tant de choix pour peu de nuances ...

menehan Premium

Le 4 juin à 17h22

Après:"non mais c'est vrai, je l’ai lu sur internet!" le:"non mais c'est vrai: j'ai généré un sondage par IA qui dit que...".

Same. Look different. But same!

Arkeen Premium

Le 4 juin à 18h53

Je propose une nouvelle méthode encore plus mieux :

import random
print(f"{random.randint(1, 100)} %")

SebGF Premium

Le 4 juin à 20h35

Tu ne feras pas d'argent avec ça.

Ajoute un : print("AI Powered") et tu seras milliardaire.

Sbbtn Premium

Le 4 juin à 19h42

Ça devient vraiment n’importe quoi.
Comment tu veux améliorer la qualité d’un échantillon qui est déjà non représentatif, avec en plus un ajout de données fictives, quelle que soit la méthode de calcul...
Ça ne sert vraiment à rien...
Le problème qui se posera, c’est que ce type de sondage risque d’être affiché au même titre que les autres, avec uniquement un encart écrit en petit en bas de l’écran...
Vive la manipulation.

TexMex Premium

Le 4 juin à 19h52

Nan dans le monde des shadocks c'est normal.
Faut juste pédaler plus...

Atatorus Premium

Le 4 juin à 23h29

Isaac Asimov avait raison !

iridium77 Premium

Le 4 juin à 23h45

Alors si déjà peut être qu'on pouvais faire des trucs moins bête en fabriquant de fausses personnes en synthtetisant les données utilisées pour servir les pubs en rajoutant les conversations IA, mixer le tout et donc recréer un profil d'un internaute avec ses caractéristiques pour postuler une réponse IA.

Xgluk Premium

Le 6 juin à 08h26

Il n'y a pas un truc qui dit que nous, animaux sociaux, on a tendance à nous conformer aux sondages? Du coup ces sondages bidon deviennent plus ou moins vrai à partir du moment où ils sont diffusés...