La productivité des développeurs semble baisser quand ils utilisent l’IA générative
l'artifice surestimé
Flock
Les entreprises d'IA générative promettent à leurs utilisateurs un gain de productivité. Des chercheurs d'un laboratoire privé ont mesuré, au contraire, une perte de productivité en comparant le travail de 16 développeurs expérimentés avec ou sans IA.
Le 17 juillet à 09h27
5 min
IA et algorithmes
IA
Les chercheurs du laboratoire privé METR montrent, « de façon surprenante », que l'IA générative rendrait les développeurs « plus lents » : « ils prennent 19 % plus de temps que sans », expliquent ces chercheurs dans un billet de blog vulgarisant leur travail.
Une promesse de productivité non prouvée
Pourtant, c'est LA promesse de l'intelligence artificielle : augmenter la productivité du travail. Par exemple, pour promouvoir son récent plan « Osez l'IA » conçu pour accélérer l’adoption de l’IA en entreprise, le gouvernement ose affirmer que « l'IA est un levier de compétitivité » et promet aux entreprises « 20% de productivité en plus par entreprise ». Il s'appuie, pour ça, sur un rapport de McKinsey d'il y a plus d'un an (le cabinet préfère lui-même renvoyer à un rapport plus récent) et dans lequel on peine à trouver cette affirmation.
Dans son rapport de 2024, McKinsey expliquait que 46 des 876 répondants affirmaient qu'une partie significative de leur bénéfice avant intérêts et impôts (earnings before interest and taxes, EBIT, en anglais) était attribuable à l'IA générative. Mais « 42 % de ces entreprises très performantes [affirmaient] que plus de 20 % de leur EBIT est attribuable à leur utilisation d'IA analytique et non générative ». Bref, il est encore difficile de savoir si l'IA générative est réellement un boost pour la productivité.
Une étude qualitative sur des développeurs expérimentés et des tâches réelles
Le METR a donc mis en place une expérience pour tester si les produits d'IA générative de 2025 comme Cursor Pro avec Claude 3.5/3.7 Sonnet boostaient la productivité des développeurs. Ils ont mis en ligne un article décrivant leur démarche sur la plateforme de preprint arXiv. Prévenons tout de suite les fans des études quantitatives, celle-ci est effectuée sur 16 développeurs. Ceux-ci ne sont pas représentatifs de tous les développeurs, mais l'étude ne le prétend pas.
Elle teste, par contre, qualitativement, à l'échelle de ces 16 personnes, les conséquences de l'utilisation de l'IA générative sur leur productivité. Le METR explique avoir pioché les participants dans son réseau professionnel et dans les contributeurs de projets populaires sur GitHub. « Les développeurs sont des ingénieurs logiciels expérimentés (généralement plus d'une décennie d'expérience) et contribuent régulièrement à des dépôts que nous utilisons - en moyenne, ils ont 5 ans d'expérience sur leur dépôt, ce qui représente 59 % de la durée de vie du dépôt, au cours de laquelle ils ont effectué 1 500 modifications », expliquent les chercheurs du METR. En toute transparence, ils expliquent avoir payé chaque développeur 150 dollars de l'heure pour le motiver à participer à l'expérience.
En contradiction avec les prédictions des économistes, des experts en machine learning et des développeurs eux-mêmes
Et ils expliquent, qu'au final, « de manière surprenante, [ils constatent] qu'autoriser l'utilisation de l'IA augmente en fait le temps d'exécution de 19 % ». Le constat contredit les experts en économie interrogés par les chercheurs, qui prédisaient en moyenne une productivité améliorée de 39 %, mais aussi les experts en machine learning qui prédisaient une augmentation de 38 % de cette productivité.

Ce résultat contredit aussi ce que les développeurs qui ont participé pensent eux-mêmes. Avant l'expérience, ils pensaient que l'IA générative leur permettait une augmentation de 24 % de leur productivité. Mais, même après avoir participé, ils sont encore persuadés que ces outils leur permettent d'augmenter de 20 % leur productivité.
Remarquons que ces 19 % sont une moyenne dans un écart très important. Mais, dans cette expérience, la productivité avec les outils d'IA générative reste, au mieux, aussi élevée que sans. Au pire, elle baisse de 40 %.
Moins efficace surtout sur les tâches longues
Pour élaborer ces tests, le METR a demandé à ces développeurs de lui fournir une liste de problèmes à résoudre existants vraiment dans les dépôts sur lesquels ils travaillent et de les trier en fonction du temps qu'ils estimaient devoir prendre pour les résoudre (avec et sans assistance d'une IA).
Puis ils les ont laissés travailler, parfois avec assistance d'une IA (136 problèmes), parfois sans (110 problèmes), et soumettre leur travail à leurs collègues comme d'habitude avec un « pull request » dans les dépôts sur lesquels ils travaillent. Chaque développeur a donné le temps utilisé pour effectuer chaque tâche.
Finalement, ils ont globalement mis plus de temps (1,34 fois plus) pour corriger les problèmes quand ils étaient autorisés à utiliser les outils d'IA générative que quand ils ne l'étaient pas. Remarquons qu'ils avaient pourtant prévu que ce temps diminuerait en utilisant l'IA :

En plongeant un peu plus dans les données, on peut voir que, pour les tâches ne dépassant pas une heure, ils ont mis autant de temps avec ou sans IA. Mais que pour des tâches qui leur ont pris entre 1 et 6 heures, ils allaient finalement plus vite sans outil d'IA générative :

Le METR fournit aussi des données sur le temps passé pour chaque « activité » durant ce temps de développement :

Cette étude ne montre pas que l'IA générative n'augmente jamais la productivité des développeurs. Mais ses résultats suggèrent que les développeurs très expérimentés perdent du temps lorsqu'ils utilisent des outils d'IA générative pour coder, même s'ils pensent qu'ils vont améliorer leur productivité.
La productivité des développeurs semble baisser quand ils utilisent l’IA générative
-
Une promesse de productivité non prouvée
-
Une étude qualitative sur des développeurs expérimentés et des tâches réelles
-
En contradiction avec les prédictions des économistes, des experts en machine learning et des développeurs eux-mêmes
-
Moins efficace surtout sur les tâches longues
Commentaires (28)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 17/07/2025 à 09h40
Le 17/07/2025 à 09h49
Seul le dernier graphe permet de se représenter où serait perdu ce temps.
Cela dit c'est bien d'avoir quelques nuances dans le discours pro-LLM actuel.
Le 17/07/2025 à 10h06
Par contre, plusieurs biais que j'ai pu relevé à la première lecture rapide :
- déjà, on est d'accord, 16 développeurs, c'est très peu
- le choix usage de l'IA ou non est un choix aléatoire au niveau de la tâche, pas un choix du développeur. Il serait donc beaucoup plus intéressant de voir l'impact de l'IA quand le développeur choisi de l'utiliser plutôt que quand il est imposé
- l'étude est limitée a des développeurs expérimentés (bon, c'est dit dans l'article de Next, mais je le reprécise ^^)
- pas de groupe de contrôle. L'étude prend un pool de tâches, un pool de dev, associe chacune des tâches à un dev en lui imposant ou non l'usage de l'IA. Un résultat beaucoup plus probant serait obtenu en assignant la même tâche aux développeurs, certains avec l'IA, d'autre non, et en comparant ensuite les temps entre les deux groupes
- les dev sont payés à l'heure, ce qui peut induire un biais de "ralentissement" qui ne serait pas forcément le même entre une réalisation avec et sans IA. (Avec = c'est le temps à cause de l'outil, Sans = c'est ma compétence).
Cela n'empêche pas le résultat de l'étude d'être extrêmement intéressant, simplement à prendre avec quelques pincettes.
Le 17/07/2025 à 10h43
je rajouterai à l'idée que tous les dev' aient la même tache, de faire 2 "session", une ou personne n'a droit à l'"IA" (histoire d'avoir une tendance moyenne des "performances") et une deuxième avec la moitié avec et l'autre moitié sans "IA", pour avoir un "groupe témoin" tout en sachant si le groupe témoin a de base des "performances" comparables au groupe "IA"
pour ton dernier point, même si c'est "la faute de l'outil" (pour la perte de temps), ça veut toujours dire que l'outil ne fait pas gagner de temps, ou que le développeur n'a pas les compétences nécessaires pour l'utiliser efficacement, même si l'échantillon est faible y'a un résultat clair selon moi : l'"IA" ne fait pas de miracle à elle seule et les promesses faites autour de son utilisation sont sans fondement (voire clairement mensongères car peut-être applicables dans des conditions bien précises, mais qui ne sont jamais révélées et pas applicables de manière générale)
une calculatrice peut être très pratique
cependant si on ne sait utiliser que la touche "+", on aura plus vite fait de calculer 123^56 à la main ...
Le 17/07/2025 à 11h07
Pour que tous les devs aient la même tâche il faudrait que ce soient tous des devs d’un même projet.
Il y a quand même une différence importante entre entrer dans un projet qu’on n’a jamais vu et travailler sur un projet qu’on connaît bien (ce qu’étudie l’article), et je serais surpris que le résultat soit le même si on demande à tout le monde de bosser sur une même tâche d’un projet qu’ils ne connaissent pas : dans ce cas là même pour un dev expérimenté je m’attendrais à ce qu’ils aillent beaucoup plus vite avec l’aide de l’IA (ne serait que pour la facilité à "cibler" les endroits à modifier plutôt que tatonner pour se repérer dans le code)
Le 17/07/2025 à 12h10
Le 17/07/2025 à 11h24
Si on dit maintenant qu'il faudrait poser la même question à plusieurs développeurs différents pour un même sujet. Suivant le projet ou sa forme les résultats seront différents suivant chaque développeur. Donc, il faudrait des "projets ACME" créé de toutes pièces suivant plusieurs façons de faire pour bien évaluer les développeurs avec ou sans l'usage de l'IA. Ce serait quand même un certain travail.
C'est en effet une notion subjective. D'un autre coté, ou place t-on le curseur ? Comment trouve t-on des développeurs peu expérimentés pour prendre le problème à l'envers ? Bon, quand on juge sur pièce c'est plus facile d'en trouver diront les mauvaises langues.
Quoiqu'li en soit pour faire le tri, il faudrait faire passer des tests. Et personnellement, je considère qu'un bon développeur a d'abord la tête sur les épaules. Ca pourrait compliquer les choses sur la définition de la compétence. Il faut mettre tout le monde d'accord sur le protocole dans une recherche, histoire que ce ne soit pas attaquable trop facilement.
Je considère qu'on est en train de sortir de la hype doucement. Les gens pointus qui avait testé avaient déjà vu le problème (hallucinations, code alambiqué, insertion de foin sans effet et donc sans rapport, etc.). Cette étude tend à apporter de l'eau au moulin.
Plus globalement
Lien d'une audition intéressante
Le 17/07/2025 à 11h48
Imposer un outil, c'est contre productif. C'est comme imposer une architecture microservice pour un simple blog, une base NoSQL quand un simple fichier JSON ou XML suffirait, la blockchain pour stocker des informations relationnels, etc.
Exactement.
Pour l'instant, je pense que je gagne du temps avec l'IA à titre personnel (ah ben voilà, mon égo en prend un coup avec l'étude xD). Mais justement, je ne suis pas dans le cadre de l'étude : je n'utilise que peu l'IA (type chatbot), et l'utilise sur des tâches bien ciblées.
J'utilise beaucoup plus l'IA via Github Copilot. Mais là, c'est plus de l'aide à la saisie et une autocomplétion intelligente. Et encore, maintenant, je ne suis pas foutu de savoir ce qui provient de Github Copilot ou d'Intellisence...
Si, quand je suis en train d'écrire du code, il me propose quelque chose qui correspond à ce que je souhaite (ou quasiment), alors un appuis sur Tab et j'ai le code complété, juste éventuellement à l'adapter/corriger.
Le 17/07/2025 à 14h57
Le 17/07/2025 à 17h33
Le 17/07/2025 à 18h04
Pour ça, il faudrait avoir nettement plus d'argent, alors que l'étude n'a probablement quasiment rien couté, vu que les devs ont bossé sur des problèmes sur lesquels ils auraient de toute façon bossé.
Le 17/07/2025 à 18h20
Le 17/07/2025 à 18h41
En revanche, il faut arrêter avec les tests randomisés avec groupe témoin, c'est une méthodo faite pour les validations dans l'industrie pharmaceutique, ça n'a absolument pas vocation à être utilisé dans d'autres domaines. En particulier ceux où les seuls "chiffres" dont on dispose sont ceux de l'industrie des chatbots.
Le 17/07/2025 à 22h31
Sachant que 2 dev ne te pondrons pas la même solution, on est tout à fait dans le cas où c'est plus que pertinent.
Le 18/07/2025 à 21h58
Modifié le 18/07/2025 à 22h16
Par contre, la présence d'un groupe de contrôle (ou témoin, appelle le comme tu veux) est nécessaire ici pour mesurer le plus précisément possible l'impact de l'usage (ou non) de l'IA.
Sans cela, tu ne pourras pas dire si c'est l'usage ou non de l'IA qui influe les résultats, ou simplement un autre facteur, comme le fait que des problèmes différents soient résolus par des personnes différentes.
Le 19/07/2025 à 09h43
Admettons que tu mettes un groupe de contrôle : tu auras d'autres personnes qui sont mesurées, et on pourra te reprocher qu'il y a possiblement un biais dans la sélection des membres des groupes (la notion de compétence en développement n'est pas triviale à définir).
Modifié le 20/07/2025 à 20h27
L'étude en elle-même est extrêmement intéressante. Je ne fais que relever qu'elle incorpore de nombreuses variables "non contrôlées" qui peuvent influencer très largement, dans un sens ou dans l'autre, le résultat.
La sélection des candidats, leur niveau, les problèmes sélectionnés, les temps nécessaires pour les résoudre, les estimations faites, la maitrise des technologies, la maitrise de l'IA, etc. sont autant de variables qu'il est difficile de prendre en compte (et donc de compenser) car n'ayant aucun repère fiable.
Qui plus est, et je le répète, le plus gros biais à mon sens, est quand même d'imposer au développeur le choix de la méthode. Les développeurs expérimentés à qui on va imposer de ne pas utiliser l'IA seront dans leur environnement. Les développeurs expérimentés à qui on va imposer d'utiliser l'IA ne le seront pas.
Autrement dit, qu'un développeur a qui on dit comment faire prenne plus de temps qu'un dev à qui on laisse faire son travail comme d'habitude, c'est aussi un impact. C'est d'ailleurs une des conclusions de l'article.
Le 20/07/2025 à 20h04
Pour moi, ça garantit qu'on ait une équivalence dans les tâches traitées avec et sans IA. Ce n'est pas parfait, mais ça restera mieux que les "études" (dont on ne connaitra jamais que les résultats) qui vantent l'IA à coups de 300% de productivité en plus, virez tous vos employés et devenez milliardaire en 20 minutes.
L'étude est perfectionnable, mais je trouve qu'elle pose au moins de bonnes questions et esquisse des éléments d'analyse.
Le 20/07/2025 à 20h31
Sauf que ça introduit potentiellement un gros biais sur le temps de traitement de ladite tâche. Si je te demande de planter un clou avec un tournevis, tu vas y arriver, même si ce n'est pas l'outil le plus adapté. Quand on souhaite justement mesurer l'impact de l'usage de l'IA, c'est dommage ;)
Ah mais là dessus on est totalement d'accord ;)
Le 23/07/2025 à 18h19
Modifié le 17/07/2025 à 18h27
Car pour l'utiliser depuis quelques mois de façon quotidienne, il y a un réel apprentissage pour être efficace, mes premiers essais étaient catastrophique en terme de productivité
Mais ça m'a rappelé la première fois que j'ai appris à utiliser les raccourcis clavier de mon IDE pour faire des automations, à chaque fois, le temps que je retrouve le raccourci, j'aurais été plus vite de faire 5 fois l'actions
Maintenant que c'est un automatisme, je vais bien plus vite avec
Et pour moi l'IA n'est rien d'autre qu'une amélioration des outils, comme ce que propose un IDE, et ça demande du temps pour le maîtriser et aussi pour savoir quand l'utiliser
Le 17/07/2025 à 10h57
Le 17/07/2025 à 13h58
Tu parles d'une étude. Demandez aux utilisateurs de Claude code ce qu'ils en pense.
Le 17/07/2025 à 14h11
c'est bien ça le problème, faut tester pour vérifier si "ce qu'ils en pensent" est conforme à la réalité
Le 17/07/2025 à 15h34
Le 17/07/2025 à 18h06
Le 17/07/2025 à 17h30
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?