Connexion Abonnez-vous

La productivité des développeurs semble baisser quand ils utilisent l’IA générative

l'artifice surestimé

La productivité des développeurs semble baisser quand ils utilisent l’IA générative

Flock

Les entreprises d'IA générative promettent à leurs utilisateurs un gain de productivité. Des chercheurs d'un laboratoire privé ont mesuré, au contraire, une perte de productivité en comparant le travail de 16 développeurs expérimentés avec ou sans IA.

Le 17 juillet à 09h27

Les chercheurs du laboratoire privé METR montrent, « de façon surprenante », que l'IA générative rendrait les développeurs « plus lents » : « ils prennent 19 % plus de temps que sans », expliquent ces chercheurs dans un billet de blog vulgarisant leur travail.

Une promesse de productivité non prouvée

Pourtant, c'est LA promesse de l'intelligence artificielle : augmenter la productivité du travail. Par exemple, pour promouvoir son récent plan « Osez l'IA » conçu pour accélérer l’adoption de l’IA en entreprise, le gouvernement ose affirmer que « l'IA est un levier de compétitivité » et promet aux entreprises « 20% de productivité en plus par entreprise ». Il s'appuie, pour ça, sur un rapport de McKinsey d'il y a plus d'un an (le cabinet préfère lui-même renvoyer à un rapport plus récent) et dans lequel on peine à trouver cette affirmation.

Dans son rapport de 2024, McKinsey expliquait que 46 des 876 répondants affirmaient qu'une partie significative de leur bénéfice avant intérêts et impôts (earnings before interest and taxes, EBIT, en anglais) était attribuable à l'IA générative. Mais « 42 % de ces entreprises très performantes [affirmaient] que plus de 20 % de leur EBIT est attribuable à leur utilisation d'IA analytique et non générative ». Bref, il est encore difficile de savoir si l'IA générative est réellement un boost pour la productivité.

Une étude qualitative sur des développeurs expérimentés et des tâches réelles

Le METR a donc mis en place une expérience pour tester si les produits d'IA générative de 2025 comme Cursor Pro avec Claude 3.5/3.7 Sonnet boostaient la productivité des développeurs. Ils ont mis en ligne un article décrivant leur démarche sur la plateforme de preprint arXiv. Prévenons tout de suite les fans des études quantitatives, celle-ci est effectuée sur 16 développeurs. Ceux-ci ne sont pas représentatifs de tous les développeurs, mais l'étude ne le prétend pas.

Elle teste, par contre, qualitativement, à l'échelle de ces 16 personnes, les conséquences de l'utilisation de l'IA générative sur leur productivité. Le METR explique avoir pioché les participants dans son réseau professionnel et dans les contributeurs de projets populaires sur GitHub. « Les développeurs sont des ingénieurs logiciels expérimentés (généralement plus d'une décennie d'expérience) et contribuent régulièrement à des dépôts que nous utilisons - en moyenne, ils ont 5 ans d'expérience sur leur dépôt, ce qui représente 59 % de la durée de vie du dépôt, au cours de laquelle ils ont effectué 1 500 modifications », expliquent les chercheurs du METR. En toute transparence, ils expliquent avoir payé chaque développeur 150 dollars de l'heure pour le motiver à participer à l'expérience.

En contradiction avec les prédictions des économistes, des experts en machine learning et des développeurs eux-mêmes

Et ils expliquent, qu'au final, « de manière surprenante, [ils constatent] qu'autoriser l'utilisation de l'IA augmente en fait le temps d'exécution de 19 % ». Le constat contredit les experts en économie interrogés par les chercheurs, qui prédisaient en moyenne une productivité améliorée de 39 %, mais aussi les experts en machine learning qui prédisaient une augmentation de 38 % de cette productivité.

Ce résultat contredit aussi ce que les développeurs qui ont participé pensent eux-mêmes. Avant l'expérience, ils pensaient que l'IA générative leur permettait une augmentation de 24 % de leur productivité. Mais, même après avoir participé, ils sont encore persuadés que ces outils leur permettent d'augmenter de 20 % leur productivité.

Remarquons que ces 19 % sont une moyenne dans un écart très important. Mais, dans cette expérience, la productivité avec les outils d'IA générative reste, au mieux, aussi élevée que sans. Au pire, elle baisse de 40 %.

Moins efficace surtout sur les tâches longues

Pour élaborer ces tests, le METR a demandé à ces développeurs de lui fournir une liste de problèmes à résoudre existants vraiment dans les dépôts sur lesquels ils travaillent et de les trier en fonction du temps qu'ils estimaient devoir prendre pour les résoudre (avec et sans assistance d'une IA).

Puis ils les ont laissés travailler, parfois avec assistance d'une IA (136 problèmes), parfois sans (110 problèmes), et soumettre leur travail à leurs collègues comme d'habitude avec un « pull request » dans les dépôts sur lesquels ils travaillent. Chaque développeur a donné le temps utilisé pour effectuer chaque tâche.

Finalement, ils ont globalement mis plus de temps (1,34 fois plus) pour corriger les problèmes quand ils étaient autorisés à utiliser les outils d'IA générative que quand ils ne l'étaient pas. Remarquons qu'ils avaient pourtant prévu que ce temps diminuerait en utilisant l'IA :

En plongeant un peu plus dans les données, on peut voir que, pour les tâches ne dépassant pas une heure, ils ont mis autant de temps avec ou sans IA. Mais que pour des tâches qui leur ont pris entre 1 et 6 heures, ils allaient finalement plus vite sans outil d'IA générative :

Le METR fournit aussi des données sur le temps passé pour chaque « activité » durant ce temps de développement :

Cette étude ne montre pas que l'IA générative n'augmente jamais la productivité des développeurs. Mais ses résultats suggèrent que les développeurs très expérimentés perdent du temps lorsqu'ils utilisent des outils d'IA générative pour coder, même s'ils pensent qu'ils vont améliorer leur productivité.

Commentaires (28)

votre avatar
Avec 96,4 % de réussite au BAC, la France est une fabrique de génius et n'aura plus besoin d'intelligence artificielle d'ici 5 ans ! J'te le dit comme j'te l'cause :D
votre avatar
Ces résultats m'intéressent beaucoup, mais j'attendrais que d'autres études se penchent sur ce problème pour confirmer ou infirmer, avec un échantillon de développeurs au moins 20x plus grand... Parce qu'avec seulement 16 personnes c'est difficile d'espérer en tirer la moindre conclusion...

Seul le dernier graphe permet de se représenter où serait perdu ce temps.

Cela dit c'est bien d'avoir quelques nuances dans le discours pro-LLM actuel.
votre avatar
J'ai toujours l'étude à lire, elle est sur un coin de mon bureau ^^

Par contre, plusieurs biais que j'ai pu relevé à la première lecture rapide :
- déjà, on est d'accord, 16 développeurs, c'est très peu
- le choix usage de l'IA ou non est un choix aléatoire au niveau de la tâche, pas un choix du développeur. Il serait donc beaucoup plus intéressant de voir l'impact de l'IA quand le développeur choisi de l'utiliser plutôt que quand il est imposé
- l'étude est limitée a des développeurs expérimentés (bon, c'est dit dans l'article de Next, mais je le reprécise ^^)
- pas de groupe de contrôle. L'étude prend un pool de tâches, un pool de dev, associe chacune des tâches à un dev en lui imposant ou non l'usage de l'IA. Un résultat beaucoup plus probant serait obtenu en assignant la même tâche aux développeurs, certains avec l'IA, d'autre non, et en comparant ensuite les temps entre les deux groupes
- les dev sont payés à l'heure, ce qui peut induire un biais de "ralentissement" qui ne serait pas forcément le même entre une réalisation avec et sans IA. (Avec = c'est le temps à cause de l'outil, Sans = c'est ma compétence).


Cela n'empêche pas le résultat de l'étude d'être extrêmement intéressant, simplement à prendre avec quelques pincettes.
votre avatar
+1 sur tes remarques
je rajouterai à l'idée que tous les dev' aient la même tache, de faire 2 "session", une ou personne n'a droit à l'"IA" (histoire d'avoir une tendance moyenne des "performances") et une deuxième avec la moitié avec et l'autre moitié sans "IA", pour avoir un "groupe témoin" tout en sachant si le groupe témoin a de base des "performances" comparables au groupe "IA"

pour ton dernier point, même si c'est "la faute de l'outil" (pour la perte de temps), ça veut toujours dire que l'outil ne fait pas gagner de temps, ou que le développeur n'a pas les compétences nécessaires pour l'utiliser efficacement, même si l'échantillon est faible y'a un résultat clair selon moi : l'"IA" ne fait pas de miracle à elle seule et les promesses faites autour de son utilisation sont sans fondement (voire clairement mensongères car peut-être applicables dans des conditions bien précises, mais qui ne sont jamais révélées et pas applicables de manière générale)

une calculatrice peut être très pratique
cependant si on ne sait utiliser que la touche "+", on aura plus vite fait de calculer 123^56 à la main ...
votre avatar
je rajouterai à l'idée que tous les dev' aient la même tache
Pour le coup cette contrainte me semble mieux gérée dans le cas de l’étude :

Pour que tous les devs aient la même tâche il faudrait que ce soient tous des devs d’un même projet.
Il y a quand même une différence importante entre entrer dans un projet qu’on n’a jamais vu et travailler sur un projet qu’on connaît bien (ce qu’étudie l’article), et je serais surpris que le résultat soit le même si on demande à tout le monde de bosser sur une même tâche d’un projet qu’ils ne connaissent pas : dans ce cas là même pour un dev expérimenté je m’attendrais à ce qu’ils aillent beaucoup plus vite avec l’aide de l’IA (ne serait que pour la facilité à "cibler" les endroits à modifier plutôt que tatonner pour se repérer dans le code)
votre avatar
c'est une bonne remarque, et justement il serait également intéressant de vérifier si dans ce cas (arrivée sur un nouveau projet) l'"IA" apporte un avantage
votre avatar
- le choix usage de l'IA ou non est un choix aléatoire au niveau de la tâche, pas un choix du développeur. Il serait donc beaucoup plus intéressant de voir l'impact de l'IA quand le développeur choisi de l'utiliser plutôt que quand il est imposé
Cela pose un problème. Le développeur choisira la facilité. Donc fera des tâches simples avec L'IA par préférence. Ca pose un souci de biais.

Si on dit maintenant qu'il faudrait poser la même question à plusieurs développeurs différents pour un même sujet. Suivant le projet ou sa forme les résultats seront différents suivant chaque développeur. Donc, il faudrait des "projets ACME" créé de toutes pièces suivant plusieurs façons de faire pour bien évaluer les développeurs avec ou sans l'usage de l'IA. Ce serait quand même un certain travail.
- l'étude est limitée a des développeurs expérimentés (bon, c'est dit dans l'article de Next, mais je le reprécise ^^)
C'est en effet une notion subjective. D'un autre coté, ou place t-on le curseur ? Comment trouve t-on des développeurs peu expérimentés pour prendre le problème à l'envers ? Bon, quand on juge sur pièce c'est plus facile d'en trouver diront les mauvaises langues.

Quoiqu'li en soit pour faire le tri, il faudrait faire passer des tests. Et personnellement, je considère qu'un bon développeur a d'abord la tête sur les épaules. Ca pourrait compliquer les choses sur la définition de la compétence. Il faut mettre tout le monde d'accord sur le protocole dans une recherche, histoire que ce ne soit pas attaquable trop facilement.




Je considère qu'on est en train de sortir de la hype doucement. Les gens pointus qui avait testé avaient déjà vu le problème (hallucinations, code alambiqué, insertion de foin sans effet et donc sans rapport, etc.). Cette étude tend à apporter de l'eau au moulin.

Plus globalement

Lien d'une audition intéressante
votre avatar
Cela pose un problème. Le développeur choisira la facilité. Donc fera des tâches simples avec L'IA par préférence. Ca pose un souci de biais.
l'idée étant de savoir si l'usage de l'IA peut accélérer le travail du développeur, cela répond pourtant exactement à la question. C'est dans le rôle du développeur d'utiliser les outils adaptés à la situation qu'il rencontre.

Imposer un outil, c'est contre productif. C'est comme imposer une architecture microservice pour un simple blog, une base NoSQL quand un simple fichier JSON ou XML suffirait, la blockchain pour stocker des informations relationnels, etc.
Je considère qu'on est en train de sortir de la hype doucement. Les gens pointus qui avait testé avaient déjà vu le problème (hallucinations, code alambiqué, insertion de foin sans effet et donc sans rapport, etc.). Cette étude tend à apporter de l'eau au moulin.
Exactement.

Pour l'instant, je pense que je gagne du temps avec l'IA à titre personnel (ah ben voilà, mon égo en prend un coup avec l'étude xD). Mais justement, je ne suis pas dans le cadre de l'étude : je n'utilise que peu l'IA (type chatbot), et l'utilise sur des tâches bien ciblées.

J'utilise beaucoup plus l'IA via Github Copilot. Mais là, c'est plus de l'aide à la saisie et une autocomplétion intelligente. Et encore, maintenant, je ne suis pas foutu de savoir ce qui provient de Github Copilot ou d'Intellisence...

Si, quand je suis en train d'écrire du code, il me propose quelque chose qui correspond à ce que je souhaite (ou quasiment), alors un appuis sur Tab et j'ai le code complété, juste éventuellement à l'adapter/corriger.
votre avatar
l'idée étant de savoir si l'usage de l'IA peut accélérer le travail du développeur, cela répond pourtant exactement à la question. C'est dans le rôle du développeur d'utiliser les outils adaptés à la situation qu'il rencontre.
Il faut pourtant tester le avec ou sans IA sur la même tâche (ou objectif).
votre avatar
Je suis d'accord. C'est d'ailleurs le point que je soulevais au sujet de l'absence de groupe de contrôle dans un commentaire précédent.
votre avatar
"Un résultat beaucoup plus probant serait obtenu en assignant la même tâche aux développeurs, certains avec l'IA, d'autre non, et en comparant ensuite les temps entre les deux groupes"

Pour ça, il faudrait avoir nettement plus d'argent, alors que l'étude n'a probablement quasiment rien couté, vu que les devs ont bossé sur des problèmes sur lesquels ils auraient de toute façon bossé.
votre avatar
Les devoirs ont été payé 150$/h et la durée moyenne des problèmes était de 2h. Je te laisse faire le calcul, mais il y avait plus de 200 problèmes, donc non, ca n'a pas rien coûté
votre avatar
60k$, c'est pas si énorme si tu as un budget pour ça, mais en revanche, si tu veux passer à une dimension supérieure, ça devient prohibitif.

En revanche, il faut arrêter avec les tests randomisés avec groupe témoin, c'est une méthodo faite pour les validations dans l'industrie pharmaceutique, ça n'a absolument pas vocation à être utilisé dans d'autres domaines. En particulier ceux où les seuls "chiffres" dont on dispose sont ceux de l'industrie des chatbots.
votre avatar
En revanche, il faut arrêter avec les tests randomisés avec groupe témoin, c'est une méthodo faite pour les validations dans l'industrie pharmaceutique
Absolument pas. C'est fait pour éviter certains biais et pour faire la part de ce qui est aléatoire/subjectif.

Sachant que 2 dev ne te pondrons pas la même solution, on est tout à fait dans le cas où c'est plus que pertinent.
votre avatar
Absolument pas. C'est fait pour éviter certains biais et pour faire la part de ce qui est aléatoire/subjectif.
Ça n'est pas applicable à tout et n'importe quoi, à commencer par les études qualitatives.
votre avatar
En même temps, ça tombe bien, on n'est pas dans le cadre d'un test randomisé que tu mentionnais plus haut (c'est d'ailleurs impossible ici vu le contexte). Surtout qu'ici, on est quand même plus dans une étude quantitative, avec de vraies mesures (le temps de dev) que purement qualitatif.

Par contre, la présence d'un groupe de contrôle (ou témoin, appelle le comme tu veux) est nécessaire ici pour mesurer le plus précisément possible l'impact de l'usage (ou non) de l'IA.

Sans cela, tu ne pourras pas dire si c'est l'usage ou non de l'IA qui influe les résultats, ou simplement un autre facteur, comme le fait que des problèmes différents soient résolus par des personnes différentes.
votre avatar
comme le fait que des problèmes différents soient résolus par des personnes différentes.
Je ne pense pas que le test pêche sur ce point : il y a en moyenne 15 tâches par personne, qui leur sont demandées soit avec IA, soit sans, pour chacun des participants. Donc chacun est sa propre baseline. Pour ce qui est de la complexité des tâches qui pourrait être un biais, ça pourrait rester possible, mais avec 240 tâches, ça me paraît très improbable que toutes les tâches complexes soient par malchance tombées sur l'IA, et toutes les tâches simples sur la personne toute seule.

Admettons que tu mettes un groupe de contrôle : tu auras d'autres personnes qui sont mesurées, et on pourra te reprocher qu'il y a possiblement un biais dans la sélection des membres des groupes (la notion de compétence en développement n'est pas triviale à définir).
votre avatar
Ah mais je suis le premier à dire que c'est loin d'être évident.

L'étude en elle-même est extrêmement intéressante. Je ne fais que relever qu'elle incorpore de nombreuses variables "non contrôlées" qui peuvent influencer très largement, dans un sens ou dans l'autre, le résultat.

La sélection des candidats, leur niveau, les problèmes sélectionnés, les temps nécessaires pour les résoudre, les estimations faites, la maitrise des technologies, la maitrise de l'IA, etc. sont autant de variables qu'il est difficile de prendre en compte (et donc de compenser) car n'ayant aucun repère fiable.

Qui plus est, et je le répète, le plus gros biais à mon sens, est quand même d'imposer au développeur le choix de la méthode. Les développeurs expérimentés à qui on va imposer de ne pas utiliser l'IA seront dans leur environnement. Les développeurs expérimentés à qui on va imposer d'utiliser l'IA ne le seront pas.

Autrement dit, qu'un développeur a qui on dit comment faire prenne plus de temps qu'un dev à qui on laisse faire son travail comme d'habitude, c'est aussi un impact. C'est d'ailleurs une des conclusions de l'article.
votre avatar
Je ne fais que relevé
Argh ! fdorin m'a tuer !
Qui plus est, et je le répète, le plus gros biais à mon sens, est quand même d'imposer au développeur le choix de la méthode.
Pour moi, ça garantit qu'on ait une équivalence dans les tâches traitées avec et sans IA. Ce n'est pas parfait, mais ça restera mieux que les "études" (dont on ne connaitra jamais que les résultats) qui vantent l'IA à coups de 300% de productivité en plus, virez tous vos employés et devenez milliardaire en 20 minutes.

L'étude est perfectionnable, mais je trouve qu'elle pose au moins de bonnes questions et esquisse des éléments d'analyse.
votre avatar
Argh ! fdorin m'a tuer !
Quelle phote ? :D
Pour moi, ça garantit qu'on ait une équivalence dans les tâches traitées avec et sans IA.
Sauf que ça introduit potentiellement un gros biais sur le temps de traitement de ladite tâche. Si je te demande de planter un clou avec un tournevis, tu vas y arriver, même si ce n'est pas l'outil le plus adapté. Quand on souhaite justement mesurer l'impact de l'usage de l'IA, c'est dommage ;)
L'étude est perfectionnable, mais je trouve qu'elle pose au moins de bonnes questions et esquisse des éléments d'analyse.
Ah mais là dessus on est totalement d'accord ;)
votre avatar
Si je te demande de planter un clou avec un tournevis, tu vas y arriver, même si ce n'est pas l'outil le plus adapté.
Ça dépend quand même du clou, du tournevis et de la matière dans laquelle on le plante. :D
votre avatar
La question que je me pose surtout c'est si ces 16 devs ont l'habitude de travailler avec l'IA ?
Car pour l'utiliser depuis quelques mois de façon quotidienne, il y a un réel apprentissage pour être efficace, mes premiers essais étaient catastrophique en terme de productivité
Mais ça m'a rappelé la première fois que j'ai appris à utiliser les raccourcis clavier de mon IDE pour faire des automations, à chaque fois, le temps que je retrouve le raccourci, j'aurais été plus vite de faire 5 fois l'actions
Maintenant que c'est un automatisme, je vais bien plus vite avec

Et pour moi l'IA n'est rien d'autre qu'une amélioration des outils, comme ce que propose un IDE, et ça demande du temps pour le maîtriser et aussi pour savoir quand l'utiliser
votre avatar
... les développeurs très expérimentés perdent du temps lorsqu'ils utilisent des outils d'IA générative pour coder ...
C'est ce que j'ai aussi constaté.
votre avatar
"on a forcé quelques développeurs qui n'utilisaient pas l'IA à l'utiliser et ils ont été un peu moins rapide"

Tu parles d'une étude. Demandez aux utilisateurs de Claude code ce qu'ils en pense.
votre avatar
"ce qu'ils en pensent"
c'est bien ça le problème, faut tester pour vérifier si "ce qu'ils en pensent" est conforme à la réalité
votre avatar
Perso Claude Code à changé ma manière de travailler (et pas que pour le dev, pour le sysAdmin et la doc aussi)
votre avatar
En l'occurrence, l'étude leur a demandé ce qu'ils en pensaient, et il s'avère que la réalité n'était pas conforme.
votre avatar
Je perds trop de temps l'insulter de tous les noms, effectivement :baton:

La productivité des développeurs semble baisser quand ils utilisent l’IA générative

  • Une promesse de productivité non prouvée

  • Une étude qualitative sur des développeurs expérimentés et des tâches réelles

  • En contradiction avec les prédictions des économistes, des experts en machine learning et des développeurs eux-mêmes

  • Moins efficace surtout sur les tâches longues

Fermer