IA : un impact environnemental conséquent mais toujours difficile à mesurer

David Man & Tristan Ferne / Better Images of AI / Trees / CC-BY 4.0

Trois chercheuses de la plateforme d'hébergement de projets d'IA Hugging Face, Sasha Luccioni, Bruna Trevelin et Margaret Mitchell ont rassemblé les connaissances disponibles actuellement à propos de l'impact de l'IA sur l'environnement. Elles constatent encore trop peu de transparence sur les besoins énergétiques de chaque application d'IA, elles parcourent l'ensemble des connaissances actuellement disponibles.

Martin Clavey

Le 23 septembre à 09h30

8 min

IA et algorithmes

La question de la consommation d'énergie de l'IA, et donc de son impact sur l'environnement, n'est généralement pas le premier problème sur lequel les entreprises d'IA sont les plus prolixes. Elles parlent plus volontiers des éventuels « risques existentiels » que leurs outils pourraient, un jour, provoquer.

AGI, GPAI, modèles de fondation… de quoi on parle ?

Des estimations à revoir

Et quand elles en parlent, elles sous-estiment leurs émissions : d'après une étude du Guardian, « de 2020 à 2022, les émissions réelles des centres de données internes ou appartenant aux entreprises Google, Microsoft, Meta et Apple sont probablement environ 662 %- ou 7,62 fois - plus élevées que ce qui est officiellement déclaré ».

Le journal britannique explique que ces entreprises « comptent de façon créative » leurs émissions de CO2 notamment en comptabilisant les « certificats d'énergie renouvelable » (Renewable energy certificates, REC) qu'elles achètent. Elles font donc des estimations « basées sur le marché ». Mais, le Guardian explique qu'en faisant des estimations des émissions basées sur le lieu où sont réellement les centres de données, les chiffres explosent.

Le journal s'appuie notamment sur l'avis de Jay Dietrich, du consortium d'entreprise Uptime Institute qui travaille sur l'efficacité des centres de traitement de données. Selon lui, les estimations « basées sur la localisation donnent une image précise des émissions associées à l'énergie réellement consommée pour faire fonctionner le centre de données. Et Uptime estime qu'il s'agit de la bonne mesure ».

Si ces entreprises ne livrent pas les données les plus utiles pour mesurer les émissions de CO2 liées à leurs centres de données en général, elles donnent encore moins d'information quand il s'agit de parler spécifiquement de la consommation de l'IA.

Pour cela, il faut plutôt compter sur d'autres acteurs qui essayent d'évaluer tout ça. En l'occurrence des chercheuses de la startup franco-américaine Hugging Face. Début septembre, Sasha Luccioni, Bruna Trevelin et Margaret Mitchell ont publié sur le blog de l'entreprise un long récapitulatif de ce qu'on sait sur les conséquences environnementales de l'IA et des politiques actuellement mises en place à travers le monde à ce propos.

Dangers des grands modèles de langage : des chercheuses avaient prévenu

Elles expliquent qu' « il peut être difficile de comprendre l'ampleur de l'impact de l'IA sur l'environnement étant donné la séparation entre l'endroit où vous interagissez avec un système d'IA et la manière dont cette interaction s'est faite - la plupart des modèles d'IA fonctionnent dans des centres de données qui sont physiquement situés loin de leurs utilisateurs, qui n'interagissent qu'avec leurs résultats ».

Mais, elles affirment que « la réalité est que les capacités impressionnantes de l'IA ont un coût substantiel en termes de ressources naturelles, y compris l'énergie, l'eau et les minéraux, et des quantités non négligeables d'émissions de gaz à effet de serre ».

Une consommation importante signalée dès 2020

Elles rappellent que, dès 2020, la chercheuse du laboratoire Facebook AI Research Emma Strubell et deux de ses collègues de l'Université du Massachusetts Amherst montraient que l'entrainement d'un grand modèle de langage de 213 millions de paramètres était responsable de 284 tonnes de CO2.

Sasha Luccioni travaille depuis pas mal de temps sur le sujet et est citée, cette année, pour cette raison parmi les 100 personnalités importantes de l'IA par le magazine américain Time. Elle a notamment évalué les émissions de CO2 du grand modèle de langage BLOOM. Celui-ci est, depuis l'exposition des modèles de langage dans le grand public, l'un des seuls à respecter les critères de l'open science, ce qui permet d'avoir beaucoup d'informations et de travailler sereinement sur sa consommation.

Difficile évaluation du coût environnemental et financier de l’utilisation des grands modèles de langage

Les plus consommateurs : les images et la génération de contenus

Avec ses collègues, elle a montré que ce modèle de 176 milliards de paramètres, déployé sur le cloud de Google et ayant reçu 230 768 requêtes pendant 18 jours, a consommé 40,32 kWh par jour et, « compte tenu du mix énergétique utilisé par l'instance informatique », émettait environ 19 kg de CO2eq par jour, expliquent-elles dans leur billet de blog. D'après les trois chercheuses, on peut considérer que ce chiffre reflète ce que consommait un modèle d'IA déployé à la pointe des connaissances en 2023.

Une autre étude, publiée en 2024 encore par Sasha Luccioni et ses collègues, montrent que les modèles de langage consomment plus quand ils sont utilisés sur des images ou quand on leur demande de générer des nouveaux contenus (plutôt que, par exemple, résumer un texte).

Une requête ChatGPT de 6 à 10 fois supérieure à celle d'une recherche traditionnelle

Si on connait quelques bases sur la consommation de l'IA génératives grâce à ces études, les chercheuses de Hugging Face insistent : « il existe actuellement peu de transparence sur les demandes énergétiques des applications spécifiques de l'IA, bien que, selon une estimation récente, la quantité d'énergie utilisée pour une requête ChatGPT soit de 6 à 10 fois supérieure à celle d'une recherche traditionnelle sur le web (0,3 Wh contre 2,9 Wh) », en citant une analyse (PDF) du cabinet Goldman Sachs.

Un besoin de consensus sur la définition de l'IA et de transparence

Elles expliquent que pour avoir une vue d'ensemble de l'impact environnemental de l'IA, « nous avons besoin à la fois d'un consensus sur ce qu'il faut considérer comme faisant partie de l'"IA", et de beaucoup plus de transparence et d'informations de la part des entreprises impliquées dans la création de l'IA ».

Elles rappellent d'ailleurs que l'IA n'est pas uniquement le machine learning, mais désigne aussi les systèmes experts. Le flou qui constitue sa définition en entraine un autre dans la définition de sa consommation. « L'élément central de ce défi est le fait que l'IA est souvent une partie, et non la totalité, d'un système donné- par exemple, les appareils intelligents, les véhicules autonomes, les systèmes de recommandation, la recherche sur le web, etc », expliquent-elles.

Elles rappellent aussi qu'on ne possède que peu ou pas d'informations sur les émissions intrinsèques de la fabrication de matériel informatique, la consommation de carbone de l'infrastructure utilisée par l'IA elle-même, les effets de rebond et conséquences involontaires, les émissions qui sont émises par d'autres technologies qui se développent grâce à l'IA et enfin les atteintes à l'écosystème.

L'Europe première régulatrice, le projet de loi états-unien arrive

Dans le trio d'analystes de Hugging Face, la juriste Bruna Trevelin a plutôt dû collaborer à la dernière partie, celle sur l'analyse des régulations mises en place à travers le monde.

Le fait que cette analyse commence par l'Europe n'est pas anodin. Elles soulignent l'existence du « Green deal » qui fixe des objectifs juridiquement contraignants pour la neutralité carbone d'ici 2050. « Les systèmes d'IA utilisés dans la gestion de l'énergie, les réseaux intelligents et la surveillance de l'environnement devront être conformes à cette loi », expliquent-elles. Elles comptent aussi sur la directive européenne relative à l’efficacité énergétique pour quantifier et réguler la consommation d'eau.

Elles rappellent que l'AI Act impose « que les fournisseurs de modèles d'IA à usage général (IAG) doivent spécifiquement partager la consommation d'énergie connue ou estimée de leurs modèles ».

Il prévoit aussi « que les systèmes d'IA à haut risque rendent compte des performances en matière de ressources, telles que la consommation d'énergie et d'"autres ressources" au cours du cycle de vie des systèmes d'IA, qui pourraient inclure l'eau et les minéraux en fonction du niveau de détail des normes qui guideront le respect de cette obligation de rendre compte ».

De l'autre côté de l'Atlantique, « le décret sur le développement et l'utilisation sûrs, sécurisés et dignes de confiance de l'intelligence artificielle publié par la Maison Blanche en octobre 2023, bien que très complet à d'autres égards, n'aborde pas directement les impacts environnementaux des modèles d'IA, bien qu'il mentionne le développement d'applications de l'IA positives pour le climat » déplorent-elles.

Mais, si les États-Unis sont en retard par rapport à l'UE sur le sujet, l'Artificial Intelligence Environmental Impacts Act est actuellement en cours d'examen. Il serait « la première pierre d'une législation qui traite de ce sujet ». Joe Biden a récemment essayé de reprendre la main sur le sujet en demandant aux différentes agences fédérales d'accélérer l'évaluation des projets d'énergie « propre ».

La Maison-Blanche veut concilier IA et climat

Les trois chercheuses de Hugging Face citent aussi les initiatives de l'Espagne, du Canada et la feuille de route intelligence artificielle et transition écologique de la France.

Commentaires (12)

carbier Abonné

Modifié le 23/09/2024 à 09h41

En lisant en creux la réticence des grands acteurs de l'IA à donner des consommations fiables de leurs modèles, on comprend que les données ne sont pas bonnes.
Car on pourrait être sur que si c'était le cas nous serions abreuvés de pub' vantant les mérites écologique de ces modèles.

Il s'agit peut être aussi d'une des raisons pour laquelle de "grands noms" de la silicon Valley soutiennent ouvertement la candidature de Trump, cilmatosceptique en chef et qui mettra fin à ces réglementations "insensées" une fois au pouvoir.

Timanu69

Le 23/09/2024 à 11h01

On à qu'à leur filer un lien si ils savent pas faire :
https://next.ink/150908/tuto-suivre-sa-consommation-electrique-en-direct-avec-un-rasbperry-pi-et-home-assistant/

R4VEN Abonné

Le 23/09/2024 à 12h22

Nucléaire : un réacteur de Three Mile Island en Pennsylvanie réactivé, 45 ans après un accident radiologique, va être relancée pour fournir en électricité le géant de l’informatique Microsoft.

Difficile à mesurer 🙄

coco74

Le 23/09/2024 à 17h53

Je crois que le réacteur concerné par l’accident n’a jamais été redémarré, là on parle uniquement d’un réacteur annexe qui avait été arrêté pour raisons économiques.

HipsR

Le 23/09/2024 à 14h03

Dans la série pourquoi l’#iA c'est de la merde :

Alex de Vries sur son site Digiconomist, surveille l'impact environnemental des nouvelles technologies. Ce chercheur à l'université d'Amsterdam a ainsi montré qu’un seul processeur de Nvidia, spécialisé pour l'IA, le H100, consomme 3740 kilowattheures à l'année.
Les Gafam en ont commandé des centaines de milliers chacun afin d'armer leurs serveurs iA.
Or, selon Engie, un foyer de deux Français consomme en moyenne 1475 kilowattheures d'électricité par an, soit plus de deux fois moins qu'une seule puce dédiée pour l'IA.

Alex de Vries a calculé que l'ensemble des serveurs armés de ces puces, pourraient consommer jusqu'à 134 Twh par an soit l'équivalent de la consommation d'un pays comme la Suède.

ClM Abonné

Le 23/09/2024 à 14h49

Sans remettre en cause le fait que la consommation électrique de ces GPU est énorme, 1475 kWh/an me semble être une valeur bien basse, même pour un foyer de deux personnes.

SebGF Abonné

Le 23/09/2024 à 17h39

Effectivement, les chiffres rapidement trouvées chez Engie sont différents.

Et dans la même période il se répétait que 3740kwh c'était l'équivalent annuel d'un foyer américain. C'est la conso annuelle du Costa Rica et de la Géorgie qui ont été mises en parallèle.

ClM Abonné

Le 24/09/2024 à 10h44

Je sais pas d'où ils tiennent ces chiffres mais 10kWh par jour pour un foyer américain moyen, j'y crois pas une seconde.

HipsR

Le 25/09/2024 à 18h19

Ça m'apprendra à ne pas tout vérifier. Je l'ai fait sur l'auteur, et les puces, mais pas Engie ... J'en profite pour rendre honneur à l'origine de ma curiosité, c'est l'Humanité Dimanche. Mais je constate qu'il faut tout vérifier, le journaliste, même s'il a bien attiré mon attention, manque singulièrement de rigueur dans son papier.

psikobare

Le 23/09/2024 à 18h25

Avec ses collègues, elle a montré que ce modèle de 176 milliards de paramètres, déployé sur le cloud de Google et ayant reçu 230 768 requêtes pendant 18 jours, a consommé 40,32 kWh par jour et, « compte tenu du mix énergétique utilisé par l'instance informatique », émettait environ 19 kg de CO2eq par

19kg de CO2 par jour ça fait moins de 7 tCO2 par an. Moins que l'empreinte carbone d'un français tout seul.
C'est ridicule, C'est sensé être ça la catastrophe climaticide ? il n'y a pas une erreur de calcul quelque part ?

Dans l'abstract de l'étude on trouve :

we aim to quantify the carbon footprint of BLOOM, a 176-billion parameter language model, across its life cycle. We estimate that BLOOM's final training emitted approximately 24.7 tonnes of CO2eq if we consider only the dynamic power consumption, and 50.5 tonnes if we account for all processes ranging from equipment manufacturing to energy-based operational consumption

Là encore c'est ridicule. Donc pour produire l'un des plus gros modèle du monde, et donc le plus coûteux, ce serait à peine 50 tCO2 ? Si c'est le cas c'est à peine le coût carbone de construction d'une dizaine de clio (sans rouler donc), ou une l'empreinte annuelle d'une cinquantaine de français.

Elles rappellent que, dès 2020, la chercheuse du laboratoire Facebook AI Research Emma Strubell et deux de ses collègues de l'Université du Massachusetts Amherst montraient que l'entrainement d'un grand modèle de langage de 213 millions de paramètres était responsable de 284 tonnes de CO2.

Même çà c'est que dalle. On parle d'une construction unique qui ressert ensuite des (dizaines, centaines de) millions de fois. 300 tCO2 pour ça c'est donné.

Si les chiffres sont bons c'est vraiment une tempête dans un verre d'eau. Ou alors faut avoir aucun concept d'ordre de grandeur.

selon une estimation récente, la quantité d'énergie utilisée pour une requête ChatGPT soit de 6 à 10 fois supérieure à celle d'une recherche traditionnelle sur le web (0,3 Wh contre 2,9 Wh) », en citant une analyse (PDF) du cabinet Goldman Sachs.

Les 0.3 Wh par recherche Google, ça date de 2011.

Citan Abonné

Modifié le 23/09/2024 à 20h57

Eh beh. On sent le fanboy des IA et autres approches de solutionnisme technologique pour nous amener encore plus vite à un monde parmi les pires dystopies ou projections futuristes jamais imaginées...

T'as dejà investi ton fric dans les actions c'est ça ? xd

230768 sur 18 jours ça fait ~12820 par jour. Inutile je suppose de t'expliquer en quoi ce n'est donc absolument pas représentatif de l'usage réel actuel qui doit être entre 50 et 100 fois plus intense pour un "petit" modèle d'IA "spécialisé" puisque l 'on parlait ici d'un modèle conçu par et pour des chercheurs en informatique.

Et si on imaginait l'IA remplacer les recherches traditionnelles pour de bon... As tu seulement une idée raisonnable du nombre de requêtes que google seul doit assumer QUOTIDIENNEMENT ? Il semble clair que non (>200 000 auc dernières évaluations au doigt mouillé et ça me semble encore bien faible honnêtement pour un moteur qui agrège probablement 80% des recherches dans le monde entier).

Effectivement tu n'as aucun concept d'ordre de grandeur sur le sujet. xd

Je passe sur la comparaison moisie du total de co² qui a) utilise un élément de notre société dont on sait que c'est un modèle moisi (la voiture) mais qui néanmoins est 1000* plus difficile à remplacer ou "s'en passer" en termes d'usage et b) obère tous les autres aspects qui sont au moins autant problématiques aussi bien sur un plan environnemental que même juste économico-pratique à moyen terme (extraction et raffinage des matériaux rares).

Je passe aussi sur le "peanut de 284t de co²" sous prétexte que c 'est réutilisable. Alors que jusqu'ici s'il y a bien deux trucs où les "IA" brillent par leur absence c'est l'absence de souplesse pour répondre à une évolution du besoin et la nécessité de régulièrement rafraîchir les données.

Mais bon, clairement c'est une tempête dans un verre d'eau. La preuve la conso de Google n'a cru que de 48% en un an (fun fact: la population utilisatrice d'internet n'a pas crû de 48% en un an)...
https://www.forbes.fr/business/les-emissions-carbone-de-google-explosent-a-cause-de-lintelligence-artificielle/

fdorin Abonné

Le 24/09/2024 à 10h01

Allez, reprenons ensemble l'ensemble des chiffres.

19kg de CO2 par jour ça fait moins de 7 tCO2 par an. Moins que l'empreinte carbone d'un français tout seul. C'est ridicule, C'est sensé être ça la catastrophe climaticide ? il n'y a pas une erreur de calcul quelque part ?

La métrique global dépend du nombre d'utilisation. Une faible utilisation donne donc de faibles émissions. Rapporté au nombre de requête, c'est 3Wh / requête.

ChatGPT répond à 1,5 milliards de requête par jour en 2023.

Si on extrapole les chiffres, cela fait près de 500MWh / an, soit la production d'une petite centrale nucléaire. Toujours rien ?

Même çà c'est que dalle. On parle d'une construction unique qui ressert ensuite des (dizaines, centaines de) millions de fois. 300 tCO2 pour ça c'est donné.

Et si on parlait du biais du survivant ? Pour un modèle publié, combien y-a-t-il eu de modèles entrainé et mis à la benne car inefficace ?

Penses-tu sincèrement que les modèles sont obtenus du premier coup ? Un modèle peut nécessiter de nombreux essais. Pour avoir fait un peu d'IA, la création de la topologie d'un modèle, ce sont de nombreux paramètres ajustables (nombre de couches, tailles des couches, fonction d'activation, etc.) et ce sont souvent des essais/erreurs qui permettent de choisir ensuite le "meilleur" modèle.

Pour un modèle publié, on peut donc avoir des milliers de modèles non publiés. On atteint donc plutôt l'ordre de 300MtEqCO2 par an. Soit la moitié des émissions d'un pays comme la France.

Et ça, c'est pour UN seul modèle. Rajoute Google, Apple, Meta, etc. qui ont chacun leur modèle et cela devient vraiment loin d'être négligeable.

Qui plus est, avec Apple qui déploie des IA dans ses smartphones, Microsoft qui pousse de plus en plus Copilot, etc. l'usage des modèles ne vas faire que croitre d'ici les prochaines années.