[Màj] Microsoft nie catégoriquement utiliser les documents Office pour entrainer ses LLM
Une polémique a explosé durant le week-end dernier : Microsoft se servirait des documents Word et Excel pour entrainer ses grands modèles de langage. L’éditeur dément et argue d’une mauvaise compréhension. Pour autant, tout n’est pas aussi clair que l’entreprise le voudrait.
Le 29 novembre à 10h14
6 min
IA et algorithmes
IA
Mise à jour du 29 novembre : Microsoft nous a répondu, avec des explications plus claires que ce qui avait déjà été indiqué à d’autres : « Ces affirmations sont fausses. Microsoft n'utilise pas les données des clients des applications professionnelles et grand public de Microsoft 365 pour entraîner des grands modèles de langages (LLM) fondamentaux. Dans certains cas, les clients peuvent consentir à l'utilisation de leurs données pour répondre à des besoins spécifiques, tels que le développement de modèles personnalisés, à la demande expresse de certains clients professionnels. »
La société ajoute que le « paramètre de Microsoft 365 qui porte le nom de "Connected Experiences" et auquel certains ont fait référence récemment n'a aucun lien avec la façon dont Microsoft entraîne les grands modèles de langages fondamentaux ». Elle rappelle le fonctionnement des Expériences connectées (qui existent depuis avril 2019), ce que nous avons expliqué dans la première version de cet article.
Article original du 28 novembre : Microsoft a un problème depuis plusieurs jours. Le 24 novembre, le compte NixCraft, suivi par plus de 374 000 abonnés, a publié sur X un message de mise en garde :
« Microsoft Office, comme de nombreuses entreprises ces derniers mois, a sournoisement activé une fonction "opt-out" qui récupère vos documents Word et Excel pour entraîner ses systèmes d'intelligence artificielle internes. Cette fonction est activée par défaut et vous devez décocher manuellement une case pour la désactiver. Si vous êtes un écrivain qui utilise MS Word pour rédiger des contenus propriétaires (articles de blog, romans, ou tout autre travail que vous avez l'intention de protéger par des droits d'auteur et/ou de vendre), vous voudrez désactiver cette fonction immédiatement. »
De quelle fonction s’agit-il ? Des Expériences connectées. Pourtant, ces dernières existent depuis longtemps. Sur son site, Microsoft dresse ainsi la liste de ces fameuses expériences. Elles contiennent tout ce qui touche de près ou de loin à une fonction en ligne au sein des applications Office. Parmi ces fonctions, on retrouve tout appel à des données extérieures, la dictée, l’Assistant de rédaction (donc la correction orthographique et grammaticale), la lecture à haute voix, la vérification de similarité, la transcription d’enregistrements ou encore la co-création de documents.
Ces fonctions sont disponibles dans les versions Windows et Mac d’Office, ainsi que dans les versions en ligne de la suite bureautique.
Analyse des données contre entraînement
Rapidement, la publication sur X a généré de nombreuses réactions outrées, mais pas seulement. Des voix ont commencé à signaler que les Expériences connectées n’étaient pas nouvelles, et que cette utilisation des données à des fins d’entrainement de LLM n’était pas mentionnée.
Dans sa déclaration de confidentialité, Microsoft indique en effet que les données peuvent être utilisées à des fins d’analyse, afin que les fonctions appelées puissent produire leur effet. En revanche, rien n’indique qu’elles sont récupérées pour les grands modèles de langage, contrairement à d’autres services comme Copilot ou LinkedIn.
Microsoft répond, mais…
Pour apaiser le débat, Microsoft a d’abord répondu à NixCraft le 25 novembre : « Dans les applications M365, nous n'utilisons pas les données des clients pour former les LLM. Ce paramètre n'active que les fonctions nécessitant un accès à Internet, comme la co-écriture d'un document ». La société y a ajouté le lien dressant la liste des Expériences connectées.
Parallèlement, elle a communiqué à plusieurs américains un message qu’elle voulait tout aussi clair : « Microsoft n'utilise pas les données des clients des applications grand public et commerciales de Microsoft 365 pour former de grands modèles de langage. En outre, le paramètre Connected Services n'a aucun lien avec la manière dont Microsoft entraîne les grands modèles de langage ».
Selon les sites, on trouve plus ou moins de renseignements supplémentaires. À How-To Geek, un porte-parole a ajouté : « Le paramètre Connected Services est un paramètre standard de l'industrie qui permet d'activer des fonctions nécessitant une connexion Internet. Les expériences connectées jouent un rôle important dans l'amélioration de la productivité en intégrant votre contenu aux ressources disponibles sur le web ».
Mais l’entreprise a également varié dans ses déclarations. À The Register, elle a indiqué : « Dans les applications grand public et commerciales de Microsoft 365, Microsoft n'utilise pas les données des clients pour former de grands modèles de langage sans leur permission ».
Opt-in ? Opt-out ? Manque de clarté ?
Nous avons contacté Microsoft pour obtenir des précisions sur cette déclaration. En l’état, on ne sait pas vraiment ce que la société a voulu dire. Il pourrait s’agir d’un simple problème de communication, ou effectivement d’une option. Dans ce cas, s’agit-il d’un réglage en opt-in ou opt-out ?
On peut facilement vérifier ce qui est activé dans Office. Sous Windows, depuis le menu Fichier d’une des applications, il faut se rendre dans le panneau Compte. De là, on clique sur Gérer les paramètres. Une fenêtre s’ouvre, dans laquelle on peut faire défiler les réglages proposés. On trouve un peu plus bas l’option liée aux Expériences connectées, qui « analysent votre contenu ». Elle est activée par défaut.
Rappelons que l’on peut également voir l’ensemble des paramètres de confidentialité du compte Microsoft depuis cette page (il faut se connecter).
Nous mettrons cette actualité à jour quand l’entreprise nous aura répondu.
[Màj] Microsoft nie catégoriquement utiliser les documents Office pour entrainer ses LLM
-
Analyse des données contre entraînement
-
Microsoft répond, mais…
-
Opt-in ? Opt-out ? Manque de clarté ?
Commentaires (11)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 28/11/2024 à 13h08
Modifié le 28/11/2024 à 13h32
Et que dire des correcteurs orthographiques/grammaticaux?!! Là c'est clairement se foutre du monde que mettre cela dehors.
Il va falloir que certaines activités (industrie/défense/administrations...)/professions (avocats, médecins...) songent sérieusement a passer à Libre-Office... Idéalement sous une distro Linux.
Le 28/11/2024 à 14h46
Office 365 a été developpé pour cet usage ? Non
Je pense que ça fait référence au Microsoft Editor, et non, ce n'est pas "se foutre du monde". ça offre des possibilités de synchronisation et de correction dans de multiples environnements, comme une extension navigateur.
FUD typique au moindre article issu d'un tweet, c'est d'un lassant ...
Le 29/11/2024 à 19h01
Non, sincèrement, c'est indéfendable ce qu'ils font car si c'est flou c'est qu'il y a probablement un loup. Maintenant si tu aimes te faire ouvrir le cerveau en plus de cul on ne va clairement pas pouvoir se comprendre.
Le 29/11/2024 à 19h47
Le 28/11/2024 à 14h51
Le 28/11/2024 à 18h32
Le 28/11/2024 à 21h38
En autre exemple : Slack & Figma.
Le 28/11/2024 à 17h16
Microsoft ment quand ça l'arrange depuis 45 ans, (bordel, ça nous rajeunit pas) , c'est là l'une de ses grandes constantes.
Le 29/11/2024 à 10h19
Le 29/11/2024 à 11h26