Connexion
Abonnez-vous

[Màj] Microsoft nie catégoriquement utiliser les documents Office pour entrainer ses LLM

[Màj] Microsoft nie catégoriquement utiliser les documents Office pour entrainer ses LLM

AIArchitecture © Anton Grabolle / Better Images of AI

Une polémique a explosé durant le week-end dernier : Microsoft se servirait des documents Word et Excel pour entrainer ses grands modèles de langage. L’éditeur dément et argue d’une mauvaise compréhension. Pour autant, tout n’est pas aussi clair que l’entreprise le voudrait.

Le 29 novembre 2024 à 10h14

Mise à jour du 29 novembre : Microsoft nous a répondu, avec des explications plus claires que ce qui avait déjà été indiqué à d’autres : « Ces affirmations sont fausses. Microsoft n'utilise pas les données des clients des applications professionnelles et grand public de Microsoft 365 pour entraîner des grands modèles de langages (LLM) fondamentaux. Dans certains cas, les clients peuvent consentir à l'utilisation de leurs données pour répondre à des besoins spécifiques, tels que le développement de modèles personnalisés, à la demande expresse de certains clients professionnels. »

La société ajoute que le « paramètre de Microsoft 365 qui porte le nom de "Connected Experiences" et auquel certains ont fait référence récemment n'a aucun lien avec la façon dont Microsoft entraîne les grands modèles de langages fondamentaux ». Elle rappelle le fonctionnement des Expériences connectées (qui existent depuis avril 2019), ce que nous avons expliqué dans la première version de cet article.

Article original du 28 novembre : Microsoft a un problème depuis plusieurs jours. Le 24 novembre, le compte NixCraft, suivi par plus de 374 000 abonnés, a publié sur X un message de mise en garde :

« Microsoft Office, comme de nombreuses entreprises ces derniers mois, a sournoisement activé une fonction "opt-out" qui récupère vos documents Word et Excel pour entraîner ses systèmes d'intelligence artificielle internes. Cette fonction est activée par défaut et vous devez décocher manuellement une case pour la désactiver.  Si vous êtes un écrivain qui utilise MS Word pour rédiger des contenus propriétaires (articles de blog, romans, ou tout autre travail que vous avez l'intention de protéger par des droits d'auteur et/ou de vendre), vous voudrez désactiver cette fonction immédiatement. »

De quelle fonction s’agit-il ? Des Expériences connectées. Pourtant, ces dernières existent depuis longtemps. Sur son site, Microsoft dresse ainsi la liste de ces fameuses expériences. Elles contiennent tout ce qui touche de près ou de loin à une fonction en ligne au sein des applications Office. Parmi ces fonctions, on retrouve tout appel à des données extérieures, la dictée, l’Assistant de rédaction (donc la correction orthographique et grammaticale), la lecture à haute voix, la vérification de similarité, la transcription d’enregistrements ou encore la co-création de documents.

Ces fonctions sont disponibles dans les versions Windows et Mac d’Office, ainsi que dans les versions en ligne de la suite bureautique.

Analyse des données contre entraînement

Rapidement, la publication sur X a généré de nombreuses réactions outrées, mais pas seulement. Des voix ont commencé à signaler que les Expériences connectées n’étaient pas nouvelles, et que cette utilisation des données à des fins d’entrainement de LLM n’était pas mentionnée.

Dans sa déclaration de confidentialité, Microsoft indique en effet que les données peuvent être utilisées à des fins d’analyse, afin que les fonctions appelées puissent produire leur effet. En revanche, rien n’indique qu’elles sont récupérées pour les grands modèles de langage, contrairement à d’autres services comme Copilot ou LinkedIn.

Microsoft répond, mais…

Pour apaiser le débat, Microsoft a d’abord répondu à NixCraft le 25 novembre : « Dans les applications M365, nous n'utilisons pas les données des clients pour former les LLM. Ce paramètre n'active que les fonctions nécessitant un accès à Internet, comme la co-écriture d'un document ». La société y a ajouté le lien dressant la liste des Expériences connectées.

Parallèlement, elle a communiqué à plusieurs américains un message qu’elle voulait tout aussi clair : « Microsoft n'utilise pas les données des clients des applications grand public et commerciales de Microsoft 365 pour former de grands modèles de langage. En outre, le paramètre Connected Services n'a aucun lien avec la manière dont Microsoft entraîne les grands modèles de langage ».

Selon les sites, on trouve plus ou moins de renseignements supplémentaires. À How-To Geek, un porte-parole a ajouté : « Le paramètre Connected Services est un paramètre standard de l'industrie qui permet d'activer des fonctions nécessitant une connexion Internet. Les expériences connectées jouent un rôle important dans l'amélioration de la productivité en intégrant votre contenu aux ressources disponibles sur le web ».

Mais l’entreprise a également varié dans ses déclarations. À The Register, elle a indiqué : « Dans les applications grand public et commerciales de Microsoft 365, Microsoft n'utilise pas les données des clients pour former de grands modèles de langage sans leur permission ».

Opt-in ? Opt-out ? Manque de clarté ?

Nous avons contacté Microsoft pour obtenir des précisions sur cette déclaration. En l’état, on ne sait pas vraiment ce que la société a voulu dire. Il pourrait s’agir d’un simple problème de communication, ou effectivement d’une option. Dans ce cas, s’agit-il d’un réglage en opt-in ou opt-out ?

On peut facilement vérifier ce qui est activé dans Office. Sous Windows, depuis le menu Fichier d’une des applications, il faut se rendre dans le panneau Compte. De là, on clique sur Gérer les paramètres. Une fenêtre s’ouvre, dans laquelle on peut faire défiler les réglages proposés. On trouve un peu plus bas l’option liée aux Expériences connectées, qui « analysent votre contenu ». Elle est activée par défaut.

Rappelons que l’on peut également voir l’ensemble des paramètres de confidentialité du compte Microsoft depuis cette page (il faut se connecter).

Nous mettrons cette actualité à jour quand l’entreprise nous aura répondu.

Commentaires (11)

votre avatar
C'est bien opaque tout ça. Ça me rappelle toutes les connexions permanentes et indiscrètes de Windows (aussi bien vers des serveurs de Microsoft que vers des prestataires externes), sensées apporter officiellement une meilleure expérience aux utilisateurs et qui n'apporteraient rien de concret à part une surveillance réelle anti-piratage...
votre avatar
A croire qu'on ne sait pas faire de la transcription vocale (les médecins en sont de friands utilisateurs, depuis que cela existe, pour rédiger rapidement leurs comptes-rendus en fin de consultation, avec généralement juste quelques corrections au clavier: Bonjour ici les pb liés au secret médical si Office envoie toute la captation dehors!) en local depuis des lustres...
Et que dire des correcteurs orthographiques/grammaticaux?!! Là c'est clairement se foutre du monde que mettre cela dehors.
Il va falloir que certaines activités (industrie/défense/administrations...)/professions (avocats, médecins...) songent sérieusement a passer à Libre-Office... Idéalement sous une distro Linux.
votre avatar
A croire qu'on ne sait pas faire de la transcription vocale (les médecins en sont de friands utilisateurs, depuis que cela existe, pour rédiger rapidement leurs comptes-rendus en fin de consultation, avec généralement juste quelques corrections au clavier: Bonjour ici les pb liés au secret médical si Office envoie toute la captation dehors!) en local depuis des lustres...
On sait le faire en local ? Oui
Office 365 a été developpé pour cet usage ? Non
Et que dire des correcteurs orthographiques/grammaticaux?!! Là c'est clairement se foutre du monde que mettre cela dehors.
Je pense que ça fait référence au Microsoft Editor, et non, ce n'est pas "se foutre du monde". ça offre des possibilités de synchronisation et de correction dans de multiples environnements, comme une extension navigateur.
Il va falloir que certaines activités (industrie/défense/administrations...)/professions (avocats, médecins...) songent sérieusement a passer à Libre-Office... Idéalement sous une distro Linux.
FUD typique au moindre article issu d'un tweet, c'est d'un lassant ...
votre avatar
Le FUD? Tu veux parler de la grande spécialité de Microsoft...
Non, sincèrement, c'est indéfendable ce qu'ils font car si c'est flou c'est qu'il y a probablement un loup. Maintenant si tu aimes te faire ouvrir le cerveau en plus de cul on ne va clairement pas pouvoir se comprendre.
votre avatar
Il bosse très probablement chez Microsoft, ça se voit à ses contributions sur Microsoft. Ta dernière phrase ne va pas le faire changer d'avis.
votre avatar
Adobe a déjà bien indiqué que tout ce qui est sur leur Cloud leur appartient et sert à alimenter de l'IA… J'ai des doutes que Microsoft ne fasse pas la même chose avec le stockage cloud Microsoft 365.
votre avatar
Adobe a déjà bien indiqué que tout ce qui est sur leur Cloud leur appartient et sert à alimenter de l'IA…
Tu es sûr ?
votre avatar
Comme les autres modèles n'ont pas été entrainés sur des données piratées… "Je vous jure"

En autre exemple : Slack & Figma.
votre avatar
Quel que soit le niveau de limpidité avec laquelle MS parle, il faut comprendre que si on croit qu'on a compris, alors on s'est fait avoir. (ça me rappelle cet ancien patron de la FED américaine, leur banque centrale, qui disait "ah mais si vous m'avez bien compris, c'est que je me suis mal exprimé".

Microsoft ment quand ça l'arrange depuis 45 ans, (bordel, ça nous rajeunit pas) , c'est là l'une de ses grandes constantes.
votre avatar
Ah ouf, ils ont dit: promis on fait pas, je suis rassuré... Ils vendent que des machins à base d'AI, mais promis, on n'utilise rien, juré craché.
votre avatar
Une bonne idée d’article, un état des lieux de l’utilisation de nos données/contributions en ligne pour dresser des IA (des captchas aux choses plus privées, mails ? documents textuels? etc.)

[Màj] Microsoft nie catégoriquement utiliser les documents Office pour entrainer ses LLM

  • Analyse des données contre entraînement

  • Microsoft répond, mais…

  • Opt-in ? Opt-out ? Manque de clarté ?

Fermer