Connexion
Abonnez-vous

Microsoft nie utiliser les documents Office pour entrainer ses LLM

Microsoft nie utiliser les documents Office pour entrainer ses LLM

AIArchitecture © Anton Grabolle / Better Images of AI

Une polémique a explosé durant le week-end dernier : Microsoft se servirait des documents Word et Excel pour entrainer ses grands modèles de langage. L’éditeur dément et argue d’une mauvaise compréhension. Pour autant, tout n’est pas aussi clair que l’entreprise le voudrait.

Le 28 novembre à 12h26

Microsoft a un problème depuis plusieurs jours. Le 24 novembre, le compte NixCraft, suivi par plus de 374 000 abonnés, a publié sur X un message de mise en garde :

« Microsoft Office, comme de nombreuses entreprises ces derniers mois, a sournoisement activé une fonction "opt-out" qui récupère vos documents Word et Excel pour entraîner ses systèmes d'intelligence artificielle internes. Cette fonction est activée par défaut et vous devez décocher manuellement une case pour la désactiver.  Si vous êtes un écrivain qui utilise MS Word pour rédiger des contenus propriétaires (articles de blog, romans, ou tout autre travail que vous avez l'intention de protéger par des droits d'auteur et/ou de vendre), vous voudrez désactiver cette fonction immédiatement. »

De quelle fonction s’agit-il ? Des Expériences connectées. Pourtant, ces dernières existent depuis longtemps. Sur son site, Microsoft dresse ainsi la liste de ces fameuses expériences. Elles contiennent tout ce qui touche de près ou de loin à une fonction en ligne au sein des applications Office. Parmi ces fonctions, on retrouve tout appel à des données extérieures, la dictée, l’Assistant de rédaction (donc la correction orthographique et grammaticale), la lecture à haute voix, la vérification de similarité, la transcription d’enregistrements ou encore la co-création de documents.

Ces fonctions sont disponibles dans les versions Windows et Mac d’Office, ainsi que dans les versions en ligne de la suite bureautique.

Analyse des données contre entraînement

Rapidement, la publication sur X a généré de nombreuses réactions outrées, mais pas seulement. Des voix ont commencé à signaler que les Expériences connectées n’étaient pas nouvelles, et que cette utilisation des données à des fins d’entrainement de LLM n’était pas mentionnée.

Dans sa déclaration de confidentialité, Microsoft indique en effet que les données peuvent être utilisées à des fins d’analyse, afin que les fonctions appelées puissent produire leur effet. En revanche, rien n’indique qu’elles sont récupérées pour les grands modèles de langage, contrairement à d’autres services comme Copilot ou LinkedIn.

Microsoft répond, mais…

Pour apaiser le débat, Microsoft a d’abord répondu à NixCraft le 25 novembre : « Dans les applications M365, nous n'utilisons pas les données des clients pour former les LLM. Ce paramètre n'active que les fonctions nécessitant un accès à Internet, comme la co-écriture d'un document ». La société y a ajouté le lien dressant la liste des Expériences connectées.

Parallèlement, elle a communiqué à plusieurs américains un message qu’elle voulait tout aussi clair : « Microsoft n'utilise pas les données des clients des applications grand public et commerciales de Microsoft 365 pour former de grands modèles de langage. En outre, le paramètre Connected Services n'a aucun lien avec la manière dont Microsoft entraîne les grands modèles de langage ».

Selon les sites, on trouve plus ou moins de renseignements supplémentaires. À How-To Geek, un porte-parole a ajouté : « Le paramètre Connected Services est un paramètre standard de l'industrie qui permet d'activer des fonctions nécessitant une connexion Internet. Les expériences connectées jouent un rôle important dans l'amélioration de la productivité en intégrant votre contenu aux ressources disponibles sur le web ».

Mais l’entreprise a également varié dans ses déclarations. À The Register, elle a indiqué : « Dans les applications grand public et commerciales de Microsoft 365, Microsoft n'utilise pas les données des clients pour former de grands modèles de langage sans leur permission ».

Opt-in ? Opt-out ? Manque de clarté ?

Nous avons contacté Microsoft pour obtenir des précisions sur cette déclaration. En l’état, on ne sait pas vraiment ce que la société a voulu dire. Il pourrait s’agir d’un simple problème de communication, ou effectivement d’une option. Dans ce cas, s’agit-il d’un réglage en opt-in ou opt-out ?

On peut facilement vérifier ce qui est activé dans Office. Sous Windows, depuis le menu Fichier d’une des applications, il faut se rendre dans le panneau Compte. De là, on clique sur Gérer les paramètres. Une fenêtre s’ouvre, dans laquelle on peut faire défiler les réglages proposés. On trouve un peu plus bas l’option liée aux Expériences connectées, qui « analysent votre contenu ». Elle est activée par défaut.

Rappelons que l’on peut également voir l’ensemble des paramètres de confidentialité du compte Microsoft depuis cette page (il faut se connecter).

Nous mettrons cette actualité à jour quand l’entreprise nous aura répondu.

Commentaires (4)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar
C'est bien opaque tout ça. Ça me rappelle toutes les connexions permanentes et indiscrètes de Windows (aussi bien vers des serveurs de Microsoft que vers des prestataires externes), sensées apporter officiellement une meilleure expérience aux utilisateurs et qui n'apporteraient rien de concret à part une surveillance réelle anti-piratage...
votre avatar
A croire qu'on ne sait pas faire de la transcription vocale (les médecins en sont de friands utilisateurs, depuis que cela existe, pour rédiger rapidement leurs comptes-rendus en fin de consultation, avec généralement juste quelques corrections au clavier: Bonjour ici les pb liés au secret médical si Office envoie toute la captation dehors!) en local depuis des lustres...
Et que dire des correcteurs orthographiques/grammaticaux?!! Là c'est clairement se foutre du monde que mettre cela dehors.
Il va falloir que certaines activités (industrie/défense/administrations...)/professions (avocats, médecins...) songent sérieusement a passer à Libre-Office... Idéalement sous une distro Linux.
votre avatar
A croire qu'on ne sait pas faire de la transcription vocale (les médecins en sont de friands utilisateurs, depuis que cela existe, pour rédiger rapidement leurs comptes-rendus en fin de consultation, avec généralement juste quelques corrections au clavier: Bonjour ici les pb liés au secret médical si Office envoie toute la captation dehors!) en local depuis des lustres...
On sait le faire en local ? Oui
Office 365 a été developpé pour cet usage ? Non
Et que dire des correcteurs orthographiques/grammaticaux?!! Là c'est clairement se foutre du monde que mettre cela dehors.
Je pense que ça fait référence au Microsoft Editor, et non, ce n'est pas "se foutre du monde". ça offre des possibilités de synchronisation et de correction dans de multiples environnements, comme une extension navigateur.
Il va falloir que certaines activités (industrie/défense/administrations...)/professions (avocats, médecins...) songent sérieusement a passer à Libre-Office... Idéalement sous une distro Linux.
FUD typique au moindre article issu d'un tweet, c'est d'un lassant ...
votre avatar
Adobe a déjà bien indiqué que tout ce qui est sur leur Cloud leur appartient et sert à alimenter de l'IA… J'ai des doutes que Microsoft ne fasse pas la même chose avec le stockage cloud Microsoft 365.

Microsoft nie utiliser les documents Office pour entrainer ses LLM

  • Analyse des données contre entraînement

  • Microsoft répond, mais…

  • Opt-in ? Opt-out ? Manque de clarté ?

Fermer