[Màj] Microsoft nie catégoriquement utiliser les documents Office pour entrainer ses LLM

AIArchitecture © Anton Grabolle / Better Images of AI

Une polémique a explosé durant le week-end dernier : Microsoft se servirait des documents Word et Excel pour entrainer ses grands modèles de langage. L’éditeur dément et argue d’une mauvaise compréhension. Pour autant, tout n’est pas aussi clair que l’entreprise le voudrait.

Vincent Hermann

Le 29 novembre 2024 à 10h14

6 min

IA et algorithmes

Mise à jour du 29 novembre : Microsoft nous a répondu, avec des explications plus claires que ce qui avait déjà été indiqué à d’autres : « Ces affirmations sont fausses. Microsoft n'utilise pas les données des clients des applications professionnelles et grand public de Microsoft 365 pour entraîner des grands modèles de langages (LLM) fondamentaux. Dans certains cas, les clients peuvent consentir à l'utilisation de leurs données pour répondre à des besoins spécifiques, tels que le développement de modèles personnalisés, à la demande expresse de certains clients professionnels. »

La société ajoute que le « paramètre de Microsoft 365 qui porte le nom de "Connected Experiences" et auquel certains ont fait référence récemment n'a aucun lien avec la façon dont Microsoft entraîne les grands modèles de langages fondamentaux ». Elle rappelle le fonctionnement des Expériences connectées (qui existent depuis avril 2019), ce que nous avons expliqué dans la première version de cet article.

Article original du 28 novembre : Microsoft a un problème depuis plusieurs jours. Le 24 novembre, le compte NixCraft, suivi par plus de 374 000 abonnés, a publié sur X un message de mise en garde :

« Microsoft Office, comme de nombreuses entreprises ces derniers mois, a sournoisement activé une fonction "opt-out" qui récupère vos documents Word et Excel pour entraîner ses systèmes d'intelligence artificielle internes. Cette fonction est activée par défaut et vous devez décocher manuellement une case pour la désactiver. Si vous êtes un écrivain qui utilise MS Word pour rédiger des contenus propriétaires (articles de blog, romans, ou tout autre travail que vous avez l'intention de protéger par des droits d'auteur et/ou de vendre), vous voudrez désactiver cette fonction immédiatement. »

De quelle fonction s’agit-il ? Des Expériences connectées. Pourtant, ces dernières existent depuis longtemps. Sur son site, Microsoft dresse ainsi la liste de ces fameuses expériences. Elles contiennent tout ce qui touche de près ou de loin à une fonction en ligne au sein des applications Office. Parmi ces fonctions, on retrouve tout appel à des données extérieures, la dictée, l’Assistant de rédaction (donc la correction orthographique et grammaticale), la lecture à haute voix, la vérification de similarité, la transcription d’enregistrements ou encore la co-création de documents.

Ces fonctions sont disponibles dans les versions Windows et Mac d’Office, ainsi que dans les versions en ligne de la suite bureautique.

Analyse des données contre entraînement

Rapidement, la publication sur X a généré de nombreuses réactions outrées, mais pas seulement. Des voix ont commencé à signaler que les Expériences connectées n’étaient pas nouvelles, et que cette utilisation des données à des fins d’entrainement de LLM n’était pas mentionnée.

Dans sa déclaration de confidentialité, Microsoft indique en effet que les données peuvent être utilisées à des fins d’analyse, afin que les fonctions appelées puissent produire leur effet. En revanche, rien n’indique qu’elles sont récupérées pour les grands modèles de langage, contrairement à d’autres services comme Copilot ou LinkedIn.

Microsoft répond, mais…

Pour apaiser le débat, Microsoft a d’abord répondu à NixCraft le 25 novembre : « Dans les applications M365, nous n'utilisons pas les données des clients pour former les LLM. Ce paramètre n'active que les fonctions nécessitant un accès à Internet, comme la co-écriture d'un document ». La société y a ajouté le lien dressant la liste des Expériences connectées.

Parallèlement, elle a communiqué à plusieurs américains un message qu’elle voulait tout aussi clair : « Microsoft n'utilise pas les données des clients des applications grand public et commerciales de Microsoft 365 pour former de grands modèles de langage. En outre, le paramètre Connected Services n'a aucun lien avec la manière dont Microsoft entraîne les grands modèles de langage ».

Selon les sites, on trouve plus ou moins de renseignements supplémentaires. À How-To Geek, un porte-parole a ajouté : « Le paramètre Connected Services est un paramètre standard de l'industrie qui permet d'activer des fonctions nécessitant une connexion Internet. Les expériences connectées jouent un rôle important dans l'amélioration de la productivité en intégrant votre contenu aux ressources disponibles sur le web ».

Mais l’entreprise a également varié dans ses déclarations. À The Register, elle a indiqué : « Dans les applications grand public et commerciales de Microsoft 365, Microsoft n'utilise pas les données des clients pour former de grands modèles de langage sans leur permission ».

Opt-in ? Opt-out ? Manque de clarté ?

Nous avons contacté Microsoft pour obtenir des précisions sur cette déclaration. En l’état, on ne sait pas vraiment ce que la société a voulu dire. Il pourrait s’agir d’un simple problème de communication, ou effectivement d’une option. Dans ce cas, s’agit-il d’un réglage en opt-in ou opt-out ?

On peut facilement vérifier ce qui est activé dans Office. Sous Windows, depuis le menu Fichier d’une des applications, il faut se rendre dans le panneau Compte. De là, on clique sur Gérer les paramètres. Une fenêtre s’ouvre, dans laquelle on peut faire défiler les réglages proposés. On trouve un peu plus bas l’option liée aux Expériences connectées, qui « analysent votre contenu ». Elle est activée par défaut.

Rappelons que l’on peut également voir l’ensemble des paramètres de confidentialité du compte Microsoft depuis cette page (il faut se connecter).

Nous mettrons cette actualité à jour quand l’entreprise nous aura répondu.

Commentaires (11)

Abonnez-vous pour prendre part au débat

Déjà abonné ? Se connecter

Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles

Profitez d’un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

sylvaing Abonné

Le 28/11/2024 à 13h08

C'est bien opaque tout ça. Ça me rappelle toutes les connexions permanentes et indiscrètes de Windows (aussi bien vers des serveurs de Microsoft que vers des prestataires externes), sensées apporter officiellement une meilleure expérience aux utilisateurs et qui n'apporteraient rien de concret à part une surveillance réelle anti-piratage...

Modifié le 28/11/2024 à 13h32

A croire qu'on ne sait pas faire de la transcription vocale (les médecins en sont de friands utilisateurs, depuis que cela existe, pour rédiger rapidement leurs comptes-rendus en fin de consultation, avec généralement juste quelques corrections au clavier: Bonjour ici les pb liés au secret médical si Office envoie toute la captation dehors!) en local depuis des lustres...
Et que dire des correcteurs orthographiques/grammaticaux?!! Là c'est clairement se foutre du monde que mettre cela dehors.
Il va falloir que certaines activités (industrie/défense/administrations...)/professions (avocats, médecins...) songent sérieusement a passer à Libre-Office... Idéalement sous une distro Linux.

Myifee

Le 28/11/2024 à 14h46

A croire qu'on ne sait pas faire de la transcription vocale (les médecins en sont de friands utilisateurs, depuis que cela existe, pour rédiger rapidement leurs comptes-rendus en fin de consultation, avec généralement juste quelques corrections au clavier: Bonjour ici les pb liés au secret médical si Office envoie toute la captation dehors!) en local depuis des lustres...

On sait le faire en local ? Oui
Office 365 a été developpé pour cet usage ? Non

Et que dire des correcteurs orthographiques/grammaticaux?!! Là c'est clairement se foutre du monde que mettre cela dehors.

Je pense que ça fait référence au Microsoft Editor, et non, ce n'est pas "se foutre du monde". ça offre des possibilités de synchronisation et de correction dans de multiples environnements, comme une extension navigateur.

Il va falloir que certaines activités (industrie/défense/administrations...)/professions (avocats, médecins...) songent sérieusement a passer à Libre-Office... Idéalement sous une distro Linux.

FUD typique au moindre article issu d'un tweet, c'est d'un lassant ...

Le 29/11/2024 à 19h01

Le FUD? Tu veux parler de la grande spécialité de Microsoft...
Non, sincèrement, c'est indéfendable ce qu'ils font car si c'est flou c'est qu'il y a probablement un loup. Maintenant si tu aimes te faire ouvrir le cerveau en plus de cul on ne va clairement pas pouvoir se comprendre.

fred42 Abonné

Le 29/11/2024 à 19h47

Il bosse très probablement chez Microsoft, ça se voit à ses contributions sur Microsoft. Ta dernière phrase ne va pas le faire changer d'avis.

bilbonsacquet Abonné

Le 28/11/2024 à 14h51

Adobe a déjà bien indiqué que tout ce qui est sur leur Cloud leur appartient et sert à alimenter de l'IA… J'ai des doutes que Microsoft ne fasse pas la même chose avec le stockage cloud Microsoft 365.

fred42 Abonné

Le 28/11/2024 à 18h32

Adobe a déjà bien indiqué que tout ce qui est sur leur Cloud leur appartient et sert à alimenter de l'IA…

Tu es sûr ?

bilbonsacquet Abonné

Le 28/11/2024 à 21h38

Comme les autres modèles n'ont pas été entrainés sur des données piratées… "Je vous jure"

En autre exemple : Slack & Figma.

Aqua Abonné

Le 28/11/2024 à 17h16

Quel que soit le niveau de limpidité avec laquelle MS parle, il faut comprendre que si on croit qu'on a compris, alors on s'est fait avoir. (ça me rappelle cet ancien patron de la FED américaine, leur banque centrale, qui disait "ah mais si vous m'avez bien compris, c'est que je me suis mal exprimé".

Microsoft ment quand ça l'arrange depuis 45 ans, (bordel, ça nous rajeunit pas) , c'est là l'une de ses grandes constantes.

eglyn Abonné

Le 29/11/2024 à 10h19

Ah ouf, ils ont dit: promis on fait pas, je suis rassuré... Ils vendent que des machins à base d'AI, mais promis, on n'utilise rien, juré craché.

seboquoi

Le 29/11/2024 à 11h26

Une bonne idée d’article, un état des lieux de l’utilisation de nos données/contributions en ligne pour dresser des IA (des captchas aux choses plus privées, mails ? documents textuels? etc.)

[Màj] Microsoft nie catégoriquement utiliser les documents Office pour entrainer ses LLM

Analyse des données contre entraînement
Microsoft répond, mais…
Opt-in ? Opt-out ? Manque de clarté ?

Catégories

Nous Suivre

À propos