L’armée israélienne a entrainé une IA sur des millions de conversations palestiniennes

Ministère des Armées

Martin Clavey

Le 06 mars 2025 à 17h41

Après avoir récupéré des millions de conversations en arabe via les outils qu’elle utilise pour surveiller les palestiniens dans les territoires occupés, l’armée israélienne les a mises à profit pour entrainer un modèle de langage, explique une enquête du Guardian, d’Appel Local et du magazine + 972.

L’armée israélienne a entrainé une IA sur des millions de conversations palestiniennes

Ministère des Armées

Martin Clavey

Le 06 mars 2025 à 17h41

Droit

4 min

L’IA générative étant sur toutes les lèvres, il n’est pas étonnant que les armées de tous les pays s’y essayent. Notamment en Israël, cette « start-up nation » façonnée par l’armée.

Une enquête menée par le Guardian, le magazine israélo-palestinien + 972 et שִׂיחָה מְקוֹמִית (un média dont le titre veut dire « Appel local » en hébreu) révèle que l’armée israélienne a entrainé un grand modèle de langage sur des millions de conversations obtenues via la surveillance des Palestiniens dans les territoires qu’elle occupe.

Selon plusieurs sources de ces trois médias, l’unité 8200 de l’armée chargée de la cyberguerre au sein de la direction du renseignement militaire israélien entrainait toujours ce modèle à la fin de l’année dernière. Nos confrères n’ont pas pu obtenir de confirmation sur le calendrier éventuel de déploiement d’une IA qui s’appuierait sur ce modèle.

L’arabe dialectal visé

Mais l’armée israélienne espérerait tirer les bénéfices de ce modèle pour traiter rapidement de grandes quantités de données de surveillance et répondre à des questions précises concernant des personnes qu’elle cible spécifiquement.

Le Guardian explique que ce projet a été partiellement révélé lors d’une conférence l’année dernière à Tel-Aviv par Chaked Roger Joseph Sayedoff, un ancien expert du renseignement militaire. « Nous avons essayé de créer le plus grand ensemble de données possible [et] de rassembler toutes les données que l’État d’Israël n’a jamais eues en arabe », a déclaré ce dernier, ajoutant que le modèle aurait nécessité une « quantité psychotique » de données.

La spécificité de ce modèle, c’est qu’en s’appuyant sur les conversations écrites et audio des palestiniens, il est entrainé sur des langues et dialectes particuliers.+ 972 raconte que Roger Joseph Sayedoff a expliqué lors de cette conférence que les modèles de langage existants ne pouvaient traiter que l’arabe littéral – utilisé dans les communications officielles, la littérature et les médias – et non l’arabe dialectal, qui prend des formes bien différentes.

Selon une source du Guardian, le modèle utiliserait notamment des conversations en arabe palestinien et libanais.

Un projet boosté par des réservistes

Le média israélo-palestinien explique qu’octobre 2023 a été une date clé pour ce projet qui était déjà en route. Mais, à ce moment-là, l’Unité 8 200 a commencé à recruter en tant que réservistes des experts de modèles de langage venant d’entreprises privées.

Le Co-CEO de l’entreprise israélienne AI21, Ori Goshen, a confirmé à nos confrères que des salariés de son entreprise ont travaillé sur le projet. Celui-ci estime que les modèles de langage pourraient générer des listes de « suspects » en vue d’une arrestation. Mais il espère surtout pouvoir récupérer des données dispersées dans les multiples conversations utilisées pour entrainer les modèles. Il concède dans le même temps que les « hallucinations » des IA génératives peuvent mener à des erreurs et qu’il ne faut pas avoir une confiance aveugle en ces outils.

Interrogé par nos confrères, le chercheur de l’ONG Human Rights Watch, Zach s’est dit alarmé par le fait que l’Unité 8200 utiliserait les LLM pour prendre des décisions importantes concernant la vie des Palestiniens sous occupation militaire.

D’énormes quantités de données sans grande valeur pour le renseignement

Selon le Guardian, l’unité a notamment cherché à entrainer le modèle pour comprendre la terminologie militaire mais s’est retrouvée avec d’énormes quantités de données sur la vie quotidienne des Palestiniens sans grande valeur pour le renseignement.

L’armée israélienne n’a pas voulu répondre aux questions du Guardian mais affirme qu’elle « déploie diverses méthodes de renseignement pour identifier et contrecarrer les activités terroristes d’organisations hostiles au Moyen-Orient ».

Commentaires (5)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

127.0.0.1

Le 06/03/2025 à 17h54

Quoi ? Entrainer une IA sur les conversations de personnes d'intérêt ?
Je suis certain que les autres services de renseignements n'y avaient même pas pensé.

/s

Jarodd Premium

Le 06/03/2025 à 18h28

avec d'énormes quantités de données sur la vie quotidienne des Palestiniens sans grande valeur pour le renseignement

« Allo chérie ? La boulangerie vient d'être bombardée, je ramène de la farine à la place du pain ? »

Jean_G Premium

Modifié le 07/03/2025 à 08h42

John Spartan, vous avez une amende d'un crédit pour infraction au code de moralité du langage.

Trapklap Premium

Modifié le 06/03/2025 à 18h52

Wahou.... le Hamas a vraiment eu du bol de pas s'être fait compromettre sur ses préparatif de l'attaque et que le Mossad n'ai rien vu venir.
Mince à quoi servent les données et l'IA si on sait pas les exploiter...

swiper Premium

Le 07/03/2025 à 09h10

Surtout, on va croire bien gentiment que les services israeliens ne vont pas faire confiance aveuglément à leur IA et ne pas arrêter les gens qui seraient victime de ces hallucinations.
Il ne faudrait pas qu'ils fassent de bavure. Ca serait balot !