L’armée israélienne a entrainé une IA sur des millions de conversations palestiniennes

Ministère des Armées
Après avoir récupéré des millions de conversations en arabe via les outils qu'elle utilise pour surveiller les palestiniens dans les territoires occupés, l'armée israélienne les a mises à profit pour entrainer un modèle de langage, explique une enquête du Guardian, d'Appel Local et du magazine + 972.
Le 06 mars à 17h41
4 min
Droit
Droit
L'IA générative étant sur toutes les lèvres, il n'est pas étonnant que les armées de tous les pays s'y essayent. Notamment en Israël, cette « start-up nation » façonnée par l’armée.
Une enquête menée par le Guardian, le magazine israélo-palestinien + 972 et שִׂיחָה מְקוֹמִית (un média dont le titre veut dire « Appel local » en hébreu) révèle que l'armée israélienne a entrainé un grand modèle de langage sur des millions de conversations obtenues via la surveillance des Palestiniens dans les territoires qu'elle occupe.
Selon plusieurs sources de ces trois médias, l'unité 8200 de l'armée chargée de la cyberguerre au sein de la direction du renseignement militaire israélien entrainait toujours ce modèle à la fin de l'année dernière. Nos confrères n'ont pas pu obtenir de confirmation sur le calendrier éventuel de déploiement d'une IA qui s'appuierait sur ce modèle.
L'arabe dialectal visé
Mais l'armée israélienne espérerait tirer les bénéfices de ce modèle pour traiter rapidement de grandes quantités de données de surveillance et répondre à des questions précises concernant des personnes qu'elle cible spécifiquement.
Le Guardian explique que ce projet a été partiellement révélé lors d'une conférence l'année dernière à Tel-Aviv par Chaked Roger Joseph Sayedoff, un ancien expert du renseignement militaire. « Nous avons essayé de créer le plus grand ensemble de données possible [et] de rassembler toutes les données que l'État d'Israël n'a jamais eues en arabe », a déclaré ce dernier, ajoutant que le modèle aurait nécessité une « quantité psychotique » de données.
La spécificité de ce modèle, c'est qu'en s'appuyant sur les conversations écrites et audio des palestiniens, il est entrainé sur des langues et dialectes particuliers.+ 972 raconte que Roger Joseph Sayedoff a expliqué lors de cette conférence que les modèles de langage existants ne pouvaient traiter que l'arabe littéral - utilisé dans les communications officielles, la littérature et les médias - et non l'arabe dialectal, qui prend des formes bien différentes.
Selon une source du Guardian, le modèle utiliserait notamment des conversations en arabe palestinien et libanais.
Un projet boosté par des réservistes
Le média israélo-palestinien explique qu'octobre 2023 a été une date clé pour ce projet qui était déjà en route. Mais, à ce moment-là, l'Unité 8 200 a commencé à recruter en tant que réservistes des experts de modèles de langage venant d'entreprises privées.
Le Co-CEO de l'entreprise israélienne AI21, Ori Goshen, a confirmé à nos confrères que des salariés de son entreprise ont travaillé sur le projet. Celui-ci estime que les modèles de langage pourraient générer des listes de « suspects » en vue d'une arrestation. Mais il espère surtout pouvoir récupérer des données dispersées dans les multiples conversations utilisées pour entrainer les modèles. Il concède dans le même temps que les « hallucinations » des IA génératives peuvent mener à des erreurs et qu'il ne faut pas avoir une confiance aveugle en ces outils.
Interrogé par nos confrères, le chercheur de l'ONG Human Rights Watch, Zach s'est dit alarmé par le fait que l'Unité 8200 utiliserait les LLM pour prendre des décisions importantes concernant la vie des Palestiniens sous occupation militaire.
D'énormes quantités de données sans grande valeur pour le renseignement
Selon le Guardian, l'unité a notamment cherché à entrainer le modèle pour comprendre la terminologie militaire mais s'est retrouvée avec d'énormes quantités de données sur la vie quotidienne des Palestiniens sans grande valeur pour le renseignement.
L'armée israélienne n'a pas voulu répondre aux questions du Guardian mais affirme qu'elle « déploie diverses méthodes de renseignement pour identifier et contrecarrer les activités terroristes d'organisations hostiles au Moyen-Orient ».
L’armée israélienne a entrainé une IA sur des millions de conversations palestiniennes
-
L'arabe dialectal visé
-
Un projet boosté par des réservistes
-
D'énormes quantités de données sans grande valeur pour le renseignement
Commentaires (5)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 06/03/2025 à 17h54
Je suis certain que les autres services de renseignements n'y avaient même pas pensé.
/s
Le 06/03/2025 à 18h28
Modifié le 07/03/2025 à 08h42
Modifié le 06/03/2025 à 18h52
Mince à quoi servent les données et l'IA si on sait pas les exploiter...
Le 07/03/2025 à 09h10
Il ne faudrait pas qu'ils fassent de bavure. Ca serait balot !