Apple détaille ses cinq nouveaux modèles d’IA et admet à demi-mot ses ratés

Le club des cinq

Mickael Bazoge

Le 11 juin à 09h01

Apple renouvelle entièrement les modèles IA qui propulsent les fonctions Apple Intelligence. Et admet (presque) que la précédente génération n’était pas vraiment à la hauteur.

Apple détaille ses cinq nouveaux modèles d’IA et admet à demi-mot ses ratés

Le club des cinq

Apple renouvelle entièrement les modèles IA qui propulsent les fonctions Apple Intelligence. Et admet (presque) que la précédente génération n’était pas vraiment à la hauteur.

Mickael Bazoge

Le 11 juin à 09h01

IA et algorithmes

5 min

Sous le capot d’Apple Intelligence se trouve une famille de grands modèles de langage. Avec iOS 27 et les autres systèmes d’exploitation en « 27 », le constructeur inaugure la 3e génération de ses LLM, baptisés Apple Foundation Models (AFM), dont la particularité est de reposer sur les modèles Gemini de Google. Pas de surprise ici, l’accord entre Apple et Google avait été confirmé au mois de janvier.

Un Apple Intelligence, cinq moteurs

À l’occasion de la WWDC, Apple a présenté les nouvelles capacités de sa plateforme d’IA et de Siri, et aussi levé une petite partie du voile sur les modèles AFM 3. Comme chez les autres acteurs IA quand il s’agit de présenter de nouveaux modèles, Apple n’est pas avare en superlatifs et en promesses de performances. Mais derrière cette communication bien huilée se cache un aveu plus discret : les premiers modèles Apple Intelligence n’étaient manifestement pas au niveau attendu… ce que le retard du nouveau Siri et les critiques entourant Apple Intelligence ont largement mis en lumière.

Avant toute chose, jetons un œil aux forces en présence. Cette nouvelle fournée d’Apple Intelligence s’appuie sur cinq modèles : deux sont exécutés directement sur l’appareil, les trois autres sont hébergés dans le cloud. AFM 3 Core (3 milliards de paramètres) et AFM 3 Core Advanced sont les modèles locaux. Ce dernier compte 20 milliards de paramètres, mais n’en active qu’1 à 4 milliards en fonction des requêtes.

Cette méthode astucieuse exploite des travaux de recherche internes portant sur la sélection dynamique des paramètres d’un modèle. Au lieu de charger l’intégralité du modèle en mémoire vive, l’appareil active uniquement les portions jugées utiles pour la requête en cours. Les autres paramètres restent stockés dans la mémoire flash de l’appareil, ce qui permet à Apple d’utiliser un modèle beaucoup plus volumineux que ce que la RAM seule autoriserait.

Cette puissance de frappe ouvre de nouveaux horizons à Siri AI : les voix sont plus expressives et il est possible de les personnaliser, la dictée vocale se veut plus précise. Pour en profiter, il faut cependant posséder un appareil doté de 12 Go de mémoire, ce qui qualifie l’iPhone Air, l’iPhone 17 Pro (mais pas l’iPhone 17, limité à 8 Go), un Mac M3 ou iPad M4 suffisamment doté en mémoire.

iOS 27 permet de personnaliser la voix de Siri. Image : Apple

Les trois autres modèles sont hébergés sur des serveurs : AFM 3 Cloud « optimisé pour la vitesse, l’efficacité et les performances », ADM 3 Cloud pour la génération d’images et les outils d’édition photo avancés, et AFM 3 Cloud Pro qui prend en charge les requêtes les plus exigeantes comme les outils agentiques et le raisonnement complexe.

Quelques images générées par ADM 3 Cloud.

Les deux premiers tournent sur des serveurs équipés de puces Apple. AFM 3 Cloud Pro a ceci de spécifique qu’il fonctionne sur des serveurs dotés de GPU NVIDIA hébergés dans Google Cloud. Il a donc fallu étendre Private Cloud Compute, l’architecture de protection des données personnelles d’Apple, à cette configuration. Cette dépendance à deux des principaux acteurs du secteur de l’IA est d’ailleurs inhabituelle pour une entreprise qui n’aime rien tant que maîtriser la chaîne technologique de bout en bout.

Des benchmarks et un aveu caché

Apple donne également quelques détails sur les performances de ses modèles. Dans ce domaine, chaque acteur fait sa petite sauce dans son coin mais en général, les nouveaux modèles utilisent des benchmarks plus ou moins standardisés (SWE-bench, MMLU, Humanity’s Last Exam…) ce qui autorise les comparaisons.

Contrairement à son rapport technique publié l’an dernier, dans lequel Apple comparait ses modèles à GPT-4o, Gemma ou Qwen sur plusieurs benchmarks reconnus du secteur, la présentation d’AFM 3 se concentre presque exclusivement sur des évaluations internes et des comparaisons avec la génération précédente. La méthode est tout à fait légitime, mais elle rend impossibles les comparaisons avec les modèles concurrents.

C’est d’autant plus vrai qu’Apple ne compare AFM 3 qu’à la génération précédente de ses propres modèles (2025). Ce qui donne des résultats pour le moins flatteurs : pour les capacités générales en texte en local, AFM 3 Core est ainsi préféré dans 45,6 % des cas, contre 23,3 % pour son prédécesseur. En matière de compréhension d’images, AFM 3 Core a été préféré à son prédécesseur dans plus de 61 % des cas où les testeurs ont marqué une préférence.

Sur serveur, pour les capacités texte, AFM 3 Cloud obtient 64,7 % de préférences contre 8,7 % « seulement » (c’est Apple qui le dit) pour l’ancien modèle. Les performances en compréhension d’images progressent fortement, tout comme la dictée et les voix de synthèse. Le constructeur californien ne dira jamais explicitement que ses premiers modèles étaient insuffisants. Mais l’insistance sur les « avancées significatives » et le « bond générationnel » d’AFM 3 montre assez clairement que la première vague d’Apple Intelligence était en retrait, en tout cas insuffisamment performante pour soutenir la vision d’ensemble de l’entreprise.

Commentaires (3)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

rxPyOm Premium

Le 11 juin à 10h18

Intéressant merci !

SebGF Premium

Le 11 juin à 13h29

Quelques images générées par ADM 3 Cloud.

C'est dingue comment je ne ressens jamais rien devant une image générée ainsi.

white_tentacle Premium

Le 12 juin à 08h16

Voir le modèle précédent préféré 20% du temps, c’est plutôt très mauvais comme résultat, non ? Si j’ai bien compris le bench, ce n’est pas flatteur du tout, ça voudrait dire que le nouveau modèle ferait pareil que l’ancien dans environ 30% des cas, un peu mieux dans 50% des cas, et un peu moins bien dans 20% des cas. Bref, on est loin d’ùne révolution…