Voici le Snapdragon 6 Gen 4, avec prise en charge d’INT4 « pour un traitement IA plus rapide »

Sébastien Gavois

Le 13 février 2025 à 08h00

Avec son nouveau SoC Snapdragon 6 Gen 4, Qualcomm veut ajouter de l’IA générative aux smartphones de milieu de gamme. Elle améliore un peu les performances par rapport à la Gen 3, mais prend surtout en charge la précision INT4 pour l’inférence.

Voici le Snapdragon 6 Gen 4, avec prise en charge d’INT4 « pour un traitement IA plus rapide »

Sébastien Gavois

Le 13 février 2025 à 08h00

Droit

3 min

Qualcomm continue d’annoncer de nouveaux SoC à un rythme relativement soutenu. Le Snapdragon 6 Gen 3 (successeur du Snapdragon 6 Gen 1, le Gen 2 n’existe pas) était discrètement ajouté au catalogue en septembre dernier, avec toujours la même complexité dans la nomenclature des puces.

Hardware

Nouveau SoC chez Qualcomm… toujours le même gloubi-boulga dans les gammes

Hardware

Mercredi 04 septembre 2024 à 13h37 04/09/2024 13h37

11 % de mieux sur la partie CPU, jusqu’à 29 % sur le GPU

Voilà aujourd’hui que la Gen 4 arrive. Qualcomm annonce « des performances CPU améliorées de 11 % grâce au dernier processeur Kryo, des performances GPU jusqu’à 29 % supérieures avec le GPU Adreno et 12 % d’économies d’énergie pour améliorer l’expérience utilisateur à tous les niveaux ».

Comme les autres SoC de cette gamme, la partie CPU comprend huit cœurs : un cœur « Prime » jusqu’à 2,3 GHz (100 MHz de moins que sur la Gen 3), trois cœurs « Performance » jusqu’à 2,2 GHz et quatre cœurs « Efficiency » jusqu’à 1,8 GHz.

Pour le reste, rien de surprenant : de la 5G jusqu’à 2,9 Gb/s, du Wi-Fi 6E, du Bluetooth 5.4 LE, jusqu’à 16 Go de LPDDR4X ou LPDDR5X au choix, une finesse de gravure en 4 nm, etc. La fiche technique se trouve par là, la page dédiée au Snapdragon 6 Gen 4 par ici.

Prise en charge de l’IA générative, une première pour la série 6

Le constructeur met surtout en avant, « pour la première fois dans cette série, une prise en charge de l’IA générative ». L’IA était déjà présente dans les précédentes versions. En effet, avec la Gen 3 du Snapdragon 6, Qualcomm annonçait des gains jusqu’à 10 % sur la partie CPU, 30 % sur le GPU et 20 % sur le Qualcomm AI Engine. La nouveauté n’est donc pas à chercher dans ce dernier, mais dans le détail des fonctionnalités.

Le constructeur indique que le NPU (neural processing unit) Hexagon de la puce Snapdragon 6 Gen 4 prend désormais en charge les nombres INT4 « pour un traitement IA plus rapide », en plus des INT8 et INT16. Le Snapdragon 8 Gen 2 annoncé en 2022 avait déjà droit à cette précision de 4 bits sur les entiers. À l’époque, Qualcomm affirmait que « la prise en charge de la précision INT4 augmentait les performances par watt de 60 % pour une inférence d’IA soutenue ».

Logiciel

Les nombres en informatique : entiers, virgule flottante, simple et double précision (FP32/64), Tensor Float (TF32)…

Logiciel

Jeudi 01 juin 2023 à 07h45 01/06/2023 07h45

56

La société évoque aussi une efficacité améliorée du Qualcomm Sensing Hub, avec « un système IA à faible consommation ».

De nouveaux smartphones dans les mois à venir

Selon Qualcomm, plusieurs fabricants annonceront de nouveaux smartphones dans les mois à venir, notamment realme, OPPO and Honor. Le Mobile World Congress (MWC) de Barcelone, qui se tiendra du 3 au 6 mars 2025, devrait être le théâtre de nombreuses présentations de smartphones avec un SoC Snapdragon 6 Gen 4.

Commentaires (24)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

dylem29 Premium

Le 13/02/2025 à 08h48

Entre le INT4 et INT8, c'est quoi la différence?
La qualité du calcul ?

Refhi Premium

Le 13/02/2025 à 09h12

Je crois me souvenir que c'est le nombre de paramètres géré par "neurone"

127.0.0.1

Modifié le 13/02/2025 à 09h19

Gain de place pour le modèle sur disque et en mémoire, au détriment de la précision (forcément)
Mais comme les modèles sont enooooormément quantisés, la dégradation reste raisonnable.
Encore plus avec si on construit from-scratch le modèle en 4-bit (au lieu de "réduire" un modèle 8-bit existant)


Model.......... Size ..... VRAM
LLaMA-7B-8bit.. 9.2GB .... 10GB
LLaMA-7B-4bit.. 3.5GB .... 6GB

Bien sur, on peut aussi faire du calcul INT4 sur un modèle 8-bit en réduisant sauvagement la précision lors de l'utilisation (e.g. au runtime), mais j'espère que c'est pas ce que Qualcomm à en tête.

dylem29 Premium

Le 13/02/2025 à 09h28

mais moins précis dans quel sens?
ça implique quoi pour la génération de token?

127.0.0.1

Modifié le 13/02/2025 à 09h44

la génération est de moins bonne "qualité".

En terme d'analogie, c'est comme rédiger un texte avec 1/16ème des mots du dictionnaire versus tous les mots du dictionnaire.

(une meilleure analogie serait la capacité à trouver le bon mot dans le dictionnaire complet, mais bon c'est l'idée)

Wosgien Premium

Le 13/02/2025 à 10h20

En qualité: rien si le modèle a été conçu avec de l'INT4.

Le problème qui se pose, c'est que dans les calculs, pour gagner de la place et potentiellement de la vitesse, des formats de données existent en IA qui n'étaient pas standard. INT4, FP8, FP16 par exemple.
Lors du chargement, si le CPU (NPU d'ailleurs) ne connaît pas un type de données, on adapte en mémoire les données en utilisant un format plus précis, mais qui va consommer plus de données:
INT4 -> INT8 (voir INT16, voir INT32!), FP8 -> FP32, FP16 -> FP32.

Cela consomme de la RAM, et ont peut faire moins de calculs parallèles (par exemple sur des lignes 256bits, ont traite les INT4 par 32, mais si on a dû les stocker en INT8, ce sera par 16).

En LLM, les INT4 sont anecdotique il me semble, par contre si on utilise l'IA pour des arbres de décision les INT4 sont très représentés, ou dans les traitements d'images noir et blancs (par exemple pour des séparations de couche)

On peut perdre en qualité si le modèle a été traité pour descendre en précision. Mais cela est risqué, augmente les hallucinations (quand un LLM te sort des mots qui n'existent pas, c'est qu'on a trop baissé le nombre de neurones ou la qualité du calcul)

dylem29 Premium

Le 13/02/2025 à 11h08

d'accord
je pense que je suis trop con pour comprendre lol

Wosgien Premium

Le 13/02/2025 à 11h30

Non, c'est vachement technique. Et c'est totalement obscur et abstrait: même si ton NPU gère le FP8/INT4/... encore faut-il que les modèles soient taillés pour. Et sur un tel, peu de chance que tu t'amuses à charger des modèles à la main.
Donc pour être clair: c'est presque de l'enfumage pour le client final. Si le NPU utilise le INT4, encore faut-il que le constructeur prenne la peine de créer des modèles optimisés avec du INT4, et les mettent à dispo en gérant le bazar d'avoir de smodèles INT4/INT8...

Les modèles montrés par @127.0.0.1 sont des "downgrade", et effectivement la qualité en pâti.

dylem29 Premium

Le 13/02/2025 à 14h56

Apple fera sûrement du INT4 avec des modèles taillés pour j'imagine?

Wosgien Premium

Le 13/02/2025 à 15h58

Oui, Apple (comme tous) pourront faire des modèles INT4 si c'est pertinent (genre pour générer des graphiques dignes d'un Atari ST et ses 512 couleurs) (je plaisante)

tazvld Premium

Le 13/02/2025 à 11h25

Si le matériel prend bien en charge le int4, ça permet aussi de doubler théoriquement le nombre d'opérations par seconde et donc de grandement accélérer l'inférence.

127.0.0.1

Modifié le 13/02/2025 à 11h49

ça permet aussi de doubler théoriquement le nombre d'opérations par seconde et donc de grandement accélérer l'inférence.

Effectivement c'est un autre gain potentiel, quoi que indirect et dépendant du NPU.
Je dirais que le gain en mémoire (VRAM) est autrement plus significatif, mais je peux me tromper.

Wosgien Premium

Le 13/02/2025 à 15h56

Sur les modèles LLM, de ce que j'ai testé, la perte est énorme. Et le gain est au téléchargement,: si on ne gère pas nativement en INT4, je pense qu'en RAM ce sera pareil car tout se retrouvera en INT8 (comme les FP16 qui sont doublé en RAM en FP32 dans beaucoup de cas). C'est donc un gain "potentiel" mais pas garanti si on ne connait pas son archi.

127.0.0.1

Le 13/02/2025 à 17h06

J'avais peur d'un calcul en INT4 sur un modèle 8 bit, mais c'est l'inverse qu'il faut craindre

fred42 Premium

Le 13/02/2025 à 09h16

Les calculs sont faits sur 4 bits au lieu de 8 bits, donc 16 fois moins précis, mais 2 fois plus rapides.

Wosgien Premium

Le 13/02/2025 à 16h08

Le retour de l'instruction AAA du 8086 :) (enfin, presque)
Déjà que l'IA INT8 c'était un peu la revanche du MMX ... (8 op par cycle)

Dadkill Premium

Le 13/02/2025 à 09h45

C'est quand même dommage de continuer à retrouver du Wi-Fi 6E sur une puce tout juste annoncée, même pour du milieu de gamme, alors que les premiers produits Wi-Fi 7 sont dispo depuis 1 an à présent.

127.0.0.1

Le 13/02/2025 à 10h08

A-t-on vraiment besoin d'un wifi à plus de 1Gb/s en utilisation quotidienne ?
Je trouve déjà incroyable que mon wifi soit aussi rapide que mon lien Ethernet.

Patch Premium

Le 13/02/2025 à 12h01

1Gb/s théoriques, ou réels?

127.0.0.1

Le 13/02/2025 à 13h21

réel. Mais ca dépend évidemment du nombre de mur à traverser (en 6 GHz).

YouTube

Patch Premium

Le 13/02/2025 à 14h05

Je ne pensais pas que ca montait aussi haut. Pratique quand on ne peut/veut pas déployer de câble!

Wosgien Premium

Le 14/02/2025 à 08h54

D'un autre côté, le 1Gb/s, c'est si on a suffisamment d'antennes (donc pas avec une tel) et à 1/2m de la borne en champ libre (donc le câble est plus simple :) ).

Wosgien Premium

Le 13/02/2025 à 10h14

Qui a du 6E déployé? Quel intérêt pour de la puce mobile qui sera liée à 1 ou 2 antennes?

Dj Premium

Le 13/02/2025 à 13h56

C'est pour du milieu de gamme, si t'as besoin de wifi 7 tu prend une puce haut de gamme