Connexion
Abonnez-vous

Voici le Snapdragon 6 Gen 4, avec prise en charge d’INT4 « pour un traitement IA plus rapide »

Voici le Snapdragon 6 Gen 4, avec prise en charge d’INT4 « pour un traitement IA plus rapide »

Avec son nouveau SoC Snapdragon 6 Gen 4, Qualcomm veut ajouter de l’IA générative aux smartphones de milieu de gamme. Elle améliore un peu les performances par rapport à la Gen 3, mais prend surtout en charge la précision INT4 pour l’inférence.

Le 13 février à 08h00

Qualcomm continue d’annoncer de nouveaux SoC à un rythme relativement soutenu. Le Snapdragon 6 Gen 3 (successeur du Snapdragon 6 Gen 1, le Gen 2 n’existe pas) était discrètement ajouté au catalogue en septembre dernier, avec toujours la même complexité dans la nomenclature des puces.

11 % de mieux sur la partie CPU, jusqu’à 29 % sur le GPU

Voilà aujourd’hui que la Gen 4 arrive. Qualcomm annonce « des performances CPU améliorées de 11 % grâce au dernier processeur Kryo, des performances GPU jusqu’à 29 % supérieures avec le GPU Adreno et 12 % d’économies d’énergie pour améliorer l’expérience utilisateur à tous les niveaux ».

Comme les autres SoC de cette gamme, la partie CPU comprend huit cœurs : un cœur « Prime » jusqu’à 2,3 GHz (100 MHz de moins que sur la Gen 3), trois cœurs « Performance » jusqu’à 2,2 GHz et quatre cœurs « Efficiency » jusqu’à 1,8 GHz.

Pour le reste, rien de surprenant : de la 5G jusqu’à 2,9 Gb/s, du Wi-Fi 6E, du Bluetooth 5.4 LE, jusqu’à 16 Go de LPDDR4X ou LPDDR5X au choix, une finesse de gravure en 4 nm, etc. La fiche technique se trouve par là, la page dédiée au Snapdragon 6 Gen 4 par ici.

Prise en charge de l’IA générative, une première pour la série 6

Le constructeur met surtout en avant, « pour la première fois dans cette série, une prise en charge de l’IA générative ». L’IA était déjà présente dans les précédentes versions. En effet, avec la Gen 3 du Snapdragon 6, Qualcomm annonçait des gains jusqu’à 10 % sur la partie CPU, 30 % sur le GPU et 20 % sur le Qualcomm AI Engine. La nouveauté n’est donc pas à chercher dans ce dernier, mais dans le détail des fonctionnalités.

Le constructeur indique que le NPU (neural processing unit) Hexagon de la puce Snapdragon 6 Gen 4 prend désormais en charge les nombres INT4 « pour un traitement IA plus rapide », en plus des INT8 et INT16. Le Snapdragon 8 Gen 2 annoncé en 2022 avait déjà droit à cette précision de 4 bits sur les entiers. À l’époque, Qualcomm affirmait que « la prise en charge de la précision INT4 augmentait les performances par watt de 60 % pour une inférence d'IA soutenue ».

La société évoque aussi une efficacité améliorée du Qualcomm Sensing Hub, avec « un système IA à faible consommation ».

De nouveaux smartphones dans les mois à venir

Selon Qualcomm, plusieurs fabricants annonceront de nouveaux smartphones dans les mois à venir, notamment realme, OPPO and Honor. Le Mobile World Congress (MWC) de Barcelone, qui se tiendra du 3 au 6 mars 2025, devrait être le théâtre de nombreuses présentations de smartphones avec un SoC Snapdragon 6 Gen 4.

Commentaires (24)

votre avatar
Entre le INT4 et INT8, c'est quoi la différence?
La qualité du calcul ?
votre avatar
Je crois me souvenir que c'est le nombre de paramètres géré par "neurone"
votre avatar
Gain de place pour le modèle sur disque et en mémoire, au détriment de la précision (forcément)
Mais comme les modèles sont enooooormément quantisés, la dégradation reste raisonnable.
Encore plus avec si on construit from-scratch le modèle en 4-bit (au lieu de "réduire" un modèle 8-bit existant)


Model.......... Size ..... VRAM
LLaMA-7B-8bit.. 9.2GB .... 10GB
LLaMA-7B-4bit.. 3.5GB .... 6GB


Bien sur, on peut aussi faire du calcul INT4 sur un modèle 8-bit en réduisant sauvagement la précision lors de l'utilisation (e.g. au runtime), mais j'espère que c'est pas ce que Qualcomm à en tête.
votre avatar
mais moins précis dans quel sens?
ça implique quoi pour la génération de token?
votre avatar
la génération est de moins bonne "qualité".

En terme d'analogie, c'est comme rédiger un texte avec 1/16ème des mots du dictionnaire versus tous les mots du dictionnaire.

(une meilleure analogie serait la capacité à trouver le bon mot dans le dictionnaire complet, mais bon c'est l'idée)
votre avatar
En qualité: rien si le modèle a été conçu avec de l'INT4.

Le problème qui se pose, c'est que dans les calculs, pour gagner de la place et potentiellement de la vitesse, des formats de données existent en IA qui n'étaient pas standard. INT4, FP8, FP16 par exemple.
Lors du chargement, si le CPU (NPU d'ailleurs) ne connaît pas un type de données, on adapte en mémoire les données en utilisant un format plus précis, mais qui va consommer plus de données:
INT4 -> INT8 (voir INT16, voir INT32!), FP8 -> FP32, FP16 -> FP32.

Cela consomme de la RAM, et ont peut faire moins de calculs parallèles (par exemple sur des lignes 256bits, ont traite les INT4 par 32, mais si on a dû les stocker en INT8, ce sera par 16).

En LLM, les INT4 sont anecdotique il me semble, par contre si on utilise l'IA pour des arbres de décision les INT4 sont très représentés, ou dans les traitements d'images noir et blancs (par exemple pour des séparations de couche)

On peut perdre en qualité si le modèle a été traité pour descendre en précision. Mais cela est risqué, augmente les hallucinations (quand un LLM te sort des mots qui n'existent pas, c'est qu'on a trop baissé le nombre de neurones ou la qualité du calcul)
votre avatar
d'accord
je pense que je suis trop con pour comprendre lol
votre avatar
Non, c'est vachement technique. Et c'est totalement obscur et abstrait: même si ton NPU gère le FP8/INT4/... encore faut-il que les modèles soient taillés pour. Et sur un tel, peu de chance que tu t'amuses à charger des modèles à la main.
Donc pour être clair: c'est presque de l'enfumage pour le client final. Si le NPU utilise le INT4, encore faut-il que le constructeur prenne la peine de créer des modèles optimisés avec du INT4, et les mettent à dispo en gérant le bazar d'avoir de smodèles INT4/INT8...

Les modèles montrés par @127.0.0.1 sont des "downgrade", et effectivement la qualité en pâti.
votre avatar
Apple fera sûrement du INT4 avec des modèles taillés pour j'imagine?
votre avatar
Oui, Apple (comme tous) pourront faire des modèles INT4 si c'est pertinent (genre pour générer des graphiques dignes d'un Atari ST et ses 512 couleurs) (je plaisante)
votre avatar
Si le matériel prend bien en charge le int4, ça permet aussi de doubler théoriquement le nombre d'opérations par seconde et donc de grandement accélérer l'inférence.
votre avatar
ça permet aussi de doubler théoriquement le nombre d'opérations par seconde et donc de grandement accélérer l'inférence.
Effectivement c'est un autre gain potentiel, quoi que indirect et dépendant du NPU.
Je dirais que le gain en mémoire (VRAM) est autrement plus significatif, mais je peux me tromper.
votre avatar
Sur les modèles LLM, de ce que j'ai testé, la perte est énorme. Et le gain est au téléchargement,: si on ne gère pas nativement en INT4, je pense qu'en RAM ce sera pareil car tout se retrouvera en INT8 (comme les FP16 qui sont doublé en RAM en FP32 dans beaucoup de cas). C'est donc un gain "potentiel" mais pas garanti si on ne connait pas son archi.
votre avatar
J'avais peur d'un calcul en INT4 sur un modèle 8 bit, mais c'est l'inverse qu'il faut craindre :mdr:
votre avatar
Les calculs sont faits sur 4 bits au lieu de 8 bits, donc 16 fois moins précis, mais 2 fois plus rapides.
votre avatar
Le retour de l'instruction AAA du 8086 :) (enfin, presque)
Déjà que l'IA INT8 c'était un peu la revanche du MMX ... (8 op par cycle)
votre avatar
C'est quand même dommage de continuer à retrouver du Wi-Fi 6E sur une puce tout juste annoncée, même pour du milieu de gamme, alors que les premiers produits Wi-Fi 7 sont dispo depuis 1 an à présent.
votre avatar
A-t-on vraiment besoin d'un wifi à plus de 1Gb/s en utilisation quotidienne ?
Je trouve déjà incroyable que mon wifi soit aussi rapide que mon lien Ethernet.
votre avatar
1Gb/s théoriques, ou réels?
votre avatar
réel. Mais ca dépend évidemment du nombre de mur à traverser (en 6 GHz).

youtube.com YouTube
votre avatar
Je ne pensais pas que ca montait aussi haut. Pratique quand on ne peut/veut pas déployer de câble!
votre avatar
D'un autre côté, le 1Gb/s, c'est si on a suffisamment d'antennes (donc pas avec une tel) et à 1/2m de la borne en champ libre (donc le câble est plus simple :) ).
votre avatar
Qui a du 6E déployé? Quel intérêt pour de la puce mobile qui sera liée à 1 ou 2 antennes?
votre avatar
C'est pour du milieu de gamme, si t'as besoin de wifi 7 tu prend une puce haut de gamme

Voici le Snapdragon 6 Gen 4, avec prise en charge d’INT4 « pour un traitement IA plus rapide »

  • 11 % de mieux sur la partie CPU, jusqu’à 29 % sur le GPU

  • Prise en charge de l’IA générative, une première pour la série 6

  • De nouveaux smartphones dans les mois à venir

Fermer