votre avatar Premium

eric_glb

est avec nous depuis le 2 juillet 2022 ❤️

3 commentaires

on peut voir les onglets qui rament grâce au gestionnaire de tâche dispo dans about:processes ou accessible via Shift + Echap (merci @eric_glb )

[Shift] + [Echap]

D'accord, mais par rapport à mettons un gros double Intel Xeon avec un certain nombre de coeur, on est comment en qualité/prix ?

De ce que j'en comprends, le couple CPU/RAM est très lent par rapport au couple GPU/VRAM pour du LLM. Chaîner les serveurs de GPU permet de répartir les données et calculs des très grands modèles de langage sur plusieurs GPU/VRAM, en minimisant le goulot d'étranglement (le réseau).

Donc ça a un intérêt pour ce cas spécifique-là, parce que la VRAM est très chère et limitée, et que le réseau chaîné sur Thunderbolt est moins coûteux qu'une connectique équivalente en performances (latence et débit, par ex. Infiniband).

Il y a une photo sur leur site qui montre un exemple de chaînage.
Faire tourner des LLM en cluster, via par ex. exo : exo.
Exemple d'utilisation avec 5 Mac Studio : vidéo Youtube NetworkChuck