D'accord, mais par rapport à mettons un gros double Intel Xeon avec un certain nombre de coeur, on est comment en qualité/prix ?
De ce que j'en comprends, le couple CPU/RAM est très lent par rapport au couple GPU/VRAM pour du LLM. Chaîner les serveurs de GPU permet de répartir les données et calculs des très grands modèles de langage sur plusieurs GPU/VRAM, en minimisant le goulot d'étranglement (le réseau).
Donc ça a un intérêt pour ce cas spécifique-là, parce que la VRAM est très chère et limitée, et que le réseau chaîné sur Thunderbolt est moins coûteux qu'une connectique équivalente en performances (latence et débit, par ex. Infiniband).
Il y a une photo sur leur site qui montre un exemple de chaînage.
3 commentaires
Le 24/06/2025 à 22h50
[Shift] + [Echap]Modifié le 26/02/2025 à 22h39
Donc ça a un intérêt pour ce cas spécifique-là, parce que la VRAM est très chère et limitée, et que le réseau chaîné sur Thunderbolt est moins coûteux qu'une connectique équivalente en performances (latence et débit, par ex. Infiniband).
Il y a une photo sur leur site qui montre un exemple de chaînage.
Modifié le 26/02/2025 à 14h28
Exemple d'utilisation avec 5 Mac Studio : vidéo Youtube NetworkChuck