NVIDIA dévoile la plateforme open source RAPIDS : Dell EMC, HPE, IBM et Oracle comme partenaires

Ils sont rapides !

Le 10 octobre 2018 à 10h01

6 min

Logiciel

Ces dernières années, NVIDIA a montré que le GPU pouvait être exploité dans bien plus que le jeu vidéo. Un pari qui a surtout pris forme avec CUDA et qui est à l'origine de l'expansion de la société à de nombreux marchés, mais aussi de son succès. RAPIDS doit lui permettre d'aller encore plus loin.

Pour l'ouverture de l'édition 2018 de sa GPU Technology Conference de Munich, NVIDIA a décidé de miser sur une solution logicielle, open source, lui permettant de se creuser un nouveau trou dans les datacenters : RAPIDS.

C'est Jeff Tseng, nouveau patron de l'équipe AI Infrastructure de la société qui nous a présenté cette solution lors d'une rencontre avec quelques journalistes organisée hier soir. Il a d'ailleurs commencé par un aveu : « c'est une solution que nous aurions dû proposer de longue date [...] elle nous a été maintes fois demandée ».

On se demande en effet pourquoi une telle initiative n'a pas été proposée plus tôt. C'est sans doute pour se faire pardonner que NVIDIA a décidé de miser sur l'open source pour cette solution, distribuée sous licence Apache. C'est aussi une manière de s'assurer d'une adoption rapide (vous l'avez ?), largement portée par de grands partenaires.

Ainsi, Cisco, Dell EMC, HPE, IBM, Lenovo et Pure Storage sont les premiers qui proposeront une solution technique basée sur RAPIDS. Un engouement qui mène à la question principale : RAPIDS, c'est quoi ?

Notre suivi en direct de la conférence d'ouverture de la GTC Europe 2018

Exploiter le GPU pour le traitement de larges jeux de données

« La consommation et la production de données double chaque année. Face à cela, le CPU et la loi de Moore ont montré leurs limites, ce qui a posé des problèmes » explique Jeff Tseng, qui reprend ici un argumentaire que l'on retrouve souvent dans la bouche du grand patron de NVIDIA : Jen Hsun Huang.

« Au départ, les données étaient traitées de manière classique, dans les espaces de stockage, mais cela n'était pas efficace. On a alors opté pour un traitement dans la mémoire des CPU afin de gagner en efficacité. Des solutions comme Spark sont désormais très utilisées. Ce que RAPIDS permet c'est de faire de même, avec un traitement directement via le GPU, de quoi apporter des gains importants, jusqu'à 50x » avec l'algorithme XGBoost par rapport à une solution purement CPU promet-il.

De manière plus concrète, cette plateforme se compose d'une suite de bibliothèques (cuDF, cuML, cuGraph) qui exploitent CUDA et le GPU pour le traitement de données en masse, par paquets de plusieurs centaines de Go, dans la statistique et le machine learning.

De quoi ajouter « deux secteurs du High Performance Computing (HPC) qui n'en avaient pas encore bénéficié, jusqu'à maintenant » à l'arc de Jen Hsun Huang et ses équipes. Le tout en changeant la vie des data scientists promet la société, non sans une pointe d'humour.

Une solution rendue possible selon NVIDIA grâce à DASK et le travail de Wes McKinney pour le traitement de données dans différents langages au sein de la mémoire, et la parallélisation de code Python.

Recommandations, assistants vocaux, eCommerce : des marchés où NVIDIA va pouvoir se déployer grâce aux travaux sur DASK et de Wes McKiney. CUDF et CUML annoncés #GTC pic.twitter.com/XiFU4HCJ54

— INpact Hardware @ GTC Europe 🇩🇪 (@inpacthardware) 10 octobre 2018

L'ouverture de nouveaux marchés rapidement accessibles

La visualisation de données doit suivre, et venir compléter la longue liste de secteurs où le GPU a déjà montré son intérêt ses dernières années, du rendu 3D au deep learning en passant par les traitements mathématiques en tous genres.

« Des calculs qui prenaient la journée pourront être désormais traités bien plus rapidement » selon Tseng. La société donne quelques exemples comme la détection de fraude dans les systèmes de paiement en ligne, les assistants vocaux, la recommandation, l'analyse de comportement des consommateurs ou la gestion des stocks d'un revendeur.

Dans ce dernier cas, la prévision est un enjeu important, qui implique de prendre en compte une multitude de facteurs comme l'historique des ventes, la météo, les arrivages et autres indicateurs qui peuvent dépendre de chaque typologie de produits. Réduire le temps de traitement peut donc être crucial.

Surtout, s'adresser à ce public sera bien plus rapide que de miser sur la voiture autonome ou la robotique, qui constituent des enjeux et des marchés qui pourront prendre des années à prendre réellement leur envol. Ici, il s'agit surtout de débloquer avec une plateforme logicielle des usages qui peuvent être adressés par du matériel existant.

Une solution compète, pour le calcul (bien plus rapide que le CPU) puis la visualisation des données « vous savez quoi, cette machine sait aussi afficher de belles images » #GTC18 pic.twitter.com/jmZLO8BF5d

— INpact Hardware @ GTC Europe 🇩🇪 (@inpacthardware) 10 octobre 2018

De plus en plus d'open source chez NVIDIA

L'objectif est donc de voir l'écosystème logiciel s'emparer assez largement de cette solution pour l'intégrer aux différents outils du marché. Ceux des gros éditeurs, mais aussi ceux proposés par la communauté open source. Un travail qui a commencé en amont de l'annonce du jour, ce qui est plutôt une bonne nouvelle.

Apache Spark proposera par exemple une intégration native de RAPIDS via Arrow et le projet Hydrogen. Oracle va l'exploiter au sein de son offre Data Science Cloud. HP et IBM ont aussi évoqué une arrivée au sein de leur offre, sans plus de détails pour le moment. Des clients finaux comme Walmart sont mentionnés.

Anaconda, BlazingDB, Databricks ou encore Quansight sont également impliqués. L'écosystème Python sera largement concerné avec le support par Pandas ou encore Scikit-learn. Le constructeur a mis en ligne un site dédié à son nouveau projet et propose des conteneurs prêts à être utilisés dans son offre GPU Cloud.

À noter :

Dans le cadre de la réalisation de cet article, nous sommes allés à la rencontre des équipes de NVIDIA à la GTC de Munich. Celle-ci a pris en charge une partie de notre transport, hébergement et restauration sur place. Conformément à nos engagements déontologiques, cela s'est fait sans aucune obligation éditoriale de notre part, excepté le respect des dates d'embargo (NDA), et sans ingérence de la part de NVIDIA.

Commentaires (16)

teddyalbina

Le 10/10/2018 à 10h26

“parallélisation de code Python” python et parallèle dans la même phrase ça me f’ra toujours rire, en gros ils ont écrit du code C/C++ qui fait tout le job et pytruc heu ah bah il ne fait rien en fait.

teddyalbina

Le 10/10/2018 à 10h40

Sinon Rapids à tester à l’occasion

AltreX

Le 10/10/2018 à 11h41

teddyalbina a écrit :

“parallélisation de code Python” python et parallèle dans la même phrase ça me f’ra toujours rire, en gros ils ont écrit du code C/C++ qui fait tout le job et pytruc heu ah bah il ne fait rien en fait.

et ?

Sinon ça à l’air pas mal du tout comme outil " />

bonnegent

Le 10/10/2018 à 12h39

Tips pour la parallélisation en python: utiliser python 3.7 et asyncio :)

le podoclaste

Le 10/10/2018 à 12h39

Moi, chuis pas contre une p’tite flame-war sur les langages de programmation, mais je connais pas le Python et mon C/C++ est rouillé.

MoonRa

Le 10/10/2018 à 13h13

C’est en RC ça python 3.7 ?

Groupetto Abonné

Le 10/10/2018 à 13h13

Aujourd’hui, de ce que je comprends des gens qui travaillent avec moi, les GPU sont surtout utilisés pour le deep learning.

Si Nvidia arrive à démocratiser l’utilisation des GPU pour les algos plus traditionnels comme les arbres de décision (XGBoost est mentionné dans l’article), alors ça pourrait devenir un très gros marché pour eux…

(ils sont forts, quand même!)

Prezspurer

Le 10/10/2018 à 14h21

Groupetto a écrit :

Aujourd’hui, de ce que je comprends des gens qui travaillent avec moi, les GPU sont surtout utilisés pour le deep learning.

Ainsi que beaucoup de chose touchant au traitement d’image (fusion, déformation, etc.) et tout calcul pouvant être parallélisable.

Dans mon secteur d’activité (indus médicale) ça fait dans les 10 ans que les GPU sont utilisés dans les calculs.

David_L Abonné

Le 10/10/2018 à 14h38

Estimations à 18 milliards de dollars rien que pour 2018  " /> 

yvan Abonné

Le 10/10/2018 à 14h46

Ca évite/contient les pb de buffer overflow par rapport à du C ?

Ca permet l’objet pour la maintenabilité/complexité des programmes et de faire des éléments en programmation fonctionnelle sur des calculs qui vont gérer des données massives et hétéroclyte et ont donc besoin de typages et de d’algos rigoureux ?

Perso j’en vois plein de raisons de préférer python à C/C++, et ceci sans être développeur python et/ou spécialiste du calcul parallèle donc j’imagine qu’ils savent ce qu’ils font et pourquoi ils le proposent. Non?

Ricard

Le 10/10/2018 à 19h43

Et à quand des drivers OpenSource pour les CG sous Linux ? " />

OuicheLorraine

Le 10/10/2018 à 20h17

Ricard a écrit :

Et à quand des drivers OpenSource pour les CG sous Linux ? " />

+1

zefling Abonné

Le 10/10/2018 à 21h51

Ricard a écrit :

Et à quand des drivers OpenSource pour les CG sous Linux ? " />

Qu’est-ce que j’en rêve. Prochaine machine, ça sera sans nVidia pour moi, à chaque mise à jour de leur drivers c’est le chaos. Combien de fois j’ai du refaire le conf parce que X voulait même plus se lancer suite à une mise à jour des drivers… " />

Résultat, je suis resté sur Nouveau, c’est vraiment pas performant, mais c’est stable.

amine548

Le 10/10/2018 à 21h52

propositionjoe

Le 11/10/2018 à 05h08

Pierre_ Abonné

Le 11/10/2018 à 08h33

Ricard a écrit :

Et à quand des drivers OpenSource pour les CG sous Linux ? " />

Oublie et achète une CG AMD, tu gagneras du temps…