NVIDIA dévoile la plateforme open source RAPIDS : Dell EMC, HPE, IBM et Oracle comme partenaires
Ils sont rapides !
Le 10 octobre 2018 à 10h01
6 min
Logiciel
Logiciel
Ces dernières années, NVIDIA a montré que le GPU pouvait être exploité dans bien plus que le jeu vidéo. Un pari qui a surtout pris forme avec CUDA et qui est à l'origine de l'expansion de la société à de nombreux marchés, mais aussi de son succès. RAPIDS doit lui permettre d'aller encore plus loin.
Pour l'ouverture de l'édition 2018 de sa GPU Technology Conference de Munich, NVIDIA a décidé de miser sur une solution logicielle, open source, lui permettant de se creuser un nouveau trou dans les datacenters : RAPIDS.
C'est Jeff Tseng, nouveau patron de l'équipe AI Infrastructure de la société qui nous a présenté cette solution lors d'une rencontre avec quelques journalistes organisée hier soir. Il a d'ailleurs commencé par un aveu : « c'est une solution que nous aurions dû proposer de longue date [...] elle nous a été maintes fois demandée ».
On se demande en effet pourquoi une telle initiative n'a pas été proposée plus tôt. C'est sans doute pour se faire pardonner que NVIDIA a décidé de miser sur l'open source pour cette solution, distribuée sous licence Apache. C'est aussi une manière de s'assurer d'une adoption rapide (vous l'avez ?), largement portée par de grands partenaires.
Ainsi, Cisco, Dell EMC, HPE, IBM, Lenovo et Pure Storage sont les premiers qui proposeront une solution technique basée sur RAPIDS. Un engouement qui mène à la question principale : RAPIDS, c'est quoi ?
Exploiter le GPU pour le traitement de larges jeux de données
« La consommation et la production de données double chaque année. Face à cela, le CPU et la loi de Moore ont montré leurs limites, ce qui a posé des problèmes » explique Jeff Tseng, qui reprend ici un argumentaire que l'on retrouve souvent dans la bouche du grand patron de NVIDIA : Jen Hsun Huang.
« Au départ, les données étaient traitées de manière classique, dans les espaces de stockage, mais cela n'était pas efficace. On a alors opté pour un traitement dans la mémoire des CPU afin de gagner en efficacité. Des solutions comme Spark sont désormais très utilisées. Ce que RAPIDS permet c'est de faire de même, avec un traitement directement via le GPU, de quoi apporter des gains importants, jusqu'à 50x » avec l'algorithme XGBoost par rapport à une solution purement CPU promet-il.
De manière plus concrète, cette plateforme se compose d'une suite de bibliothèques (cuDF, cuML, cuGraph) qui exploitent CUDA et le GPU pour le traitement de données en masse, par paquets de plusieurs centaines de Go, dans la statistique et le machine learning.
De quoi ajouter « deux secteurs du High Performance Computing (HPC) qui n'en avaient pas encore bénéficié, jusqu'à maintenant » à l'arc de Jen Hsun Huang et ses équipes. Le tout en changeant la vie des data scientists promet la société, non sans une pointe d'humour.
Une solution rendue possible selon NVIDIA grâce à DASK et le travail de Wes McKinney pour le traitement de données dans différents langages au sein de la mémoire, et la parallélisation de code Python.
Recommandations, assistants vocaux, eCommerce : des marchés où NVIDIA va pouvoir se déployer grâce aux travaux sur DASK et de Wes McKiney. CUDF et CUML annoncés #GTC pic.twitter.com/XiFU4HCJ54
— INpact Hardware @ GTC Europe 🇩🇪 (@inpacthardware) 10 octobre 2018
L'ouverture de nouveaux marchés rapidement accessibles
La visualisation de données doit suivre, et venir compléter la longue liste de secteurs où le GPU a déjà montré son intérêt ses dernières années, du rendu 3D au deep learning en passant par les traitements mathématiques en tous genres.
« Des calculs qui prenaient la journée pourront être désormais traités bien plus rapidement » selon Tseng. La société donne quelques exemples comme la détection de fraude dans les systèmes de paiement en ligne, les assistants vocaux, la recommandation, l'analyse de comportement des consommateurs ou la gestion des stocks d'un revendeur.
Dans ce dernier cas, la prévision est un enjeu important, qui implique de prendre en compte une multitude de facteurs comme l'historique des ventes, la météo, les arrivages et autres indicateurs qui peuvent dépendre de chaque typologie de produits. Réduire le temps de traitement peut donc être crucial.
Surtout, s'adresser à ce public sera bien plus rapide que de miser sur la voiture autonome ou la robotique, qui constituent des enjeux et des marchés qui pourront prendre des années à prendre réellement leur envol. Ici, il s'agit surtout de débloquer avec une plateforme logicielle des usages qui peuvent être adressés par du matériel existant.
Une solution compète, pour le calcul (bien plus rapide que le CPU) puis la visualisation des données « vous savez quoi, cette machine sait aussi afficher de belles images » #GTC18 pic.twitter.com/jmZLO8BF5d
— INpact Hardware @ GTC Europe 🇩🇪 (@inpacthardware) 10 octobre 2018
De plus en plus d'open source chez NVIDIA
L'objectif est donc de voir l'écosystème logiciel s'emparer assez largement de cette solution pour l'intégrer aux différents outils du marché. Ceux des gros éditeurs, mais aussi ceux proposés par la communauté open source. Un travail qui a commencé en amont de l'annonce du jour, ce qui est plutôt une bonne nouvelle.
Apache Spark proposera par exemple une intégration native de RAPIDS via Arrow et le projet Hydrogen. Oracle va l'exploiter au sein de son offre Data Science Cloud. HP et IBM ont aussi évoqué une arrivée au sein de leur offre, sans plus de détails pour le moment. Des clients finaux comme Walmart sont mentionnés.
Anaconda, BlazingDB, Databricks ou encore Quansight sont également impliqués. L'écosystème Python sera largement concerné avec le support par Pandas ou encore Scikit-learn. Le constructeur a mis en ligne un site dédié à son nouveau projet et propose des conteneurs prêts à être utilisés dans son offre GPU Cloud.
À noter :
Dans le cadre de la réalisation de cet article, nous sommes allés à la rencontre des équipes de NVIDIA à la GTC de Munich. Celle-ci a pris en charge une partie de notre transport, hébergement et restauration sur place. Conformément à nos engagements déontologiques, cela s'est fait sans aucune obligation éditoriale de notre part, excepté le respect des dates d'embargo (NDA), et sans ingérence de la part de NVIDIA.
NVIDIA dévoile la plateforme open source RAPIDS : Dell EMC, HPE, IBM et Oracle comme partenaires
-
Exploiter le GPU pour le traitement de larges jeux de données
-
L'ouverture de nouveaux marchés rapidement accessibles
-
De plus en plus d'open source chez NVIDIA
Commentaires (16)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 10/10/2018 à 10h26
“parallélisation de code Python” python et parallèle dans la même phrase ça me f’ra toujours rire, en gros ils ont écrit du code C/C++ qui fait tout le job et pytruc heu ah bah il ne fait rien en fait.
Le 10/10/2018 à 10h40
Sinon Rapids à tester à l’occasion
Le 10/10/2018 à 11h41
Le 10/10/2018 à 12h39
Tips pour la parallélisation en python: utiliser python 3.7 et asyncio :)
Le 10/10/2018 à 12h39
Moi, chuis pas contre une p’tite flame-war sur les langages de programmation, mais je connais pas le Python et mon C/C++ est rouillé.
Le 10/10/2018 à 13h13
C’est en RC ça python 3.7 ?
Le 10/10/2018 à 13h13
Aujourd’hui, de ce que je comprends des gens qui travaillent avec moi, les GPU sont surtout utilisés pour le deep learning.
Si Nvidia arrive à démocratiser l’utilisation des GPU pour les algos plus traditionnels comme les arbres de décision (XGBoost est mentionné dans l’article), alors ça pourrait devenir un très gros marché pour eux…
(ils sont forts, quand même!)
Le 10/10/2018 à 14h21
Le 10/10/2018 à 14h38
Estimations à 18 milliards de dollars rien que pour 2018 " />
Le 10/10/2018 à 14h46
Ca évite/contient les pb de buffer overflow par rapport à du C ?
Ca permet l’objet pour la maintenabilité/complexité des programmes et de faire des éléments en programmation fonctionnelle sur des calculs qui vont gérer des données massives et hétéroclyte et ont donc besoin de typages et de d’algos rigoureux ?
Perso j’en vois plein de raisons de préférer python à C/C++, et ceci sans être développeur python et/ou spécialiste du calcul parallèle donc j’imagine qu’ils savent ce qu’ils font et pourquoi ils le proposent. Non?
Le 10/10/2018 à 19h43
Et à quand des drivers OpenSource pour les CG sous Linux ? " />
Le 10/10/2018 à 20h17
Le 10/10/2018 à 21h51
Le 10/10/2018 à 21h52
+2
Le 11/10/2018 à 05h08
+3
Le 11/10/2018 à 08h33