Connexion Premium

C’est quoi le stockage S3 ?

Super Service de Stockage ?

C’est quoi le stockage S3 ?

Illustration : Flock

Vous avez entendu parler de la technologie S3 ? Vous l’avez vue dans de nombreux contextes et vous vous demandez ce que c’est ? Ne bougez pas, on vous explique pourquoi elle est partout et est considérée comme la brique élémentaire du cloud. C’est d’ailleurs du S3 que propose Next avec son abonnement.

Le 23 mars à 10h13

Le cloud est rapidement entré dans les usages. Nous avons l’habitude d’entreposer des données un peu partout, parfois sans vraiment faire attention. Les services de type « drive » sont monnaie courante, et beaucoup apprécient cette possibilité de retrouver leurs données sur tous leurs appareils.

Avant même que tous ces services prennent leur envol, il a cependant fallu répondre à une problématique : comment stocker efficacement les données, quand les besoins explosaient et que les grandes entreprises exprimaient des besoins croissants pour alimenter leurs offres de commerce électronique ?

Le S3 est, pour rappel, utilisé par Next pour vous proposer 1 To de stockage – avec 100 Go supplémentaires par année d’ancienneté du compte – à tous les abonnés Next Premium au tarif standard. Si ce n’est pas encore fait, il suffit donc de vous abonner pour en profiter, et de suivre notre tuto.

Il y a presque 20 ans naissait S3

En mai 2006, Amazon Web Services lance Simple Storage Service, abrégé S3. Comme l’entreprise l’explique alors, le service se veut très simple et est dédié à une seule tâche : le stockage de données. La mise à l’échelle (scaling) et les prix bas sont également des arguments. AWS met alors son produit en avant pour tous les clients qui pourraient avoir besoin de stocker des quantités croissantes de données, avec la promesse d’accompagner le développement des services associés et de suivre la demande.

« Amazon S3 est un stockage pour Internet. Il est conçu pour faciliter l’informatique à l’échelle web pour les développeurs. Amazon S3 propose une interface de services web simple qui peut être utilisée pour stocker et récupérer n’importe quelle quantité de données, à tout moment, depuis n’importe où sur le web. Il donne à tout développeur accès à la même infrastructure de stockage de données hautement évolutive, fiable, rapide et peu coûteuse qu’Amazon utilise pour gérer son propre réseau mondial de sites web », écrivait alors AWS. C’était la première fois que l’entreprise mettait à disposition de la clientèle une technologie qu’elle utilisait pour ses propres besoins.

L’un des principaux points forts de S3 à son lancement était sa promesse de performances. L’infrastructure était ainsi conçue pour augmenter la disponibilité, les débits, la capacité et la robustesse générale en même temps que le nombre de nœuds. AWS promettait en outre une haute disponibilité (99,99 %) et une résolution rapide des goulots d’étranglement par l’ajout de nouveaux nœuds. Cette gestion est vite devenue automatique, S3 gérant l’augmentation ou la diminution de la demande sans intervention manuelle.

Des objets, des buckets, des clés

Jusqu’à S3, les approches sur le stockage des données étaient essentiellement centrées sur la hiérarchisation des dossiers et des fichiers, telle qu’on peut l’observer dans la plupart des systèmes de fichiers et dans les gestionnaires (Explorateur Windows, Finder macOS…).

Dans S3, AWS a procédé autrement : tout est une question d’objets. Ces derniers peuvent représenter n’importe quel type de donnée, aussi bien du texte que de la vidéo. Les objets sont réunis en « buckets » (littéralement des « seaux »). Il s’agit de conteneurs organisationnels, pouvant contenir autant d’objets que l’on désire.

Dans un bucket, chaque objet est constitué de trois parties : les données brutes (contenu du fichier), une clé unique d’identité et des métadonnées (informations descriptives). On a ainsi les trois notions essentielles de S3 : les objets, les buckets et les clés. Il n’y a pas de hiérarchie, ce qui revient à dire que placer un fichier dans un stockage S3, c’est attribuer une clé à un objet. Cette approche a le gros avantage de sa simplicité et de sa souplesse. On peut ainsi parler d’un stockage S3 comme d’un grand magasin de paires clé-valeur, où la valeur correspond aux données brutes et aux métadonnées.

L’API S3 étant compatible REST (REpresentational State Transfer), les objets peuvent être manipulés avec des commandes courantes comme PUT pour ajouter un objet, GET pour récupérer un objet, DELETE pour supprimer un objet, LIST pour lister les objets d’un bucket, etc.

Un standard de facto

Il reste 60% de l'article à découvrir.

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Commentaires (35)

votre avatar
Un point enfin sur la sécurité : il est important de bien configurer les droits d’accès à un bucket S3, des fuites de données de plusieurs dizaines de Go ont déjà eu lieu par le passé à cause de cela (ici et là par exemple).
Et de chiffrer les données du coup, il me semble que c'était explicitement recommandé sur le S3 généreusement mis à disposition par Next.
votre avatar
on ne saurait effectivement trop le répéter : chiffrez vos sauvegardes !!! :chinois:
votre avatar
Quand je vois un stockage S3, j'ai toujours un doute quant à savoir si Amazon est impliqué ou non.
Le vrai standard ouvert, c'est OpenStack Swift.
votre avatar
C'est un "standard" qui est arrivé après et qui s'est inspiré du S3. Donc c'est moins rependue quand même, c'est ouvert, oui, mais c'est pas vraiment un standard.
Même ceux qui reposent dessus offre généralement une comptabilité S3 (comme OVH).
votre avatar
Une question : Les hebergeurs proposant du stockage S3 paient-ils des licences à Amazon ? Si oui, sur quelle base ?
votre avatar
À ma connaissance non puisque c'est une réutilisation du principe de stockage objet et les API REST sont toutes différentes chez les CSP et souvent accompagnées de libs spécifiques pour les développements et l'intégration. L'implémentation est soit propre à chacun, soit basée sur une libre (comme OpenStack Swift cité par @alex.d. ). C'est le cas chez OVHCloud, par exemple, qui repose en partie sur OpenStack.

Au contraire de l'API OpenAI par exemple qui s'est imposée comme un standard de fait de compatibilité pour appeler un modèle d'IA, peu importe où il est hébergé.
votre avatar
C'est du "compatible S3" donc pas de licence.
votre avatar
Vincent is back ! :love:
votre avatar
pas encore malheureusement (on gardait cet article en réserve pour un jour de disette), mais on a hâte !
votre avatar
Donc la disette est arrivée :eeek2:

ALERTE GENERAAAAAAAAAAAAAAAALE !
votre avatar
ah mince :stress: j'y ai cru !
On va être patient, heureusement que Seb est en feu en ce moment :D

(Attention j'aime tout le monde, j'ai juste des sujets, domaines de préférence :love:)
votre avatar
On a une bonne surprise qui arrive en Avril 😇
votre avatar
ça pue le poisson ça :D
votre avatar
Mais si le vrai poisson était en fait qu’il n’y en avait pas ?
votre avatar
On s'en fish !! :mdr:
votre avatar
Fishera bien qui fishera le dernier en avril :o
votre avatar
Tu dis ça parceque j’ai relancé des tests de chargeurs USB :o Comment tu sais ???
votre avatar
😄
Le problème c'est que si tu termines aux grands brûlés on va s'ennuyer nous 😝
votre avatar
Il ira bench le matos de l'hôpital.
votre avatar
Je connaissais de nom mais j'ai jamais exploité. On dirait un mélange entre un système de fichier et une BDD pour du collaboratif.
votre avatar
Le point sur les tarifs est effectivement l'un des plus pertinents, car, mal évalué, l'usage d'un stockage objet sur un CSP peut coûter une blinde.

Outre l'aspect chaud / froid, ils peuvent aussi avoir des tiers où la finalité est soit le stockage, soit le transactionnel sur des données à durée de vie courte (ex : un sas de fichiers). Dans le premier cas, le stockage sera peu cher, mais les appels plus onéreux. Dans le second cas, c'est l'inverse : coût du stockage à l'heure plus élevé, mais nombre d'appels meilleur marché.

C'est pourquoi il faut évaluer à la fois le stockage et le nombre d'opérations sur un object storage chez un CSP. Les calculatrices de coûts proposent en général ces curseurs.

Cas vécu d'une architecture mal calibrée : 2000 € par jour d'opérations sur un stockage objet à cause de pooling applicatif multiple. Le pooling en lui-même n'a aucun sens sur ces services, puisqu'ils s'accompagnent généralement d'un panel d'événements auxquels on peut abonner un service applicatif pour déclencher un traitement.

Bref, comme d'hab avec les CSP, faut lire toutes les petites lignes de la tarification.
votre avatar
Ou prendre un CSP sans frais cachés, c'est déjà plus facilitant pour se projeter, par exemple Leviia.

(Moji peut-être ? Ce n'est pas très clair sur leur site, c'est juste indiqué "pas de coût de restitution de la donnée", mais ca ne parle pas de la partie API. Et cachez moi ces FAS que je ne saurais voir :D)

Edit : En me relisant je me dis que tu as raison de toute façon, il faut toujours lire les petites lignes ;)
votre avatar
C'est pas forcément des coûts cachés, si on regarde la calculatrice Azure ou GCP c'est clairement affiché, de même sur les pages de pricing. C'est juste qu'il ne faut pas oublier que la métrique n'est pas que le stockage utilisé, mais aussi les accès.

Et ça, y'en a qui oublient souvent :craint:
votre avatar
Frais cachés n'était pas le bon terme oui, sans frais supplémentaires disons. Même si c'est pas caché et qu'il y a des outils, le chiffrage est toujours approximatif. Mais je suis bien d'accord, je mets juste en avant ceux qui simplifient leurs offres.
votre avatar
Outre l'aspect caché / pas trop mis en avant, je trouve que la pratique la plus courante c'est l'ambiguité.

Pour avoir du tirer les vers du nez de Microsoft à plusieurs reprises sur des termes pas super clairs, c'est difficile d'avoir des vraies réponses de la part des commerciaux sur la véritable clé de facturation. Le pire étant les SKU qui englobent plusieurs trucs pas super définis.
votre avatar
Aucun autre coût que le stockage au To - les FAS sont là pour éviter les micro usages tant qu’on ne peut pas commander en ligne (ça arrive dans les mois prochains).
votre avatar
J'ai l'impression que vous avez entrepris une sacrée refonte côté Web il faut dire. Dans ce cas, c'est normal que, si des personnes interviennent pour déployer, il y ait des FAS.

Pour être honnête, j'ai regardé ce que vous faisiez, mais je n'ai pas trouvé que c'était très clair sur votre site. "peut être répliquée sur plusieurs régions", mais on ne sait pas si c'est une option, pas d'information sur l'immuabilité ou le chiffrement.
votre avatar
Merci pour cet article mais... Je crois que je ne suis pas assez calé pour comprendre.
En lisant le titre, je me suis vraiment dit que j'allais comprendre le s3 que mes collègues la DSI ont mis en peuvent interne et qu'on exploite pour divers usages (de la données qui ne doit pas pouvoir être modifiée, ou de la donnée de passe qui doit facilement être chiffrée/déchiffrée et mise à disposition sur le net), mais là j'avoue que ça m'éclaire assez peu sur le pourquoi du comment.
Merci quand même 😅
votre avatar
En fait, le S3 c'est une techno de stockage pensée pour les machines avec un modèle de cout très variable et plus accessible financièrement que du stockage classique.
Cette techno est utilisée par plusieurs fournisseurs avec un niveau de service différent pour chacun (fonctionnalités).
Exemple tu fais une sauvegarde complète de ton infrastructure que tu envoies sur S3 : avantage c'est peu cher tant que tu n'y accèdes pas souvent, tu peux faire en sorte qu’elle soit en lecture seule ce qui protège contre les ransmoware, tu peux même déplacer cette sauvegarde sur un S3 encore plus froid (S3 Glacier) ou tes données te couterons encore moins cher mais seront plus longue a être récupérés.
Si tu as un site à fort trafic, tu places les images et autres médias sur un bucket S3 ouvert au public : ton site web n'a pas besoin de consommé de la bande passante, c'est le S3 qui sert les médias aux clients.
votre avatar
Moi, je n'ai toujours pas compris l'intérêt de l'enregistrement sous forme d'objets dans des buckets… :frown:
votre avatar
Peut-être que le chapitre "avantage" de cette page Wikipédia pourra t'aider, même si ce n'est pas très détaillé:

https://fr.wikipedia.org/wiki/Stockage_objet

Je ne me sens pas assez pointu pour expliquer.
votre avatar
c'est une façon de généraliser le concept de fichiers / dossier: un objet peut être une donnée, un fichier, une vidéo... peu importe c'est vu comme un objet générique, cet objet est rangé dans un bucket (dossier), et ce sont les metadata qui définissent l'usage / le type (ça c'est un fichier, ça une donnée, ça une vidéo...).
Si tu n'y stockes que des fichiers, ça va ressembler à un NAS, au détail prêt que chaque dossier peut être plus ou moins rapide selon le niveau de "tier" du bucket plus ou moins froid : un peu comme si ton NAS affichait des dossiers très rapides en RAID sur SSD, et d'autres enregistrés sur bandes magnétiques lent à lire.
votre avatar
Ajoutons que c'est une méthode qui facilite la réplication de la donnée, et améliore la redondance d'une façon transparente.

Et qu'on peut aller très finement dans la gestion des accès, l'immuabilité, et j'en passe.
votre avatar
J'ai encore une caisse de Trio64 et de ViRGE, ça compte comme stockage S3 ?
votre avatar
Le vieille réf ! Merci pour le coup de vieux :phiphi: