Twitter permet désormais une recherche dans tous les tweets, depuis le premier
500 millions de nouveaux tweets par jour
Le 19 novembre 2014 à 08h30
3 min
Internet
Internet
Twitter vient de faire l'annonce d'une nouvelle fonctionnalité au sein de son moteur de recherche qui intéressera les utilisateurs du service de micro-blogging, mais surtout tous ceux qui se penchent de près ou de loin au développement de ce genre d'outils. En effet, il est désormais possible de retrouver n'importe quel message publié depuis le premier jour de Twitter.
Via son « Engineering Blog », Twitter vient de faire l'annonce de la mise en place d'une nouvelle infrastructure afin de gérer son moteur de recherche. Son but ? Permettre à l'équipe de réaliser un rêve de longue date : l'indexation de l'ensemble des messages publiés depuis le premier jour, afin de permettre de retrouver chacun d'entre eux au sein des résultats.
Et la tâche n'a rien de facile. En effet, les ingénieurs de Twitter précisent qu'ils disposent déjà d'un index « en temps réel », stocké en mémoire, qui contient à peu près une semaine de contenu, mais que l'index global est plus de 100 fois plus important, plusieurs milliards de tweets étant rajoutés chaque semaine. De quoi nécessiter une montée en capacité constante. Les chiffres les plus récents donnés par le service sont en effet de 500 millions de tweets publiés par jour en moyenne, pour 284 millions d'utilisateurs actifs par mois.
L'équipe s'était d'ailleurs déjà essayée à la mise en place d'une recherche partielle dans les archives en 2012, en indexant 2 milliards de tweets parmi les plus populaires, et en permettant d'y effectuer une recherche. Après une augmentation de cet index l'année dernière, il est donc désormais question de l'ensemble des messages, du premier publié à ceux rajoutés chaque seconde, le traitement étant découpé par lots d'une journée de tweets.
L'équipe détaille son infrastructure et le processus de traitement complet par ici pour les plus curieux. Dans la pratique, lors d'une recherche au sein des applications Android, iOS ou sur le web, il faudra toujours passer par le lien « Tout » en tête des résultats de recherche pour avoir une chance de les voir apparaître.
Notez que vous pouvez aussi indiquer des filtres par date au sein de la recherche avancée. Il est ainsi assez facile de retrouver les premiers messages à la mise en place de nos abonnements Premium en 2009 par exemple, les résultats apparaissant de manière quasiment instantanée. Du beau boulot, donc.
Commentaires (9)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 19/11/2014 à 08h35
Par curiosité, c’est quoi le tout premier tweet jamais posté ?
J’imagine que Twitter doit compter des centaines de milliards de tweets à l’heure actuelle, c’est hallucinant
Le 19/11/2014 à 08h36
C’est quand j’ai vu la hype autour du site (dont j’ai perdu l’URL) qui permettait d’afficher son premier tweet que je me suis dit que c’était le gros boxon pour retrouver un vieux tweet quand même, bonne nouvelle " />
Le 19/11/2014 à 08h37
Je n’ose même pas imaginer la taille de ces nouveaux index. Quand je vois comment je dois me décarcasser pour que ma boite accepte de me donner 1Go pour une base de donnée alors que dans ce cas, les chiffres doivent être hallucinant.
Le 19/11/2014 à 08h37
Il s’agit de celui-ci je crois, envoyé par le créateur du service
Twitter
Le 19/11/2014 à 09h02
Nadine Morano n’a qu’à bien se tenir !
Le 19/11/2014 à 09h27
Le 19/11/2014 à 09h59
Voir ce lien
;)
Le 19/11/2014 à 10h07
bonne nouvelle pour les chercheurs car l’accès aux tweets via l’API ne proposais jusqu’ici que l’accès à un échantillons des données sur l’index en temps réel (API search une semaine en gros) ou la récupération d’un échantillons du flux en continu (API stream).
j’espère que les capacités de l’API search vont suivre et qu’il sera possible de récupérer tout ou parti de ces tweets via cette dernière.
Le 19/11/2014 à 11h43
Je pense que cet énorme boulot sera monétisé assez rapidement. Déjà qu’il me semble que le nombre d’appels est limités pour les applications tierces.
Si Twitter veut trouver son modèle, il sera forcément différent de FB, qui est actuellement trop en avance sur le ciblage publicitaire et les données personnelles.
A contrario, Twitter dispose d’une base de données monstrueuse, et particulièrement bien formatée (user, date, heure, 140 caractères, liens entre les messages etc…). C’est là la valeur plus que les données personnelles à mon avis.