Bing et Google publient les IP de leurs robots d'indexation

Bing et Google publient les IP de leurs robots d’indexation

Bing et Google publient les IP de leurs robots d'indexation

Le géant de la recherche a fait le premier ce pas, modifiant il y a quelques jours sa documentation anglaise à destination des développeurs cherchant à s'assurer de l'origine d'une requête. 

Outre la solution du reverse DNS, deux listes complètes des IPv4/v6 utilisées par les bots et l'ensemble des services de Google ont été publiées au format JSON.

Bing a suivi le mouvement, Fabrice Canel indiquant sur Twitter qu'une liste de ses propres bots (qui n'utilisent qu'IPv4) était disponible au format JSON. Elle est référencée sur cette page du support désormais et peut être utilisée en complément de l'outil Verifier Bingbot.

Commentaires (8)


Je me demande quel va être le premier site web à remplacer son robots.txt par un blocage des plages IP en question ^^


Copie France ? :D



fred42 a dit:


Copie France ? :D




Ils ont réellement les compétences pour programmer un robots.txt? :D


https://www.nextinpact.com/article/28322/106510-268-millions-deuros-copie-privee-en-2017-record



Ils l’avaient.
Mais l’actuel est plus raisonnable et manifestement copié tel quel.


Exercice à faire dans les prochains jours : blacklister toutes les IP google sur le routeur de la maison et voir combien de temps on tient…
Spoiler alert : pas longtemps
Morale : c’est un problème


Quelle est le problème de bloquer ces IP ? Je comptais le faire également :D


icna99a

Quelle est le problème de bloquer ces IP ? Je comptais le faire également :D


Hélas j’ai beau dégoogliser au maximum (plus de gmail, android /e/, pas de compte google, etc.), ça reste difficile voir parfois inévitable… Le meilleur exemple qui me vient c’est Youtube évidement.


Ces adresses IP correspondent aux robots chargés de détecter des sites web pour les indexer.



Bloquer ces préfixes peut être utile si vous hébergez des sites web. Google respecte les instructions du fichier robots.txt, donc un simple :




User-agent: *
Disallow: /




suffit à bloquer l’indexation par Google (et d’autres robots).



Par contre, le blocage des préfixes est totalement inutile dans une démarche de dégooglisation.
Il beaucoup plus intéressant d’utiliser un filtrage DNS interdisant tous les domaines de Google dont on peut trouver la liste sur diverses sources.


Fermer