• Webmarketing
    • Tendances & innovations
    • SEO & Google
    • E-commerce
    • Réseaux et Franchises
    • Social Media
    • Formation
  • Evénements
    • Ateliers découverte Angers
    • Atelier découverte Nantes
    • Ateliers découverte Le Mans
    • Ateliers découverte Paris
    • Connect Angers
  • La Bastille Actualités de l’agence Webmarketing 1789.fr
  • A propos
  • Webmarketing
    • Tendances & innovations
    • SEO & Google
    • E-commerce
    • Réseaux et Franchises
    • Social Media
    • Formation
  • Evénements
    • Ateliers découverte Angers
    • Atelier découverte Nantes
    • Ateliers découverte Le Mans
    • Ateliers découverte Paris
    • Connect Angers
  • La Bastille
  • A propos
scroll down for more

Crawl de site par un moteur de recherche : comment cela fonctionne ?

Aurore Keller Aurore Keller 19 septembre 2019 Pas de commentaire
Tortue de mer
  • Facebook
  • Twitter
  • LinkedIn
  • Pinterest
  • Email

L’objectif des moteurs de recherche est de fournir des résultats appropriés aux requêtes formulées par les internautes. La première étape, pour arriver à cela, est de connaître les sites pour ensuite les évaluer et les classer. La connaissance des sites se fait par le crawl, qui est le fait d’explorer un site web par l’intermédiaire d’un robot d’indexation.

Qu’est-ce qu’un robot d’indexation ?

Le robot d’indexation, appelé aussi crawler, spider ou plus sobrement bot est un logiciel ayant pour instruction d’explorer le web afin d’analyser le contenu des pages qui seront alors stockées dans un index.

Chaque moteur de recherche a son propre robot :

  • Googlebot, le spider de Google ;
  • Bingbot, le crawler de Bing ;
  • Yahoo! Slurp, celui de Yahoo! ;
  • etc.

Déroulement de la navigation du robot

Navigation de lien en lien

 

Le crawler parcourt le web de façon autonome, en lisant le code HTML de chaque page (code visible en faisant un clic droit sur la page web souhaitée et en sélectionnant « Afficher le code source de la page »).
Ensuite, pour naviguer de page en page, il utilisera tous les liens qu’il croisera, afin de lire les pages suivantes où il croisera à nouveau des liens qu’il visitera, et ainsi de suite. Ce travail continue jusqu’au moment où le bot arrive sur une page sans liens ou une page avec une erreur.

Besoin d’un indice pour connaître la date de la dernière visite du bot ? Direction le site en cache, en cliquant sur la flèche verte se trouvant sous le titre, à droite, du résultat de recherche qui vous intéresse :

Capture d'écran du résultat Google de l'agence 1789.fr

Vous aurez ainsi accès au site, tel qu’il était au moment de la dernière visite du bot et, en haut, vous pourrez voir un bandeau avec la date et l’heure de la dernière visite du robot :

Cache Google du site de 1789.fr
Le site de 1789.fr a été visité pour la dernière fois le 26 août 2019 à 02h41.
Limiter les accès du robot à certaines URLs

 

D’un point de vue SEO, il n’est pas intéressant que le robot indexe toutes les pages de votre site, comme c’est le cas des pages de recherche, pages de connexion, …

Plusieurs alternatives s’offrent à vous pour qu’il ne tarde pas dessus :

  • signaler ces pages sur le fichier robots.txt en disallow puisque ce fichier existe afin d’indiquer les zones à ne pas crawler sur un site (exemples : pages de recherche, pages de filtre, pages de connexion, … qui ont un impact négatif en terme de SEO et utiliseront du budget crawl inutilement) ;
  • lorsque vous ne souhaitez pas qu’une page en lien ne soit pas suivi, vous pouvez indiquer rel=“nofollow” dans la balise <a>.

Sans indication de votre part, le robot passera sur l’ensemble des pages de votre site, sans distinction, ce qui pourrait avoir un impact sur votre budget crawl.

Nouveau site : comment garantir son indexation rapidement ?

 

Lors de la mise en ligne d’un site, les premières pages indexées peuvent se faire en moins d’une semaine voire plusieurs semaines.
Afin de faciliter le processus d’indexation, vous pouvez tisser des liens avec d’autres sites déjà indexés, notamment par l’intermédiaire d’un article invité. La deuxième alternative est de passer par la Search Console en soumettant manuellement l’URL ou en envoyant le sitemap.

Budget crawl

Afin de favoriser l’indexation du site, il faut prendre conscience de l’importance du budget crawl, qui représente le nombre limite de pages qui seront visitées par le bot du moteur de recherche. Cette limite est fixée sur plusieurs critères :

  • la taille du site ;
  • la vitesse d’exploration ;
  • la fréquence de mise à jour ;
  • la facilité à crawler ;
  • le domaine d’autorité (confiance que le moteur porte sur le site en fonction de sa popularité).

Ce système a pour but de limiter le temps passé sur chaque site pour en visiter le plus possible. Bien évidemment, le crawler sera amené à revenir afin de mettre à jour ses données et apporter d’éventuelles modifications. Celui-ci va concentrer ses efforts sur les pages mises à jour fréquemment et celles qui reçoivent beaucoup de liens (d’où l’importance d’un bon netlinking). Plus une page sera crawlée, plus la page aura des possibilités de se positionner.

Optimiser son budget crawl

 

Ainsi, vu l’importance de ce budget crawl, il est nécessaire de l’optimiser dans le cadre de votre stratégie SEO par l’analyse du log serveur, qui est l’historique des actions exécutées.

Par l’analyse de log, vous pourrez répondre aux questions suivantes :

  • Les pages crawlées sont-elles les plus importantes ?
  • Est-ce que des pages moins importantes sont favorisées par le crawl ?
  • Y a-t-il des erreurs qui ont été rencontrées par le crawl ?

Selon les réponses, l’adaptation du contenu ainsi que du maillage interne du site seront de rigueur afin d’améliorer la visibilité et le référencement de votre site.

  • Partager:
  • Facebook
  • Twitter
  • LinkedIn
  • Pinterest
  • Email
Précédent Jamais 2 sans 3 ! Encore une nouvelle tête chez 1789.fr
Suivant L’agence sérieuse qui ne se prend pas au sérieux
Aurore Keller
Aurore Keller
Articles similaires
Signe d'une main montrant les avantages du digital
Répondre aux attentes de visibilité de votre réseau grâce aux différents leviers digitaux 7 avril 2021
Gagnez en performance grâce à une stratégie d’analyse de données digitale 4 février 2021
Rédaction SEO : faites plaisir à Google et à l’internaute 10 décembre 2020
L’importance du référencement local et l’avènement de Google My Business 19 octobre 2020

1789.fr

Inscrivez-vous à la newsletter 1789.fr

— Nous ne spammons pas.

Nos ateliers gratuits

Ateliers AngersAteliers Nantes

Nos webinars

Retrouvez ici toutes les dates de nos webinars et inscrivez-vous :

Voir les webinars

Catégories

  • Actualités 1789.fr
  • E-commerce
  • Evènement
  • Formation
  • Réseaux et Franchises
  • SEO & Google
  • Social Media
  • Tendances & innovations
  • Webinar
  • Webmarketing

Articles récents

  • Répondre aux attentes de visibilité de votre réseau grâce aux différents leviers digitaux
  • Ecrire pour créer du lien tout au long du parcours-client
  • S’adresser aux consommateurs dans leurs trajets quotidiens grâce à Waze
  • Gagnez en performance grâce à une stratégie d’analyse de données digitale
  • Comment la COVID-19 a changé les habitudes de communication des enseignes

L’agence 1789.fr

L’agence 1789.fr est une agence webmarketing spécialisée en solutions innovantes pour développer la visibilité de ses clients, PME ou Grands-Comptes, réseaux ou groupements d’entreprise.

1789.fr s’appuie sur les 10 ans d’expérience de ses collaborateurs dans le domaine des solutions numériques et de la communication web.
  • Facebook
  • Email
  • Twitter
  • Linkedin
  • Pinterest
  • Youtube

Derniers articles

Signe d'une main montrant les avantages du digital
Répondre aux attentes de visibilité de votre réseau grâce aux différents leviers digitaux 7 avril 2021
parcours-client-sur-internet
Ecrire pour créer du lien tout au long du parcours-client 17 mars 2021
S’adresser aux consommateurs dans leurs trajets quotidiens grâce à Waze 24 février 2021

Catégories

  • Actualités 1789.fr (96)
  • Evènement (1)
    • Webinar (1)
  • Formation (10)
  • Réseaux et Franchises (7)
  • Webmarketing (169)
    • E-commerce (34)
    • SEO & Google (62)
    • Social Media (31)
    • Tendances & innovations (54)
1789.fr ® Sarl - Tous droits réservés © 2015