8 min

Comment un crawler permet aux utilisateurs de trouver les pages dont ils ont besoin ?

Explorez le monde de l'indexation web et la façon dont les sites Internet sont indexés pour répondre aux requêtes des utilisateurs

By Yext

oct. 21, 2021

8 min

Les techniques d'indexation et d'extraction du contenu de sites Internet peuvent sembler un peu barbare, et pourtant, elles sont indispensables si vous voulez tirer parti de l'optimisation pour les moteurs de recherche dans le monde numérique actuel, et augmenter le trafic vers votre site Internet.

La plupart des gens connaissent les principes de base des robots d'indexation : il s'agit de processus automatisés qui parcourent le contenu de vos pages Internet et les classent par catégories. Toutefois, savoir à quoi ils servent est moins important que de comprendre comment ils parviennent à ces conclusions. Aujourd'hui, nous allons découvrir comment les robots d'indexation aident les utilisateurs à trouver les pages dont ils ont besoin et comment vous pouvez vous assurer que les bonnes personnes trouvent votre site.

L'indexation des avis

Avant de détailler davantage le fonctionnement des robots d'indexation, penchons-nous d'abord sur leur utilité. Les moteurs de recherche s'en servent pour explorer les limites de l'Internet en ajoutant de nouveaux sites à leur répertoire de résultats, et en catégorisant ces sites selon différents facteurs, tels que les mots clés par exemple.

Le bot Google, Bingbot, Baiduspider et les autres robots d'exploration, ne sont pas, à proprement parler, des robots qui passent physiquement au peigne fin les milliards de sites existants sur l'Internet. Ils font partie d'un programme qui épluche les pages web, leur code HTML et leurs domaines et classent ensuite leurs résultats en fonction des paramètres définis par les moteurs de recherche.

Fonctionnement des robots d'indexation

La première étape de l'indexation web consiste à trouver votre site Internet. Les robots d'indexation doivent pouvoir le trouver et y accéder facilement. Ils le trouvent en suivant les liens d'autres sites Internet déjà indexés mais vous avez la possibilité de soumettre le plan de votre site avec les détails relatifs à son architecture et demander au moteur de recherche de l'indexer. Plus la navigation sur votre site est simple, plus il a de chances d'être indexé par plusieurs moteurs de recherche.

Lorsqu'un robot d'indexation commence le processus de web scraping, il va lister toutes les URL et tous les liens de chacune de pages de votre site Internet. Il vérifiera ensuite ces URL pour s'assurer que vos liens fonctionnent correctement et dirigent les internautes vers de vrais sites.

À mesure qu'il avance, il va ajouter des URL aux index afin que les pages concernées puissent être proposées aux utilisateurs effectuant une recherche dans le moteur de recherche. Le robot va cataloguer du texte, mais aussi des images, des photos, des fichiers téléchargeables, des fichiers .gifs. Il va déterminer le contenu des sites Internet en analysant les mots clés, les liens et la date de la dernière mise à jour.

Gardez en tête que le web crawling est loin d'être une science parfaite. De nombreux sites Internet envoient des sitemaps en partie pour préciser les conditions dans lesquelles ils doivent apparaître dans les résultats de recherche et pour éviter tout malentendu découlant de l'identification des robots d'indexation.

Facteurs liés au crawling

Une fois qu'un site Internet a été répertorié et que ses mots clés ont été vérifiés, le robot d'indexation effectue diverses recherches au sein du site pour vérifier son classement en tenant compte de nombreux autres facteurs. La << pertinence >> d'une page web dépend alors du niveau de probabilité pour qu'elle soit présentée à un internaute qui effectue une recherche en utilisant des mots-clés pertinents associés à ce site.

Ce classement détermine également le temps que le robot passe à indexer votre site Internet. Si en parcourant quelques pages, il constate que votre contenu est de mauvaise qualité, il mettra fin à son indexation, et ce, même s'il n'est pas encore tombé sur le contenu de bonne qualité que vous proposez.

À l'inverse, si le chargement de vos pages est rapide et que le robot considère que votre contenu est de bonne qualité, il passera davantage de temps à l'explorer et reviendra régulièrement pour vérifier les mises à jour.

Dans les sections ci-dessous, nous examinons les autres facteurs qui affectent le classement qu'un robot d'indexation associe à un site Internet. Il est important de noter que les principaux sites Internet comme Google publient uniquement des informations de base liées à leur indexation et taisent une grande partie de leur algorithme.

Temps de chargement

Personne ne veut attendre indéfiniment qu'un site Internet charge, et il en va de même pour les robots d'indexation. Ils doivent parcourir une tonne d'informations et n'ont pas le temps d'attendre plusieurs secondes qu'une page finisse de charger.

Les classements prennent souvent en compte le temps de chargement. Vous devez donc vérifier régulièrement le temps de chargement de votre site Internet afin de vous assurer que les clients et les robots d'indexation ne rencontrent aucun problème SEO.

Accessibilité

Il existe des solutions pour empêcher les robots d'indexation des moteurs de recherche de parcourir votre site Internet. Généralement, ces blocages sont accidentels, et la plupart des créateurs de sites ne souhaitent pas y être confrontés. Si, pendant le processus d'indexation, votre site est accidentellement répertorié comme inexistant, qu'il contient trop de liens non fonctionnels ou interdit expressément aux robots d'indexation d'y accéder, alors il n'apparaîtra pas dans les résultats des moteurs de recherche.

Le fichier robots.txt, ou le protocol d'exclusion des robots, désigne explicitement certaines des pages de votre site qui doivent être explorées. Vous pouvez l'utiliser pour interdire l'accès à l'ensemble de votre site, mais la plupart des gens l'utilisent pour indiquer les pages qu'ils souhaitent voir indexées et celles qui doivent être ignorées.

Il est dans votre intérêt que le robot d'indexation passe du temps à parcourir les pages où vous proposez un contenu de qualité, sans en perdre sur celles qui ne sont pas importantes.

Liens internes

Les robots d'indexation sont présents partiellement afin que les utilisateurs puissent profiter de leur expérience sur les pages Internet résultant de leur recherche. Les moteurs de recherche sont plus performants lorsque les internautes ont l'impression que leurs questions reçoivent une réponse et que les liens sont bons. C'est pourquoi les robots d'indexation vérifient l'état de vos URL liées : si vous avez un grand nombre de liens non fonctionnels, alors votre site ne sera pas bien noté.

Liens externes

Une partie de ce paramètre est hors de votre contrôle, mais c'est un élément à prendre en compte si vous avez des affiliés ou des partenaires en ligne. Si un plus grand nombre de sites renvoient au vôtre, les robots d'indexation seront beaucoup plus susceptible d'explorer votre site et votre classement n'en sera que meilleur.

Si un grand nombre de liens externes renvoient vers votre site Internet, cela signifie que votre contenu est très apprécié. Google et les autres moteurs de recherche le confirment en affichant votre site dans les premières pages de leurs résultats.

En revanche, il n'est pas uniquement question de quantité : les moteurs de recherche regardent également la qualité des liens car ceux-ci déterminent la fiabilité de la source qui renvoie les utilisateurs vers votre site, le nombre de liens existants sur cette page, leur emplacement, le texte d'ancrage et la pertinence de la page liée par rapport au site de départ.

Les liens vers un contenu similaire insérés dans le texte d'un billet de blog et utilisant des mots qui décrivent précisément le lien ont davantage de valeur que ceux qui se trouvent au bas d'une page et qui mènent à des sites Internet n'ayant qu'un rapport indirect.

Intention de l'utilisateur

L'intelligence artificielle et le machine learning ont fait des progrès considérables pour pouvoir déterminer l'intention implicite de l'utilisateur dans les moteurs de recherche. Les robots d'indexation catégorisent et classent le contenu en fonction de la requête et de l'intention implicite de l'utilisateur pour une recherche spécifique. Par exemple, si un internaute effectue une recherche sur les graines à planter au printemps, il est probable qu'il souhaite acheter des graines, et non en apprendre davantage sur le sujet.

Fraîcheur

De manière générale, les moteurs de recherche privilégient les contenus récents dans leur référencement. Même s'ils tiennent compte des mises à jour des pages, votre site est plus susceptible d'occuper une place favorable dans le classement si vous y publiez régulièrement du nouveau contenu. En revanche, la fraîcheur de votre contenu ne prendra pas le dessus sur sa qualité. Les moteurs de recherche évaluent chaque facteur différemment et, même si la fraîcheur est un paramètre important, il ne pèse pas bien lourd.

Importance perçue

Même s'ils sont nombreux, les robots d'indexation ne peuvent pas être partout. Ils n'ont pas été conçus pour parcourir tous les sites Internet simultanément et pour prendre les mises à jour et les suppressions en compte. Ils privilégient les sites qui présentent un trafic important et suscitent beaucoup d'intérêt dans les recherches.

Cela peut sembler récursif, car les sites Internet doivent être indexés pour augmenter leur trafic, et les robots d'indexation préfèrent les sites qui génèrent déjà beaucoup de trafic. Toutefois, vous avez la possibilité de demander à ce qu'un robot indexe votre site afin que vous entriez dans la danse.

Contenu unique

De toute évidence, copier le contenu d'autres sites est problématique ; mais utiliser le même contenu plusieurs fois sur votre propre site n'est pas bien mieux. Cela ne veut pas dire que vous ne pouvez pas afficher votre slogan ou votre message caractéristique sur plusieurs pages, mais simplement que vous ne pouvez pas réutiliser des descriptions longues de plusieurs paragraphes à l'infini sans que votre position dans le classement ne soit impacté.

En résumé

L'indexation (ou web crawling) peut sembler compliquée mais il s'agit d'un processus de recherche et d'indexation rigoureux qui permet aux moteurs de recherche de proposer du contenu pertinent aux clients. Les robots d'indexation évaluent votre site en tenant compte de plusieurs facteurs pour déterminer ce dont il est question et comment il se positionne par rapport à d'autres sites similaires.

Contactez-nous pour en savoir plus sur la façon dont Yext peut vous aider à générer des conversions sur votre site et à proposer des informations en direct à vos clients.

Sources :

https://www.417marketing.com/how-do-web-crawlers-work/

https://www.callrail.com/blog/what-is-seo/

https://neilpatel.com/blog/robots-txt/

Share this Article