SEO5 min de lecture

Google Dévoile Pourquoi Son Robot Ignore Vos Indications de Ressources

Google Dévoile Pourquoi Son Robot Ignore Vos Indications de Ressources

Dans un épisode du podcast "Search Off the Record", Gary Illyes et Martin Splitt de Google ont abordé la manière dont le robot d'exploration de Google traite le HTML. Cette discussion a mis en lumière les différences entre le traitement des pages par les navigateurs et par Googlebot.

Leur échange a notamment porté sur les indices de ressources, le placement des métadonnées et la validation HTML. Plusieurs explications d'Illyes remettent en question certaines idées reçues concernant les modifications techniques susceptibles d'améliorer le référencement.

Pourquoi les Indices de Ressources n’Aident Pas Googlebot

Les fonctionnalités de performance des navigateurs comme dns-prefetch, preload, prefetch et preconnect visent à résoudre des problèmes de latence qui n’existent pas pour l'infrastructure de Google.

Illyes a précisé que la résolution DNS de Google ne nécessite pas l'assistance que la plupart des sites cherchent à fournir.

Il a déclaré :

« C'est très utile si vous avez une connexion internet instable d'utiliser le DNS Prefetching par exemple. Dans notre cas, nous n’en avons pas besoin car nous pouvons communiquer très rapidement avec tous les serveurs DNS en cascade. »

Il a ajouté que Google met en cache les ressources des pages séparément et ne les récupère pas en temps réel comme le fait un navigateur. Cela permet de réduire la bande passante et la charge serveur sur les sites explorés.

Illyes a commenté :

« C'est la même chose pour le preload. Si nous ne sommes pas synchrones, nous n'avons pas particulièrement besoin de prêter attention au preload. »

Google utilise l'API Speculation Rules pour accélérer les clics sur les résultats de recherche pour les utilisateurs de Chrome. Ce système fonctionne car il opère au niveau du navigateur, où la latence entre l'utilisateur et un serveur est significative. En revanche, Googlebot fonctionne depuis l'infrastructure de Google, où ces goulets d'étranglement n'existent pas.

Illyes et Splitt ont tous deux souligné que ces indices aident cependant les utilisateurs. Des chargements de page plus rapides améliorent la rétention et la conversion. La différence réside dans le fait que ces modifications affectent l'expérience du navigateur, mais pas l'exploration ou l'indexation.

Les Métadonnées Appartiennent à l'en-tête <head>

Splitt a partagé un exemple où une balise script conforme a injecté un iframe dans l'en-tête, ce qui a déclenché le comportement de fermeture de l'en-tête du navigateur. Cela a déplacé des balises de lien hreflang dans le corps de la page, que, selon Splitt, les systèmes de Google ont correctement ignorées.

Illyes a expliqué pourquoi Google est strict à ce sujet. Selon la norme HTML en vigueur, une balise meta name="robots" ne peut apparaître que dans l'en-tête. La même règle s'applique aux éléments de lien rel=canonical.

Il a affirmé :

« Je soutiendrais qu'il est vraiment dangereux d'avoir des éléments de lien contenant des métadonnées dans le corps. »

Sa logique est que si Google acceptait des balises canoniques dans le corps, il serait alors possible de détourner la canonical d'une page et de la retirer des résultats de recherche en injectant du code.

Devis SEO

Un expert disponible maintenant · Réponse sous 24h · Sans engagement

Illyes a précédemment donné des conseils sur l'analyse HTML et la mise en œuvre des rel-canonicals, suggérant d'indiquer le chemin URL complet dans les balises canoniques afin d'éviter toute ambiguïté d'analyse. C'est le même principe ici, un placement clair dans l'en-tête élimine les approximations.

La Validité HTML n’Équivaut Pas à un Avantage de Classement

Illyes a été clair sur le fait que la validité HTML ne peut pas être un signal de classement. La validité est binaire : elle est soit valide, soit invalide, sans zone intermédiaire. Illyes a souligné qu'il est difficile de donner un sens utile à une métrique de type pass/fail.

« Il est très compliqué d’affirmer que quelque chose est presque valide. Et que faire lorsque quelque chose est juste proche de la validité ? »

Il a donné l'exemple d'une balise span de fermeture manquante qui rend le HTML d'une page techniquement invalide, mais comme l'a dit Illyes, « cela ne changera rien pour l'utilisateur. »

Splitt a acquiescé, notant que le balisage sémantique comme une hiérarchie appropriée des titres et des éléments structurels HTML5 n'a pas non plus un poids significatif pour les moteurs de recherche, bien qu'il soit utile pour l'accessibilité et l'expérience utilisateur.

Pourquoi Cela est Important

Les audits techniques peuvent signaler des opportunités d'indices de ressources et des erreurs de validation HTML. Savoir lesquels de ces éléments affectent le robot d'exploration de Google et lesquels affectent les navigateurs peut aider à prioriser les corrections à apporter.

Lorsqu’une balise hreflang, un lien canonique ou des directives de métadonnées robots ne fonctionnent pas comme prévu, le premier endroit à vérifier est de savoir s'ils se retrouvent dans le corps après l'analyse de la page par le navigateur. Une balise qui semble correcte dans votre HTML source peut se retrouver au mauvais emplacement si un script ou un iframe déclenche une fermeture anticipée de l'en-tête.

Roger Montti a traité des nouvelles recommandations de Google concernant la mise en cache de son robot d'exploration, qui préconisent l'utilisation d'en-têtes ETag pour réduire le crawl inutile. Cette directive est cohérente avec ce qu'a décrit Illyes dans cet épisode.

Avenir en Vue

Splitt a mentionné que les indices client étaient à l'origine le sujet qu'il souhaitait aborder, et que la discussion sur l'analyse HTML jetait les bases pour un futur épisode. Si cet épisode se concrétise, il pourrait traiter de la manière dont Googlebot gère les nouveaux en-têtes Accept-CH et Sec-CH-UA, remplaçant les chaînes d'agent utilisateur traditionnelles.

La conversation complète est disponible sur YouTube et Apple Podcasts.

Ma Vision

Il est essentiel de comprendre comment Googlebot interprète le HTML, car cela influence directement l'approche que les professionnels du SEO devraient adopter. Les conseils de Gary Illyes et Martin Splitt soulignent l'importance d'une bonne configuration structurelle, pas seulement pour le référencement, mais également pour optimiser l'expérience utilisateur. À l'avenir, les pratiques d'optimisation doivent évoluer pour intégrer ces connaissances techniques, car la compréhension approfondie des interactions entre le code et le robot d'exploration peut offrir une véritable valeur ajoutée dans une stratégie de référencement efficace.

← Tous les articles

Devis SEO

Un expert disponible maintenant · Réponse sous 24h · Sans engagement