Problèmes d'indexation les plus courants et comment les résoudre

30062

•

12 minutes de lecture

•

Auteur

Zlata Verzhbitskaia

Zlata est une spécialiste du marketing numérique et une créatrice de contenu expérimentée. Dans ses articles sur le blog de SEO PowerSuite Ltd, elle partage les résultats d'expériences et de...

Date

Sep 02, 2024

Contenu

Comment repérer les problèmes d’indexation?
1. Non trouvé (404)
2. Doux 404
3. Bloqué en raison d'une demande non autorisée (401)
4. Bloqué car accès interdit (403)
5. URL soumise marquée « noindex »
6. URL bloquée par robots.txt
7. Indexé sans contenu
8. Erreur de redirection
9. Erreur de serveur (5xx)
10. Dupliquer sans canonique sélectionné par l'utilisateur
11. En double, Google a choisi un canonique différent de celui de l'utilisateur
12. Page alternative avec la balise canonique appropriée
13. Découvert – actuellement non indexé
14. Crawlé - actuellement non indexé
Vérifiez à nouveau les problèmes d'indexation non détectés par Google
Résumer

Les problèmes d'indexation peuvent rendre nuls vos efforts de référencement: une page peut être parfaitement optimisée et avoir une excellente UX, mais elle ne vaut rien si Google ne la voit pas. Les pages non indexées n'entreront pas dans les SERP et n'apporteront pas de trafic ni de conversions.

Vice versa, si Google voit et indexe occasionnellement une page qui n'était pas censée être indexée, vous risquez alors une fuite d'informations privées, des sanctions de Google pour contenu de mauvaise qualité et d'autres conséquences peu satisfaisantes.

Dans ce guide, je vais partager quels types de problèmes d'indexation existent et comment les résoudre afin qu'ils ne provoquent pas de baisses soudaines de classement. Mais voyons d’abord comment vérifier si vous rencontrez des problèmes d’indexation sur votre site Web.

Comment repérer les problèmes d’indexation?

Google Search Console peut vous donner une compréhension basique mais néanmoins suffisante des problèmes d'indexation de votre site. Consultez le rapport Index > Pages pour les voir.

Rapport sur les pages d'index de Google Search Console

Les pages non indexées pour une raison quelconque sont placées dans une seule section, Not Indexed. Les pages qui ont été indexées mais qui présentent encore des problèmes et nécessitent votre attention se trouvent en bas de la page dans la section Améliorer l'apparence de la page:

Section Améliorer l’apparence de la page

Pour approfondir l'analyse d'un problème, cliquez sur la ligne d'erreur, puis sur l'icône en forme de lentille à côté de l'URL que vous souhaitez vérifier:

La Search Console vous montrera les détails et vous aidera à identifier le problème avec la page.

Une fois que vous avez besoin d'approfondir et d'obtenir des recommandations sur les correctifs à apporter pour rendre une page sonore, consultez la section Indexation et capacité d'exploration de WebSite Auditor:

Section d'indexation et d'exploration de WebSite Auditor

Télécharger le site Web Auditor

L'outil collectera toutes les URL contenant des erreurs, vous n'aurez donc pas besoin de vérifier manuellement chaque page séparément.

Eh bien, nous en avons maintenant terminé avec la partie « où trouver ». Il est maintenant temps d'examiner les types de problèmes d'indexation que vous pouvez rencontrer et comment les résoudre pour que votre site Web continue d'être exploré et indexé.

Remarque: plus loin dans ce guide, je tiendrai pour acquis que toutes les URL signalées comme étant affectées par des problèmes d'indexation doivent être indexées. Si une URL ne doit pas être indexée, bloquez-la avec la balise noindex ou restreignez l'accès à l'aide des instructions robots.txt. Assurez-vous également de supprimer ces pages de votre plan de site. Ne faites rien si celui-ci n'est pas réellement indexé.

1. Non trouvé (404)

Introuvable (404) ou URL cassée est probablement l'un des problèmes d'indexation les plus courants. Une page peut avoir un code d'état 404 pour plusieurs raisons. Supposons que vous ayez supprimé l'URL mais que vous n'ayez pas supprimé la page du plan du site, que vous ayez mal écrit l'URL, etc.

Comme le dit Google, les 404 eux-mêmes ne nuisent pas aux performances de votre site tant qu'il ne s'agit pas d'URL soumises (c'est-à-dire celles que vous avez explicitement demandé à Google d'indexer).

Si vous voyez des URL 404 dans vos rapports d'indexation, voici les options possibles pour les corriger si elles n'étaient pas censées se produire:

Mettez à jour votre plan de site et vérifiez si l'URL concernée est écrite correctement.
Si la page a été déplacée vers une nouvelle adresse, configurez une redirection 301.
Si la page est supprimée sans aucun remplacement ni alternative, conservez-la sous le nom 404 mais supprimez-la du plan du site. De cette façon, Google cesse d'essayer de le trouver et de gaspiller son budget d'exploration.
Si vous devez conserver 404, créez une page 404 personnalisée et conviviale: vous pouvez y ajouter des liens utiles pour permettre aux utilisateurs de rester sur votre site au lieu de simplement fermer la page. N'oubliez pas qu'une page 404 reste une page 404, Google ne doit donc pas l'indexer, aussi belle soit-elle.

Notez que GSC ne différencie pas 404 (introuvable) de 410 (disparu) et les regroupe sous le rapport 404. Auparavant, il s'agissait de différents types de codes de réponse: 404 signifiait « introuvable mais pourrait être trouvé plus tard », tandis que 410 signifiait « introuvable et ne le sera pas car il est parti pour de bon ».

Pour ce qui est d'aujourd'hui, Google affirme qu'ils traitent les 404 et les 410 de la même manière, vous n'aurez donc probablement pas à vous inquiéter si vous trouvez une page 410 dans le rapport 404. La seule chose que je vous suggère de faire est de créer une page 404 personnalisée au lieu d'une page 410 vide afin d'économiser du trafic et d'empêcher les utilisateurs de rebondir sur votre site.

De nombreux référenceurs et propriétaires de sites ont l'habitude de rediriger les 404 vers la page d'accueil, mais la vérité est que ce n'est pas la meilleure pratique. Cela prête à confusion pour Google et entraîne des problèmes logiciels 404. Eh bien, regardons ce que sont ces 404 souples.

2. Doux 404

Les problèmes 404 logiciels se produisent lorsqu'une page a une réponse 200 OK mais que Google ne parvient pas à trouver son contenu et le considère comme un 404. Les 404 logiciels peuvent survenir pour de nombreuses raisons, et certaines d'entre elles peuvent même ne pas dépendre de vous, comme les erreurs dans les navigateurs des utilisateurs. Voici quelques raisons supplémentaires:

Un fichier d'inclusion côté serveur manquant
Une connexion interrompue à la base de données
Une page de résultats de recherche interne vide
Un fichier JavaScript déchargé ou manquant
Trop peu de contenu
Masquage de page

Ces problèmes ne sont en réalité pas si difficiles à résoudre. Voici quelques scénarios courants:

Si le contenu a été déplacé et que la page est en fait 200 OK mais vide, configurez une redirection 301 vers la nouvelle adresse ;
Si le contenu supprimé n'a pas d'alternative, marquez-le comme 404 et supprimez-le du plan du site ;
Si la page est censée exister, ajoutez du contenu et vérifiez que tous les scripts qui s'y trouvent sont rendus et affichés correctement (non bloqués par robots.txt, pris en charge par les navigateurs, etc.) ;
Si l'erreur se produit parce que le serveur est en panne lorsque Googlebot tente de récupérer la page, vérifiez si le serveur fonctionne correctement. Si tel est le cas, demandez la réindexation de cette page.

3. Bloqué en raison d'une demande non autorisée (401)

L'erreur 401 se produit lorsque Googlebot tente d'accéder à une page qui nécessite une autorisation et que votre serveur empêche Googlebot de le faire.

Si vous souhaitez que cette page soit indexée, accordez à Googlebot l'autorisation appropriée ou supprimez la demande d'autorisation.

4. Bloqué car accès interdit (403)

Ce type d'erreur se produit lorsque l'agent utilisateur a fourni des informations d'identification pour accéder à la page (identifiant, mot de passe), mais n'a pas obtenu l'accès pour le faire. Cependant, Googlebot ne fournit jamais d'informations d'identification, le serveur renvoie donc 403 au lieu de la page prévue.

Si une page a été bloquée par erreur et que vous avez réellement besoin de son indexation, autorisez l'accès aux utilisateurs non connectés ou autorisez explicitement Googlebot à accéder à la page pour la lire et l'indexer.

5. URL soumise marquée « noindex »

Comme son nom l'indique clairement, cette erreur se produit lorsque vous demandez explicitement à Google d'indexer une page (c'est-à-dire l'ajouter au plan du site ou demander manuellement l'indexation), mais que cette page a une balise noindex.

Le correctif est assez simple: supprimez la balise noindex pour que Google puisse accéder à la page.

6. URL bloquée par robots.txt

Si vous bloquez une page à l'aide du fichier robots.txt, Google ne l'explorera pas. Supprimez les restrictions pour que la page soit indexée.

Remarque: Robots.txt ne garantit pas que la page ne sera pas indexée. C'est pourquoi, parfois, Google Search Console peut vous afficher quelque chose comme ceci:

De tels problèmes peuvent vous poser plus de problèmes que les pages non indexées, car Google peut accéder et révéler des informations qui n'étaient pas censées apparaître dans les SERP (comme les paniers, les données privées, etc.).

Si vous rencontrez un problème comme celui-là, décidez si vous avez besoin d’indexer la page ou non. Si tel est le cas, supprimez l'URL du fichier robots.txt. Sinon, supprimez-le également du fichier robots.txt mais appliquez la balise noindex ou limitez l'accès aux utilisateurs non autorisés. Une fois que vous avez appliqué de nouvelles restrictions, vous pouvez également demander à Google de supprimer la page de l'index via GSC ( Index > Suppressions > Nouvelle demande).

7. Indexé sans contenu

Il s'agit d'un autre type de problème qui peut nuire davantage aux performances de votre site que les pages non indexées. Google ne favorise pas les pages vides et réduira très probablement vos positions, car les pages vides sont le signe de sites contenant du spam et d'un contenu de mauvaise qualité.

Si vous remarquez que certaines de vos pages ont le statut Indexé sans contenu, vérifiez manuellement l'URL pour en connaître la raison. Par exemple:

La page peut avoir trop peu de contenu ;
La page peut contenir du contenu bloquant le rendu, qui ne se charge pas correctement ;
Le contenu est masqué.

Prenez des mesures en fonction de ce que vous voyez.

Par exemple, si la page est trop vide, ajoutez plus de contenu. Ici, vous pouvez vérifier vos concurrents SERP et suivre leurs meilleures pratiques à l'aide de la section Content Editor de WebSite Auditor.

Section Éditeur de contenu de WebSite Auditor

Télécharger le site Web Auditor

Si vous pensez qu'il pourrait y avoir du contenu bloquant le rendu sur la page concernée, vérifiez les fenêtres contextuelles qui utilisent des scripts tiers et assurez-vous qu'elles fonctionnent correctement et qu'elles sont réellement lisibles par Google. Dans l’ensemble, Google devrait voir le contenu de vos pages de la même manière que les utilisateurs le voient.

Si le contenu de votre page est masqué, vérifiez que tous les scripts ou images sont accessibles à Google.

8. Erreur de redirection

La communauté SEO a beaucoup parlé des redirections d’URL. Pourtant, les référenceurs continuent de commettre des erreurs qui conduisent à des erreurs de redirection et à une indexation corrompue. Voici quelques raisons courantes pour lesquelles Google ne peut pas lire correctement les redirections:

Une chaîne de redirection est trop longue
Une redirection entraîne une boucle sans fin de redirections (boucle de redirection)
Une URL de redirection dépasse la longueur maximale de l'URL (2 Mo pour Google Chrome)
Une chaîne de redirection contient une URL incorrecte ou vide

La seule façon de corriger les erreurs de redirection se résume à une phrase: configurer correctement les redirections. Évitez les longues chaînes de redirection qui ne font que gaspiller le budget d'exploration du référencement et drainer le jus des liens, assurez-vous qu'il n'y a pas d'URL 404 ou 410 dans la chaîne et redirigez toujours les URL vers les pages pertinentes.

9. Erreur de serveur (5xx)

Des erreurs de serveur peuvent survenir car le serveur est tombé en panne, a expiré ou était en panne lorsque Googlebot est arrivé.

La première chose à faire ici est de vérifier l’URL concernée. Accédez à l'outil Inspecter l'URL dans GSC et voyez s'il affiche toujours une erreur. Si tout va bien, la seule chose que vous pouvez faire est de demander la réindexation.

Si l'erreur persiste, vous disposez des options suivantes en fonction de la nature de l'erreur:

Réduisez le chargement excessif des pages pour les demandes de pages dynamiques
Assurez-vous que le serveur d'hébergement de votre site n'est pas en panne, surchargé ou mal configuré
Vérifiez que vous ne bloquez pas accidentellement Google
Contrôlez judicieusement l’exploration et l’indexation du site

Après avoir tout corrigé, demandez la réindexation pour que Google récupère la page plus rapidement.

10. Dupliquer sans canonique sélectionné par l'utilisateur

La duplication sans canonique sélectionné par l'utilisateur est un problème courant pour les sites multilingues et/ou de commerce électronique qui comportent de nombreuses pages avec un contenu identique ou très similaire conçu à des fins différentes. Dans ce cas, vous devez marquer une page comme canonique pour éviter les problèmes de contenu en double.

11. En double, Google a choisi un canonique différent de celui de l'utilisateur

Celui-ci est une chose intéressante. Il peut arriver que vous ayez indiqué une certaine page comme canonique, mais que Google ait décidé de choisir une autre version de cette page comme canonique, l'indexant ainsi à la place.

Le moyen le plus simple de corriger de telles erreurs est de mettre une balise canonique sur la page choisie par Google afin de ne pas la confondre à l'avenir. Si vous souhaitez garder canonique la page que vous avez choisie, vous pouvez rediriger la page choisie par Google vers l'URL dont vous avez besoin.

12. Page alternative avec la balise canonique appropriée

Remarque: Je vais maintenant aborder les problèmes qui ne nécessitent aucune action spécifique (dans la plupart des cas). Pourtant, ils sont affichés dans Google Search Console, et je suppose que vous vous demandez peut-être ce qu'ils signifient.

Google n'indexe pas une page car il s'agit d'un double d'une page canonique. Laissez-le tel quel.

13. Découvert – actuellement non indexé

Si une page a le statut Découverte, cela signifie que Google l'a déjà découverte mais ne l'a pas encore explorée et indexée. La seule chose que vous pouvez faire ici est de vérifier les instructions d'indexation de la page en cas de doute. Si tout va bien (c'est-à-dire comme vous le souhaitiez), laissez Google faire le reste plus tard.

14. Crawlé - actuellement non indexé

Logiquement, cette description signifie que Google a exploré votre page mais ne l'a pas indexée. La page sera indexée si les instructions d'indexation n'indiquent pas le contraire. Vous n'avez pas besoin de demander une réindexation: Googlebot sait que la page attend son tour d'être indexée.

Vérifiez à nouveau les problèmes d'indexation non détectés par Google

Cette étape nécessite WebSite Auditor. Vous pouvez le télécharger dès maintenant gratuitement. Télécharger WebSite Auditor

Google Search Console peut vous aider beaucoup lorsqu'il s'agit de détecter et de résoudre les problèmes d'indexation. Mais ce serait trop bien s’il n’y avait pas de mais. Le fait est que la Search Console affiche des problèmes uniquement lorsque Google essaie de récupérer une page et échoue pour une raison quelconque. Si une telle page n'est même pas découverte par Google, il n'y aura aucune notion du problème d'indexation dans GSC. Même si le problème peut être important, il peut en fait y en avoir beaucoup.

WebSite Auditor peut vous aider à trouver et à résoudre de tels problèmes. Accédez à Structure du site > Pages et activez la colonne Date de cache dans Google dans l'espace de travail dont vous avez besoin.

activer la date du cache dans la colonne Google

Télécharger le site Web Auditor

Cela vous permettra de voir la date à laquelle une page a été mise en cache dans Google.

Remarque: Vous pouvez demander « Comment parvenez-vous à voir les pages que Google ne voit pas? » Voici la réponse: nous utilisons notre propre index avec un moteur d'exploration de pointe qui peut repérer les pages non détectées par d'autres moteurs de recherche pour quelque raison que ce soit.

Jetez maintenant un œil à la date du cache.

Télécharger le site Web Auditor

Si la date est un peu trop éloignée (il y a plus d'un an) ou est absente du tout, alors Google ne sait probablement pas que la page existe. Et il faut découvrir pourquoi.

Tout d’abord, jetez un œil à la colonne Liens vers la page dans le même espace de travail. S'il n'y a pas de liens, cela signifie qu'il s'agit d'une page orpheline et que Google ne peut pas la trouver en explorant votre site Web. Si vous souhaitez que la page soit indexée, créez un lien vers celle-ci à partir des pages pertinentes et riches en trafic.

Consultez également la colonne Instructions pour les robots et approfondissez les pages marquées comme Non autorisé. Il se peut que vous ayez bloqué par erreur les pages destinées à être indexées.

La visualisation est un module supplémentaire utile pour trouver les problèmes d'indexation

Module de visualisation de WebSite Auditor

Télécharger le site Web Auditor

Ici, vous repérerez facilement les pages orphelines (celles qui n'ont aucune connexion avec d'autres pages), les pages cassées (surlignées en rouge) et les longues chaînes de redirection, qui peuvent également être la raison pour laquelle certaines pages ne sont pas indexées.

Une fois que vous avez repéré et résolu tous les problèmes, demandez à l'outil de générer un nouveau plan du site (et un fichier robots.txt si nécessaire), qui sera ensuite envoyé à Google afin qu'il puisse découvrir toutes les pages dont vous avez besoin.

générer un plan de site dans WebSite Auditor

Télécharger le site Web Auditor

Si vous avez besoin que les URL fixes soient indexées dès que possible, vous pouvez demander manuellement la réindexation dans Google Search Console.

Résumer

Vérifiez régulièrement la façon dont vos pages sont indexées, car des erreurs peuvent survenir à tout moment. Et pour n’importe quelle raison: des problèmes de fournisseur d’hébergement aux bugs de Google et aux mises à jour de Google qui peuvent avoir un impact sur la façon dont les algorithmes de Google traitent les choses.

Quels sont les problèmes d’indexation que vous rencontrez le plus souvent? Partagez votre expérience dans notre communauté Facebook SEO.

Article stats:

Linking websites	N/A
Backlinks	N/A
InLink Rank	N/A

Données de SEO SpyGlass: essayez le vérificateur de backlinks gratuit.