Cómo encontrar todas las páginas de un sitio web: 8 formas sencillas

¿Cómo encontrar todas las páginas existentes en un sitio web? La primera idea que me viene a la mente es buscar en Google el nombre de dominio del sitio.

Pero ¿qué pasa con las URL que no se indexan? ¿O páginas huérfanas? ¿O caché web?

Encontrar todas las páginas de un sitio web es bastante fácil; sin embargo, requiere cierta atención adicional considerando que hay páginas que están ocultas a los ojos de los visitantes o de los robots de búsqueda. Esta guía muestra 8 métodos diferentes para encontrar todas las páginas del sitio junto con las herramientas a utilizar.

Por qué es posible que necesites encontrar todas las páginas de un sitio web

Hay muchas razones por las que es posible que necesites encontrar todas las páginas de un sitio web. Para nombrar unos pocos:

1. Auditar el sitio web de un nuevo cliente y encontrar problemas de indexación.

Problemas técnicos como enlaces rotos, errores del servidor, velocidad lenta de la página o mala usabilidad móvil impiden que Google indexe las páginas. Entonces, las auditorías de sitios revelan cuántas URL tiene un sitio y cuáles de ellas son problemáticas. Al final, ayuda a los SEO a estimar el alcance del trabajo futuro en el proyecto.

2. Detectar las páginas de su propio sitio que no están indexadas por error.

Si su sitio web tiene contenido duplicado, es posible que Google no indexe todos los duplicados. Lo mismo ocurre con las largas cadenas de redireccionamiento y las URL 404: si hay muchas en un sitio, el presupuesto de rastreo se gasta en vano. Como resultado, los robots de búsqueda visitan el sitio con menos frecuencia y, en general, se indexará peor. Por eso es necesario realizar auditorías periódicas, incluso si algo parece normal en general.

3. Para detectar páginas indexadas que no están destinadas a la indexación de Google.

Algunas páginas no son necesarias en el índice de búsqueda, por ejemplo, páginas de inicio de sesión para administradores, páginas en desarrollo o carritos de compras. Aún así, estas páginas pueden indexarse ​​en contra de su voluntad debido a reglas contradictorias o errores en sus archivos técnicos. Por ejemplo, si confía únicamente en robots.txt para rechazar una página, es posible que la URL se rastree y aparezca en la búsqueda.

4. Encontrar páginas desactualizadas y planificar una revisión completa del contenido.

Google tiene como objetivo proporcionar los mejores resultados posibles a sus usuarios, por lo que si su contenido es de mala calidad, escaso o duplicado, es posible que no se indexe. Es bueno tener una lista de todas tus páginas para saber qué temas aún no has cubierto. Con todo tu inventario de contenidos a mano podrás planificar tu estrategia de contenidos de forma más efectiva.

5. Encontrar páginas huérfanas y planificar estrategias de vinculación.

Las huérfanas son páginas sin enlaces entrantes, por lo que los usuarios y los robots de búsqueda las visitan raramente o no las visitan en absoluto. Las páginas huérfanas pueden ser indexadas en Google y atraer usuarios accidentales. Sin embargo, un gran número de páginas huérfanas en un sitio web arruina su autoridad: la estructura del sitio no es muy clara, las páginas pueden parecer inútiles o sin importancia, y toda la información muerta reducirá la visibilidad total del sitio web.

6. Rediseñar un sitio web y cambiar su arquitectura.

Para planificar el rediseño de un sitio web y mejorar la experiencia del usuario, primero deberá encontrar todas sus páginas y métricas relevantes.

Una estructura clara y organizada con una jerarquía lógica de todas las páginas puede ayudar a los motores de búsqueda a encontrar su contenido más fácilmente. Por lo tanto, se debe poder acceder a todas las URL importantes a uno, dos o tres clics desde la página de inicio.

Aunque la experiencia del usuario no afecta el rastreo y la clasificación, sí es importante para las señales de calidad de su sitio web: compras exitosas, la cantidad de visitantes que regresan, páginas vistas por visitante y muchas otras métricas más muestran qué tan útil es su sitio web para los visitantes.

7. Analizar los sitios web de la competencia.

Al auditar las páginas de sus competidores, puede profundizar en sus estrategias de SEO: revelar sus páginas con mayor tráfico, las páginas con más enlaces, las mejores fuentes de referencias, etc. De esta manera, puede obtener información valiosa y aprender que funciona bien para sus competidores.. Puede tomar prestadas sus técnicas y comparar resultados para ver cómo mejorar su propio sitio web.

Hay muchas formas de encontrar todas las páginas de un sitio web, pero para cada caso, puedes utilizar un método diferente para hacerlo. Entonces, veamos los pros y los contras de cada método y cómo emplearlo sin problemas.

1. Búscalo con los operadores de búsqueda de Google

La búsqueda de Google puede ayudar a encontrar rápidamente todas las páginas de un sitio web. Simplemente ingrese "sitio: su dominio" en la barra de búsqueda y Google le mostrará todas las páginas del sitio web que ha indexado.

El operador de búsqueda del sitio devuelve todas las URL que Google encuentra en su sitio web
Los resultados de site:search muestran todas las URL que Google ha encontrado en su sitio.

Sin embargo, es importante recordar que los resultados de búsqueda mostrados por el operador “sitio:” no reflejan necesariamente el número exacto de páginas indexadas de su sitio.

En primer lugar, no hay garantía de que Google indexe cada página inmediatamente después de haberla rastreado. Puede excluir determinadas páginas del índice por varios motivos: por ejemplo, considera algunas páginas duplicadas o de baja calidad.

En segundo lugar, el operador de búsqueda “sitio:” también puede mostrar páginas que se han eliminado de su sitio web, pero se mantienen como páginas almacenadas en caché o archivadas en Google.

Por lo tanto, la consulta de búsqueda “sitio:” es un buen comienzo para obtener una idea aproximada del tamaño de su sitio. Pero para encontrar el resto de las páginas que podrían faltar en el índice, necesitará otras herramientas.

2. Verifique el archivo robots.txt

‌Robots.txt es un archivo técnico que indica a los robots de búsqueda cómo rastrear su sitio web, con la ayuda de reglas de permitir/no permitir para páginas individuales o directorios completos.

Por lo tanto, el archivo no le mostrará todas las páginas de su sitio. Sin embargo, puede ayudarle a localizar páginas a las que los robots de búsqueda tienen prohibido acceder.

Cómo

Estos son los pasos para encontrar páginas restringidas usando robots.txt:

  1. Busque el archivo robots.txt en el sitio web. Generalmente se encuentra en el directorio raíz, por lo que puedes escribir ejemplo.com/robots.txt y allí estará.
  2. Abra el archivo en un editor de texto o navegador.
  3. Mire la línea "Agente de usuario" que especifica el rastreador del motor de búsqueda al que se aplican las siguientes reglas.
  4. Busque las reglas "No permitir". Estas líneas especifican las páginas o directorios a los que el rastreador del motor de búsqueda no puede acceder.
  5. Si ha encontrado alguno, examine las URL y directorios que están bloqueados.

A continuación se muestra un ejemplo de directivas de robots para YouTube.

Directivas de robots para YouTube
Directivas de robots para el sitio web de YouTube

Comprueba cómo funciona. Por ejemplo, la página de registro no está permitida. Sin embargo, aún puede obtenerlo cuando realiza una búsqueda en Google; tenga en cuenta que no hay información descriptiva disponible para la página.

Aparece una página no permitida por directivas de robots en la búsqueda
Una página no permitida por directivas de robots aparece en los resultados de búsqueda

Es necesario volver a verificar las reglas de robots.txt para asegurarse de que todas sus páginas se rastreen correctamente. Por lo tanto, es posible que necesites una herramienta como Google Search Console o un rastreador de sitios para revisarlo. Me detendré en ello en un momento.

Y hasta el momento, si quieres aprender más sobre el propósito del archivo, lee esta guía para ocultar páginas web de la indexación.

3. Examina el mapa del sitio.

Un mapa del sitio es otro archivo técnico que los webmasters utilizan para la indexación adecuada del sitio. Este documento, a menudo en formato XML, enumera todas las URL de un sitio web que deben indexarse. Un mapa del sitio es una valiosa fuente de información sobre la estructura y el contenido de un sitio web.

Los sitios web grandes pueden tener varios mapas de sitio: como el tamaño del archivo está limitado a 50.000 URL y 50 MB, se puede dividir en varios e incluir un mapa de sitio separado para directorios, imágenes, vídeos, etc. Plataformas de comercio electrónico como Shopify o Wix generar mapas de sitio automáticamente. Para otros, existen complementos o herramientas generadoras de mapas de sitios para crear los archivos.

Cómo

Entre todo, el mapa del sitio de un sitio web le permite encontrar fácilmente todas las páginas que contiene y asegurarse de que estén indexadas:

  1. Busque un enlace al mapa del sitio en el pie de página o encabezado del sitio web. El mapa del sitio generalmente se encuentra en sudominio.com/sitemap.xml o una URL similar. También puedes consultar la ficha del robot porque es el lugar más habitual para incluir una referencia al mapa del sitio.
  2. Abra el mapa del sitio en un editor de texto o visor XML.
  3. Mire las etiquetas <loc> en el archivo del mapa del sitio. Estas etiquetas contienen la URL de cada página del sitio web.
  4. Puede copiar las URL de las etiquetas <loc> en una hoja de cálculo o documento de texto.
Un ejemplo de un mapa del sitio con todas las subcategorías
Un ejemplo de varios mapas de sitio que enumeran todas las páginas de un sitio web

También debes volver a verificar la exactitud de tu mapa de sitio de vez en cuando, ya que también puede tener problemas: puede estar en blanco, responder con un código 404, estar almacenado en caché hace mucho tiempo o simplemente puede contener las URL incorrectas que no deseas. para aparecer en el índice.

Un buen método para validar su mapa de sitio es utilizar una herramienta de rastreo de sitios web. Hay varias herramientas de rastreo de sitios web disponibles en línea, y una de ellas es WebSite Auditor, que es una poderosa herramienta de SEO para auditorías de todo el sitio. Veamos cómo puede ayudarle a encontrar todas las páginas de un sitio web y validar archivos técnicos.

4. Rastrea con una araña SEO

Este paso requiere WebSite Auditor. Puedes descargarlo ahora gratis.
Descargar WebSite Auditor

Cómo

Así es como puede utilizar WebSite Auditor para encontrar todas las páginas de su sitio web:

  1. Inicie WebSite Auditor y escriba la URL de su sitio web para crear un nuevo proyecto.
  2. Marque la casilla Configuración avanzada y complete la configuración indicando los parámetros de rastreo exactos. (Si aún no sabe qué buscar, omita la configuración avanzada y deje que la araña SEO rastree su sitio con la configuración predeterminada).
  3. En la configuración avanzada, tiene varias opciones para asegurarse de que el rastreador del sitio web encuentre todas las páginas. Por ejemplo, marque Buscar páginas huérfanas y recopilará todas las URL sin enlaces entrantes.

Puede especificar las instrucciones para un determinado robot de búsqueda o agente de usuario; dígale al rastreador que ignore los parámetros de URL, rastree un sitio protegido con contraseña, rastree un dominio solo o junto con subdominios, etc.

Configurar el rastreador web para encontrar todas las páginas, incluidas las URL huérfanas
Configurar el rastreador web para encontrar todas las páginas, incluidas aquellas que no están vinculadas a otras páginas

Después de hacer clic en Aceptar, la herramienta auditará su sitio y recopilará todas las páginas en la sección Estructura del sitio > Páginas.

WebSite Auditor le ayudará a volver a comprobar si las URL están correctamente optimizadas para los motores de búsqueda. Conocerá la herramienta en unos minutos, ya que la configuración es rápida y la interfaz bastante intuitiva.

Aquí tienes una breve guía en vídeo:

Veamos qué puede obtener de la herramienta de rastreo de sitios web.

Recoge la lista de páginas con todos sus recursos.

En la pestaña Todas las páginas, puede ordenar la lista por URL, título o cualquier otra columna haciendo clic en el encabezado de la columna.

Obtenga la lista de todas las páginas con todos los recursos en la sección Estructura del sitio > Páginas
Obtenga la lista de todas las páginas con todos los recursos en la sección Estructura del sitio > Páginas
Descargar Website Auditor

Puede utilizar el cuadro de búsqueda para filtrar la lista de páginas por palabra clave o URL de página. Esto puede resultar útil si está buscando una página o un grupo de páginas específicos.

Además, puede agregar columnas visibles para presentar más información sobre esta página, como metaetiquetas, encabezados, palabras clave, redireccionamientos o cualquier otro elemento SEO en la página.

Finalmente, puede hacer clic en cualquier URL para examinar todos los recursos de la página en la mitad inferior del espacio de trabajo.

Todos los datos se pueden manejar dentro de la herramienta o copiar/exportar en formato CSV o Excel.

Obtenga listas de páginas afectadas por errores técnicos

La sección Auditoría del sitio le mostrará listas de páginas divididas por tipos de errores, como:

  • Problemas duplicados
  • Redirecciones defectuosas y cadenas de redireccionamiento
  • Páginas restringidas de indexación
  • Recursos rotos
Encuentre todas las páginas del sitio enumeradas por tipo de errores
Encuentre todas las páginas del sitio enumeradas por tipo de errores
Descargar Website Auditor

Debajo de cada tipo de problema, verá una explicación de por qué este factor es importante y algunas sugerencias sobre cómo solucionarlo.

Ver la estructura del sitio visualizada

Además, puede examinar su mapa de sitio visual en Estructura del sitio > Visualización, que muestra las relaciones entre todas sus URL. El mapa interactivo le permite agregar o eliminar páginas y enlaces para ajustar la estructura de su sitio. Puede volver a calcular el valor del PageRank interno y verificar las páginas vistas (según el seguimiento de Google Analytics).

Visualización de la estructura del sitio.
Ver todas las páginas del sitio en un mapa del sitio visual
Descargar Website Auditor

Utilice herramientas generadoras para validar archivos técnicos

Además de eso, WebSite Auditor también verifica la disponibilidad tanto de su archivo robots.txt como del mapa del sitio.

Le permite editar los archivos técnicos en las herramientas del sitio web y cargarlos directamente a su sitio con la configuración adecuada.

Herramienta generadora de mapas de sitio en Website Auditor
Crear un mapa del sitio en WebSite Auditor

No necesitará observar ninguna sintaxis especial al editar los archivos; simplemente seleccione las URL requeridas y aplique las reglas necesarias. Luego, haga clic para generar los archivos y guardarlos en su computadora o subirlos al sitio a través de FTP.

Herramienta generadora de robots.txt en WebSite Auditor
Edición de directivas de robots en WebSite Auditor
Descargar Website Auditor

5. Revisa tus páginas en Search Console

Otra gran herramienta para descubrir todas las páginas de su sitio es Google Search Console. Le ayudará a comprobar la indexación de las páginas y revelará los problemas que impiden que los robots de búsqueda indexen correctamente estas URL.

Cómo

Puede obtener un desglose de todas sus páginas según su estado de indexación, incluidas aquellas páginas que aún no se han indexado.

A continuación se explica cómo encontrar todas las páginas de su sitio con Search Console:

1. Vaya al informe de indexación y haga clic en Ver datos sobre páginas indexadas. Verá todas las páginas que el robot de búsqueda rastreó por última vez en su sitio web. Sin embargo, tenga en cuenta que habrá un límite en la tabla de hasta 1000 URL. Hay un filtro rápido para ordenar todas las páginas conocidas de todas las URL enviadas, etc.

Todas las páginas indexadas en Google Search Console
Todas las páginas indexadas en Search Console

2. Habilite la pestaña No indexado. A continuación, la herramienta le brinda detalles sobre por qué cada URL no está indexada.

Páginas que no lograron ser indexadas por Google
Todas las páginas del sitio que Google aún no ha indexado

Haga clic en cada motivo y vea las URL afectadas por el problema.

La dificultad es que obtendrá no solo las URL principales de sus páginas, sino también enlaces de anclaje, páginas de paginación, parámetros de URL y otra basura que requiere clasificación manual. Y la lista podría estar incompleta debido al límite de 1000 entradas en la tabla.

Entre otras cosas, tenga en cuenta que diferentes motores de búsqueda pueden tener otras reglas de indexación y que usted necesita utilizar sus herramientas para webmasters para encontrar y manejar dichos problemas. Por ejemplo, utilice las herramientas Bing Webmaster, Yandex Webmaster, Naver Webmaster y otras para comprobar la indexación en los respectivos motores de búsqueda.

6. Utilice Google Analytics

Supongo que Google Analytics es una de las plataformas de análisis más utilizadas, por lo que cualquier propietario o editor de un sitio web la conoce. El viejo y bueno Universal Analytics pronto será reemplazado por Google Analytics 4. Entonces, veamos ambas versiones de la herramienta.

Cómo

Para recopilar las páginas de su sitio en Universal Analytics de Google, siga estos pasos:

  1. En su cuenta de Google Analytics, seleccione el sitio web que desea explorar.
  2. Vaya al módulo Comportamiento en la barra lateral izquierda.
  3. Seleccione Contenido del sitio > pestaña Todas las páginas. Ahora debería ver una lista de todas las páginas de su sitio web que han sido rastreadas por Google Analytics.
Ver todas sus páginas en Universal Analytics de Google
Ver todas sus páginas en Universal Analytics

Verá las páginas con sus estadísticas de comportamiento del usuario, como páginas vistas, tasa de rebote, tiempo promedio en la página, etc. Preste atención a las páginas con el menor número de páginas vistas en todo el tiempo; probablemente sean páginas huérfanas.

Para recrear un flujo similar en Google Analytics 4:

  1. Vaya al módulo Informes > Participación.
  2. Selecciona la sección Páginas y pantallas.
  3. Cambie la dimensión de Título de página y clase de pantalla a Ruta de página y clase de pantalla. Ahora debería ver una tabla que muestra todas las URL de su sitio web que han sido rastreadas por Google Analytics 4.
Obtener todas las páginas en Google Analytics 4
Encontrar todas las páginas de su sitio web en Google Analytics 4

Al igual que con la Consola, incluirá parámetros de URL y similares. Puede exportar la lista de páginas como CSV o una hoja de Excel haciendo clic en el botón Exportar en la parte superior de la página.

7. Analizar registros

Algunos sitios web son realmente enormes e incluso las poderosas arañas de SEO pueden tener dificultades para rastrear todas sus páginas. El análisis de registros es una buena opción para buscar y examinar todas las páginas en sitios web grandes.

Al analizar el archivo de registro de su sitio web, puede identificar todas las páginas que reciben visitantes de la web, sus respuestas HTTP, la frecuencia con la que los rastreadores visitan las páginas, etc.

Los archivos de registro descansan en su servidor y necesitará el nivel de acceso requerido para recuperarlos y una herramienta de análisis de registros. Por lo tanto, este método es más adecuado para personas con conocimientos de tecnología, webmasters o desarrolladores.

Cómo

Estos son los pasos para encontrar todas las páginas de su sitio mediante el análisis de registros:

  1. Descargue los registros del servidor de su sitio web y ábralos con la herramienta de análisis de registros de su elección.
  2. Filtre los datos de registro por código de estado HTTP. Le ayudará a identificar todas las páginas de su sitio web que han atraído algunos visitantes.
  3. Busque entradas de registro con un código de estado 200 que indique que se accedió correctamente a la página. También puede filtrar por otros códigos de estado para encontrar páginas que hayan sido redirigidas, como redirecciones 301 o 302.
  4. Al igual que con otras herramientas, puede exportar la lista de páginas a una hoja de cálculo u otro formato para su posterior análisis.

8. Trabaja con tu CMS

Otra forma de encontrar todas las páginas de un sitio web es consultar su sistema de gestión de contenidos (CMS), ya que contendrá todas las URL del sitio web que haya creado una vez. Un ejemplo de CMS es Wordpress o Squarespace, que contienen herramientas de creación de sitios web para la edición de contenido en diferentes dominios: noticias y blogs, comercio electrónico, sitios corporativos y similares.

Cómo

Aunque los CMS son bastante diferentes en apariencia, los pasos generales se aplican a la mayoría de ellos:

  1. Inicie sesión en su panel de CMS y navegue hasta la página o sección de publicación.
  2. Busque una lista de todas las páginas o publicaciones de su sitio web, en una barra lateral, submenú o página separada.
  3. Haga clic en el enlace Todas las páginas o Todas las publicaciones para ver una lista de todas las páginas de su sitio web.

Tenga en cuenta que puede haber categorías, publicaciones de blog o páginas de destino, que son diferentes tipos de páginas que pueden pertenecer a diferentes secciones del CMS.

Encontrar todas las páginas de su sitio en WordPress CMS
Encontrar todas las páginas de su sitio en WordPress CMS

La mayoría de los CMS permiten ordenar las URL por fecha de creación, autor, categoría o algún otro criterio. También puede utilizar el cuadro de búsqueda para filtrar la lista de páginas por palabras clave o títulos.

Resumen

Para encontrar todas las páginas de un sitio web, existe una gran variedad de métodos y herramientas. El que elijas depende del propósito y del alcance del trabajo a realizar.

Espero que esta lista te haya resultado útil y que ahora puedas recopilar fácilmente todas las páginas de tu sitio, incluso si eres nuevo en SEO.

Si aún tiene alguna pregunta que aún no ha sido respondida, no dude en preguntar en nuestro grupo de usuarios en Facebook.

Article stats:
Linking websites N/A
Backlinks N/A
InLink Rank N/A
Datos de: herramienta de verificación de vínculos de retroceso.
¿Tienes preguntas o comentarios?