146147
•
Lectura de 11 minutos
•
¿Cómo encontrar todas las páginas existentes en un sitio web? La primera idea que me viene a la mente es buscar en Google el nombre de dominio del sitio.
Pero ¿qué pasa con las URL que no se indexan? ¿O páginas huérfanas? ¿O caché web?
Encontrar todas las páginas de un sitio web es bastante fácil; sin embargo, requiere cierta atención adicional considerando que hay páginas que están ocultas a los ojos de los visitantes o de los robots de búsqueda. Esta guía muestra 8 métodos diferentes para encontrar todas las páginas del sitio junto con las herramientas a utilizar.
Aquí se explica cómo encontrar todas las páginas de un sitio web:
Hay muchas razones por las que es posible que necesites encontrar todas las páginas de un sitio web. Para nombrar unos pocos:
1. Auditar el sitio web de un nuevo cliente y encontrar problemas de indexación.
Problemas técnicos como enlaces rotos, errores del servidor, velocidad lenta de la página o mala usabilidad móvil impiden que Google indexe las páginas. Entonces, las auditorías de sitios revelan cuántas URL tiene un sitio y cuáles de ellas son problemáticas. Al final, ayuda a los SEO a estimar el alcance del trabajo futuro en el proyecto.
2. Detectar las páginas de su propio sitio que no están indexadas por error.
Si su sitio web tiene contenido duplicado, es posible que Google no indexe todos los duplicados. Lo mismo ocurre con las largas cadenas de redireccionamiento y las URL 404: si hay muchas en un sitio, el presupuesto de rastreo se gasta en vano. Como resultado, los robots de búsqueda visitan el sitio con menos frecuencia y, en general, se indexará peor. Por eso es necesario realizar auditorías periódicas, incluso si algo parece normal en general.
3. Para detectar páginas indexadas que no están destinadas a la indexación de Google.
Algunas páginas no son necesarias en el índice de búsqueda, por ejemplo, páginas de inicio de sesión para administradores, páginas en desarrollo o carritos de compras. Aún así, estas páginas pueden indexarse en contra de su voluntad debido a reglas contradictorias o errores en sus archivos técnicos. Por ejemplo, si confía únicamente en robots.txt para rechazar una página, es posible que la URL se rastree y aparezca en la búsqueda.
4. Encontrar páginas desactualizadas y planificar una revisión completa del contenido.
Google tiene como objetivo proporcionar los mejores resultados posibles a sus usuarios, por lo que si su contenido es de mala calidad, escaso o duplicado, es posible que no se indexe. Es bueno tener una lista de todas tus páginas para saber qué temas aún no has cubierto. Con todo tu inventario de contenidos a mano podrás planificar tu estrategia de contenidos de forma más efectiva.
5. Encontrar páginas huérfanas y planificar estrategias de vinculación.
Las huérfanas son páginas sin enlaces entrantes, por lo que los usuarios y los robots de búsqueda las visitan raramente o no las visitan en absoluto. Las páginas huérfanas pueden ser indexadas en Google y atraer usuarios accidentales. Sin embargo, un gran número de páginas huérfanas en un sitio web arruina su autoridad: la estructura del sitio no es muy clara, las páginas pueden parecer inútiles o sin importancia, y toda la información muerta reducirá la visibilidad total del sitio web.
6. Rediseñar un sitio web y cambiar su arquitectura.
Para planificar el rediseño de un sitio web y mejorar la experiencia del usuario, primero deberá encontrar todas sus páginas y métricas relevantes.
Una estructura clara y organizada con una jerarquía lógica de todas las páginas puede ayudar a los motores de búsqueda a encontrar su contenido más fácilmente. Por lo tanto, se debe poder acceder a todas las URL importantes a uno, dos o tres clics desde la página de inicio.
Aunque la experiencia del usuario no afecta el rastreo y la clasificación, sí es importante para las señales de calidad de su sitio web: compras exitosas, la cantidad de visitantes que regresan, páginas vistas por visitante y muchas otras métricas más muestran qué tan útil es su sitio web para los visitantes.
7. Analizar los sitios web de la competencia.
Al auditar las páginas de sus competidores, puede profundizar en sus estrategias de SEO: revelar sus páginas con mayor tráfico, las páginas con más enlaces, las mejores fuentes de referencias, etc. De esta manera, puede obtener información valiosa y aprender que funciona bien para sus competidores.. Puede tomar prestadas sus técnicas y comparar resultados para ver cómo mejorar su propio sitio web.
Hay muchas formas de encontrar todas las páginas de un sitio web, pero para cada caso, puedes utilizar un método diferente para hacerlo. Entonces, veamos los pros y los contras de cada método y cómo emplearlo sin problemas.
La búsqueda de Google puede ayudar a encontrar rápidamente todas las páginas de un sitio web. Simplemente ingrese "sitio: su dominio" en la barra de búsqueda y Google le mostrará todas las páginas del sitio web que ha indexado.
Sin embargo, es importante recordar que los resultados de búsqueda mostrados por el operador “sitio:” no reflejan necesariamente el número exacto de páginas indexadas de su sitio.
En primer lugar, no hay garantía de que Google indexe cada página inmediatamente después de haberla rastreado. Puede excluir determinadas páginas del índice por varios motivos: por ejemplo, considera algunas páginas duplicadas o de baja calidad.
En segundo lugar, el operador de búsqueda “sitio:” también puede mostrar páginas que se han eliminado de su sitio web, pero se mantienen como páginas almacenadas en caché o archivadas en Google.
Por lo tanto, la consulta de búsqueda “sitio:” es un buen comienzo para obtener una idea aproximada del tamaño de su sitio. Pero para encontrar el resto de las páginas que podrían faltar en el índice, necesitará otras herramientas.
Robots.txt es un archivo técnico que indica a los robots de búsqueda cómo rastrear su sitio web, con la ayuda de reglas de permitir/no permitir para páginas individuales o directorios completos.
Por lo tanto, el archivo no le mostrará todas las páginas de su sitio. Sin embargo, puede ayudarle a localizar páginas a las que los robots de búsqueda tienen prohibido acceder.
Cómo
Estos son los pasos para encontrar páginas restringidas usando robots.txt:
A continuación se muestra un ejemplo de directivas de robots para YouTube.
Comprueba cómo funciona. Por ejemplo, la página de registro no está permitida. Sin embargo, aún puede obtenerlo cuando realiza una búsqueda en Google; tenga en cuenta que no hay información descriptiva disponible para la página.
Es necesario volver a verificar las reglas de robots.txt para asegurarse de que todas sus páginas se rastreen correctamente. Por lo tanto, es posible que necesites una herramienta como Google Search Console o un rastreador de sitios para revisarlo. Me detendré en ello en un momento.
Y hasta el momento, si quieres aprender más sobre el propósito del archivo, lee esta guía para ocultar páginas web de la indexación.
Un mapa del sitio es otro archivo técnico que los webmasters utilizan para la indexación adecuada del sitio. Este documento, a menudo en formato XML, enumera todas las URL de un sitio web que deben indexarse. Un mapa del sitio es una valiosa fuente de información sobre la estructura y el contenido de un sitio web.
Los sitios web grandes pueden tener varios mapas de sitio: como el tamaño del archivo está limitado a 50.000 URL y 50 MB, se puede dividir en varios e incluir un mapa de sitio separado para directorios, imágenes, vídeos, etc. Plataformas de comercio electrónico como Shopify o Wix generar mapas de sitio automáticamente. Para otros, existen complementos o herramientas generadoras de mapas de sitios para crear los archivos.
Cómo
Entre todo, el mapa del sitio de un sitio web le permite encontrar fácilmente todas las páginas que contiene y asegurarse de que estén indexadas:
También debes volver a verificar la exactitud de tu mapa de sitio de vez en cuando, ya que también puede tener problemas: puede estar en blanco, responder con un código 404, estar almacenado en caché hace mucho tiempo o simplemente puede contener las URL incorrectas que no deseas. para aparecer en el índice.
Un buen método para validar su mapa de sitio es utilizar una herramienta de rastreo de sitios web. Hay varias herramientas de rastreo de sitios web disponibles en línea, y una de ellas es WebSite Auditor, que es una poderosa herramienta de SEO para auditorías de todo el sitio. Veamos cómo puede ayudarle a encontrar todas las páginas de un sitio web y validar archivos técnicos.
Cómo
Así es como puede utilizar WebSite Auditor para encontrar todas las páginas de su sitio web:
Puede especificar las instrucciones para un determinado robot de búsqueda o agente de usuario; dígale al rastreador que ignore los parámetros de URL, rastree un sitio protegido con contraseña, rastree un dominio solo o junto con subdominios, etc.
Después de hacer clic en Aceptar, la herramienta auditará su sitio y recopilará todas las páginas en la sección Estructura del sitio > Páginas.
WebSite Auditor le ayudará a volver a comprobar si las URL están correctamente optimizadas para los motores de búsqueda. Conocerá la herramienta en unos minutos, ya que la configuración es rápida y la interfaz bastante intuitiva.
Aquí tienes una breve guía en vídeo:
Veamos qué puede obtener de la herramienta de rastreo de sitios web.
En la pestaña Todas las páginas, puede ordenar la lista por URL, título o cualquier otra columna haciendo clic en el encabezado de la columna.
Descargar Website AuditorPuede utilizar el cuadro de búsqueda para filtrar la lista de páginas por palabra clave o URL de página. Esto puede resultar útil si está buscando una página o un grupo de páginas específicos.
Además, puede agregar columnas visibles para presentar más información sobre esta página, como metaetiquetas, encabezados, palabras clave, redireccionamientos o cualquier otro elemento SEO en la página.
Finalmente, puede hacer clic en cualquier URL para examinar todos los recursos de la página en la mitad inferior del espacio de trabajo.
Todos los datos se pueden manejar dentro de la herramienta o copiar/exportar en formato CSV o Excel.
La sección Auditoría del sitio le mostrará listas de páginas divididas por tipos de errores, como:
Debajo de cada tipo de problema, verá una explicación de por qué este factor es importante y algunas sugerencias sobre cómo solucionarlo.
Además, puede examinar su mapa de sitio visual en Estructura del sitio > Visualización, que muestra las relaciones entre todas sus URL. El mapa interactivo le permite agregar o eliminar páginas y enlaces para ajustar la estructura de su sitio. Puede volver a calcular el valor del PageRank interno y verificar las páginas vistas (según el seguimiento de Google Analytics).
Descargar Website AuditorAdemás de eso, WebSite Auditor también verifica la disponibilidad tanto de su archivo robots.txt como del mapa del sitio.
Le permite editar los archivos técnicos en las herramientas del sitio web y cargarlos directamente a su sitio con la configuración adecuada.
No necesitará observar ninguna sintaxis especial al editar los archivos; simplemente seleccione las URL requeridas y aplique las reglas necesarias. Luego, haga clic para generar los archivos y guardarlos en su computadora o subirlos al sitio a través de FTP.
Descargar Website AuditorOtra gran herramienta para descubrir todas las páginas de su sitio es Google Search Console. Le ayudará a comprobar la indexación de las páginas y revelará los problemas que impiden que los robots de búsqueda indexen correctamente estas URL.
Cómo
Puede obtener un desglose de todas sus páginas según su estado de indexación, incluidas aquellas páginas que aún no se han indexado.
A continuación se explica cómo encontrar todas las páginas de su sitio con Search Console:
1. Vaya al informe de indexación y haga clic en Ver datos sobre páginas indexadas. Verá todas las páginas que el robot de búsqueda rastreó por última vez en su sitio web. Sin embargo, tenga en cuenta que habrá un límite en la tabla de hasta 1000 URL. Hay un filtro rápido para ordenar todas las páginas conocidas de todas las URL enviadas, etc.
2. Habilite la pestaña No indexado. A continuación, la herramienta le brinda detalles sobre por qué cada URL no está indexada.
Haga clic en cada motivo y vea las URL afectadas por el problema.
La dificultad es que obtendrá no solo las URL principales de sus páginas, sino también enlaces de anclaje, páginas de paginación, parámetros de URL y otra basura que requiere clasificación manual. Y la lista podría estar incompleta debido al límite de 1000 entradas en la tabla.
Entre otras cosas, tenga en cuenta que diferentes motores de búsqueda pueden tener otras reglas de indexación y que usted necesita utilizar sus herramientas para webmasters para encontrar y manejar dichos problemas. Por ejemplo, utilice las herramientas Bing Webmaster, Yandex Webmaster, Naver Webmaster y otras para comprobar la indexación en los respectivos motores de búsqueda.
Supongo que Google Analytics es una de las plataformas de análisis más utilizadas, por lo que cualquier propietario o editor de un sitio web la conoce. El viejo y bueno Universal Analytics pronto será reemplazado por Google Analytics 4. Entonces, veamos ambas versiones de la herramienta.
Cómo
Para recopilar las páginas de su sitio en Universal Analytics de Google, siga estos pasos:
Verá las páginas con sus estadísticas de comportamiento del usuario, como páginas vistas, tasa de rebote, tiempo promedio en la página, etc. Preste atención a las páginas con el menor número de páginas vistas en todo el tiempo; probablemente sean páginas huérfanas.
Para recrear un flujo similar en Google Analytics 4:
Al igual que con la Consola, incluirá parámetros de URL y similares. Puede exportar la lista de páginas como CSV o una hoja de Excel haciendo clic en el botón Exportar en la parte superior de la página.
Algunos sitios web son realmente enormes e incluso las poderosas arañas de SEO pueden tener dificultades para rastrear todas sus páginas. El análisis de registros es una buena opción para buscar y examinar todas las páginas en sitios web grandes.
Al analizar el archivo de registro de su sitio web, puede identificar todas las páginas que reciben visitantes de la web, sus respuestas HTTP, la frecuencia con la que los rastreadores visitan las páginas, etc.
Los archivos de registro descansan en su servidor y necesitará el nivel de acceso requerido para recuperarlos y una herramienta de análisis de registros. Por lo tanto, este método es más adecuado para personas con conocimientos de tecnología, webmasters o desarrolladores.
Cómo
Estos son los pasos para encontrar todas las páginas de su sitio mediante el análisis de registros:
Otra forma de encontrar todas las páginas de un sitio web es consultar su sistema de gestión de contenidos (CMS), ya que contendrá todas las URL del sitio web que haya creado una vez. Un ejemplo de CMS es Wordpress o Squarespace, que contienen herramientas de creación de sitios web para la edición de contenido en diferentes dominios: noticias y blogs, comercio electrónico, sitios corporativos y similares.
Cómo
Aunque los CMS son bastante diferentes en apariencia, los pasos generales se aplican a la mayoría de ellos:
Tenga en cuenta que puede haber categorías, publicaciones de blog o páginas de destino, que son diferentes tipos de páginas que pueden pertenecer a diferentes secciones del CMS.
La mayoría de los CMS permiten ordenar las URL por fecha de creación, autor, categoría o algún otro criterio. También puede utilizar el cuadro de búsqueda para filtrar la lista de páginas por palabras clave o títulos.
Para encontrar todas las páginas de un sitio web, existe una gran variedad de métodos y herramientas. El que elijas depende del propósito y del alcance del trabajo a realizar.
Espero que esta lista te haya resultado útil y que ahora puedas recopilar fácilmente todas las páginas de tu sitio, incluso si eres nuevo en SEO.
Si aún tiene alguna pregunta que aún no ha sido respondida, no dude en preguntar en nuestro grupo de usuarios en Facebook.