Usar Site Crawl

Cómo leer el análisis de Site Crawl

Al mostrar los resultados de rastreo de un sitio web, Site Crawl muestra sus datos usando un sistema de código de colores. Este análisis usa colores para ayudarte a comprender qué está sucediendo en cuanto a la usabilidad y SEO de tu sitio web.

Este rastreo usa tres colores para ayudarte a comprender estos datos:

Rojo: Estos son problemas de alta prioridad que están afectando seriamente el SEO y/o la facilidad de uso de un sitio web. Estos problemas deben estar en la parte superior de cualquier lista de tareas para arreglar un sitio web.
Naranja: Estos son problemas que son importantes, pero no críticos para la experiencia del usuario o SEO. Los problemas resaltados en naranja definitivamente deben solucionarse, pero no antes de los marcados en rojo.
Azul: Los datos que se muestran en azul son notas informativas. Este análisis muestra cosas que no necesariamente afectan la capacidad de un sitio para clasificar en los resultados de búsqueda, o resalta problemas que sí afectan el SEO pero que pueden estarse implementando a propósito (como rechazar una página a través de robots.txt).

Lectura de datos del Site Crawl

Los datos de Site Crawl se dividen en cuatro secciones:

En página
Estado HTTP
Indexación
Canonical

Estos son los datos que recopila cada sección y qué significan esos datos para tu sitio web:

En página

La sección en página del Site Crawl contiene datos sobre elementos que son importantes para el SEO en página y/o la experiencia de usuario:

Etiquetas de título
Meta descripciones
Etiquetas H1
Contenido del cuerpo de página

Cuando el rastreador encuentra uno de los problemas descritos a continuación, mostrará la siguiente información:

Una descripción del problema.
Un recuento de caracteres del texto y la longitud de la etiqueta en píxeles.
El texto real encontrado por el rastreador.
La URL de la página o páginas donde se encontró el elemento.

Etiquetas de título

El área de etiquetas de título de la sección en página de Site Crawl destaca las páginas con etiquetas de título que posiblemente no estén tan bien optimizadas como podrían estar para los motores de búsqueda. En esta área encontrará etiquetas de título que son:

Duplicados: si Site Crawl encuentra el mismo título en dos o más páginas, aparecerá junto con todas las páginas que usan ese título. Tener páginas con títulos idénticos puede causar problemas de contenido duplicado para un sitio web.
Demasiado corto/largo: Google dedica 600 píxeles (alrededor de 65 caracteres) para mostrar el título de una página en sus resultados de búsqueda. El contenido de la etiqueta de título que es más largo o más corto que esto es técnicamente válido, pero quizás podría modificarse para aprovechar mejor el espacio que tiene en los resultados de búsqueda.
Faltante: las páginas marcadas como "faltantes" no contienen el código HTML para definir una etiqueta de título. Las páginas con etiquetas de título faltantes están perdiendo una señal muy importante que Google usa para determinar el tema y la relevancia de una página.

Meta descripciones

El área de meta descripciones de la sección en página destaca problemas potenciales descubiertos con las meta descripciones de tu sitio web. En esta sección encontrarás meta descripciones que son:

Duplicados: Las meta descripciones que se utilizan en dos o páginas se enumeran en esta área. Al igual que las etiquetas de título, las meta descripciones duplicadas pueden hacer que tu sitio experimente problemas con el contenido duplicado.
Demasiado corto/largo: Las meta descripciones aparecen en los resultados de búsqueda de Google debajo del título y la URL de una página. La cantidad de espacio que Google dedica a las meta descripciones fluctúa, pero generalmente oscila entre 650 y 900 píxeles (alrededor de 120-150 caracteres). Si la meta descripción de una página es demasiado corta o demasiado larga, Google podría simplemente buscar en el contenido de la página para mostrar lo que cree que es la parte más relevante. Diseñar meta descripciones relevantes y atractivas puede ayudar a alentar a las personas a hacer clic en tu sitio en los resultados de búsqueda.
Faltante: Estas páginas no contienen la etiqueta HTML para establecer una meta descripción. Al igual que cuando las descripciones son demasiado largas o cortas, Google usará un fragmento del texto de la página cuando lo muestre en los resultados de búsqueda si no contiene una descripción. Esto brinda cierto control sobre cómo aparece tu sitio en los resultados de búsqueda.

Encabezados HTML

El área de etiquetas H1 de las páginas de la sección en página puede hallar que tienes etiquetas de encabezado HTML H1 múltiples o faltantes.

Múltiples H1: Google ha dicho varias veces que usar múltiples etiquetas H1 en una página para estructurar el contenido de una manera lógica y fácil de usar ayudará a mejorar la usabilidad y la legibilidad. Sin embargo, también es una vieja táctica de spam para mejorar el ranking de búsqueda de una página. Las páginas con varias etiquetas H1 se enumeran aquí, por lo que puedes asegurarte de que todas las páginas que usan varias etiquetas H1 lo hacen legítimamente.
Faltante: las páginas que no contienen el código HTML que para definir el contenido H1 se identifican como "Faltante" en esta área. Dejar de lado el contenido H1 en una página hace que sea más difícil para Google leer y comprender de qué se trata el contenido de la página.

Contenido de cuerpo de página

El contenido del cuerpo de página es el contenido que aparece entre las etiquetas HTML <body> y </body> en una página. Cuando hablamos de "contenido" en términos de una página web y Google, nos referimos a este contenido. El área de contenido del cuerpo de página de la sección en página del Site Crawl identifica páginas con contenido que es:

Contenido delgado: a los motores de búsqueda les gusta el contenido que proporciona detalle y autoridad para responder a las preguntas de un usuario, de modo que las páginas con contenido breve o delgado no posicionarán tan bien. No hay un recuento exacto de palabras que defina el contenido "delgado", pero Site Crawl resaltará las páginas con contenido de 250 caracteres o menos.
Duplicados: las páginas que son versiones copiadas entre sí pueden confundir a los motores de búsqueda en cuanto a cuáles son las versiones originales y dar lugar a estas páginas que luchan por clasificarse en los resultados de búsqueda. Demasiadas páginas duplicadas pueden hacer que un sitio web se vea de baja calidad, lo que afecta la capacidad de posicionamiento de otras páginas.
En blanco: como se mencionó anteriormente, el contenido del cuerpo de página es el contenido principal de una página. Las páginas en blanco no tienen ningún contenido en las etiquetas HTML del cuerpo. Es muy posible que los motores de búsqueda ni siquiera se molesten en indexar estas páginas en blanco, ya que no tienen contenido para recomendar a los usuarios.

Estado HTTP

Los códigos de estado HTTP indican qué sucede cuando un navegador o rastreador (incluidos los rastreadores de motores de búsqueda) intenta cargar una página en tu sitio web. Son increíblemente importantes para comprender la optimización y usabilidad del motor de búsqueda de un sitio web.

Con Site Crawl, puedes seguir los enlaces de un sitio web para analizar los datos del código de estado HTTP y descubrir posibles problemas con el estado general de un sitio web.

Cuando Site Crawl encuentra uno de los códigos de estado HTTP que se enumeran a continuación, recopilará y mostrará los siguientes datos:

Código de estado HTTP: este es el código devuelto por el servidor del sitio cuando Site Crawl intenta visitar la página especificada.
URL de la página de error: esta es la página que devuelve el código de estado o error especificado cuando Site Crawl intenta acceder a él.
URL de la página de origen: esta es la página que se vincula a la página rota, faltante, redirigida o de otra manera inaccesible.

5xx

Los códigos de estado HTTP en el rango de 500 indican que el servidor encontró un error interno al intentar enviar la página solicitada al navegador del usuario. Esencialmente, algo salió mal con el servidor en algún lugar, ya que tardó demasiado en responder, el sitio se vio abrumado por el tráfico o encontró errores en el código.

4xx

Un servidor devuelve un código de estado en el rango 400 cuando no puede encontrar una página ubicada en la URL solicitada. Los errores 404 son la instancia más conocida de estos errores, sin embargo, existen otros códigos para especificar otros errores al intentar acceder a la página de solicitud.

3xx

Los códigos de estado en el rango de 300 le dicen al navegador que la página solicitada se ha movido de una URL a una nueva. Este movimiento puede ser permanente (301) o temporal (302). El servidor también le dirá al navegador dónde ir en su lugar. Por eso estos códigos de estado se denominan "redireccionamientos".

Los redireccionamientos en sí mismos generalmente no son un problema. Pero hay cosas que pueden salir mal que afectan el SEO y la experiencia del usuario de un sitio web. Site Crawl mostrará una lista de datos importantes que descubre sobre los redireccionamientos de un sitio web:

Redirecciones rotas: como su nombre indica, estas son redirecciones que dirigen a los usuarios y rastreadores a páginas que no se cargan o no existen.
Cadenas de redireccionamientos: las cadenas de redireccionamiento ocurren cuando una redirección apunta a una página que también redirige a una tercera página.
Bucles de redireccionamientos: los bucles se producen cuando una página redirige a una segunda página que a su vez redirige a la primera página. Esto hace que el usuario se quede atascado en un infinito de ida y vuelta entre dos páginas que no se cargan. La mayoría de los motores de búsqueda de hoy en día (incluido Google) consideran los bucles de redireccionamientos como redireccionamientos rotos e ignorarán cualquiera de los que encuentren.

Cuando Site Crawl encuentra uno de estos errores, mostrará los siguientes datos:

Tipo de error: redireccionamiento roto, bucles de redireccionamiento, cadenas de redireccionamiento o simplemente redireccionamientos normales.
Código: el código de estado HTTP de la página a la que apunta la redirección.
URL de página de redireccionamiento: la URL de la página en el enlace original descubierto por Site Crawl y cada URL encontrada hacia la cual existe una redirección. Esto incluirá todas las URL en la cadena o bucle de redireccionamiento.
URL de la página de origen: la página en la que Site Crawl encontró el enlace a la página redirigida.

HTTP dentro de HTTPS

El HTTP dentro del área HTTPS de la sección Estado de HTTP enumera las páginas alojadas en URL HTTPS pero que contienen archivos (imágenes, videos, scripts, etc.) que usan URL HTTP normales. Enumera los datos que encuentra sobre páginas seguras que alojan archivos no seguros:

Número de activos: este es el número de archivos en la página que usan URL no seguras.
Tipo de activo HTTP: este es el tipo de archivo que utiliza una URL HTTP. Esto podría ser imágenes, JavaScript, CSS u otros tipos de archivos.
URL de recurso HTTP: la URL no segura para el archivo detectado.
URL de la página fuente HTTPS: esta es la página segura que contiene la imagen no segura, el script u otro archivo.

HTTPS se refiere a un método para enviar y recibir datos a través de la web. Es una extensión segura y encriptada del protocolo HTTP original.

Asegurar tu sitio web con un certificado SSL y usar HTTPS en tus URL es importante para el SEO: los motores de búsqueda clasifican los sitios web seguros mejor que los sitios menos seguros, todo lo demás es igual. El uso de SSL para tu sitio web también ayuda a proteger a tus usuarios y la información de los usuarios cuando acceden a tu sitio web, lo cual es vital para generar confianza con tus clientes.

El uso de recursos sin URL HTTPS en páginas que tienen URL HTTPS no solo hace que tu sitio sea menos seguro, sino que muchos navegadores no permitirán que los usuarios accedan a estas páginas. En su lugar, mostrarán una página de advertencia roja que informa al usuario que la página a la que desea acceder no es completamente segura.

Errores de rastreo

Los errores de rastreo se producen cuando Site Crawl no puede conectarse con un sitio web porque no responde o tarda demasiado en responder cuando solicita una página.

Indexación

La sección de indexación enumera todas las páginas que Site Crawl encuentra que los motores de búsqueda tendrán dificultades para encontrar, rastrear e indexar, o no podrán rastrear en absoluto. Por lo tanto, estas páginas probablemente no aparecerán en los resultados de búsqueda.

La configuración de las páginas para que los motores de búsqueda no puedan indexarlas a menudo se realiza a propósito, como durante una migración/rediseño del sitio o para evitar contenido duplicado. Sin embargo, esto también se puede hacer por error, por lo que vale la pena monitorear continuamente un sitio web para garantizar una indexabilidad óptima.

Nota: Las páginas enumeradas en la sección de Indexación de Site Crawl están marcadas como informativas solo porque es posible que el propietario de un sitio web desee que los motores de búsqueda no indexen una página. Sin embargo, las páginas que no se pueden indexar que aparecen en el mapa del sitio del sitio web deben considerarse un error, ya que incluir una página no indexable en un mapa del sitio puede confundir a los motores de búsqueda sobre la dirección que deben seguir.

Páginas no indexables

Las páginas enumeradas en el área de páginas no indexables de esta sección son páginas que los motores de búsqueda no pueden rastrear por uno de estos motivos:

El archivo robots.txt del sitio web no lo ha permitido.
La página contiene una etiqueta canónica que apunta a otra página.
Tiene una etiqueta noindex meta robots
La página tiene una etiqueta de meta robots nofollow o un encabezado HTTP

Cuando Site Crawl encuentra una página que no se puede indexar por uno de estos motivos, recopilará los siguientes datos:

La URL de la página no indexable
La URL de la página que enlaza con la página no indexable.
El motivo por el que los motores de búsqueda no pueden indexar la página (uno de los motivos enumerados anteriormente)
Si la página no indexable aparece o no en el mapa del sitio XML del sitio web

Páginas deshabilitadas

Esta área identifica las páginas de un sitio web que han sido rechazadas por el archivo robots.txt de ese sitio pero que están siendo vinculadas desde algún lugar de ese sitio.

Cuando Site Crawl encuentra una página deshabilitada mientras sigue los enlaces en un sitio web, mostrará:

La URL de la página no permitida
La URL de la página de origen (enlace)
Si la página rechazada aparece o no en el mapa del sitio XML del sitio

Páginas nofollow

El área de páginas nofollow de la sección Indexación enumera las páginas que Site Crawl encuentra que contienen una etiqueta meta robots o un encabezado HTTP x-robots-tag establecido en nofollow. Las páginas que contienen la etiqueta nofollow o el encabezado HTTP impiden que los motores de búsqueda sigan cualquiera de los enlaces en esas páginas.

Si bien estos elementos pueden ayudar al propietario de un sitio web avanzado a controlar cómo se rastrea e indexa su sitio, los errores con estos métodos pueden evitar que las páginas de un sitio aparezcan en los resultados de búsqueda.

Cuando Site Crawl encuentra una página con la etiqueta nofollow meta robots o el encabezado HTTP x-robots, presentará los siguientes datos:

La URL que contiene la etiqueta o encabezado nofollow
La página que enlaza con la página no seguida
Si la página no es seguida por la etiqueta meta robots o el método de encabezado HTTP

Páginas profundas

"Páginas profundas" se refiere a páginas que requieren que un usuario o motor de búsqueda haga clic en seis o más enlaces para encontrar esa página desde la página de inicio. Es menos probable que los motores de búsqueda encuentren páginas profundas y, por lo tanto, es menos probable que aparezcan en los resultados de búsqueda para los usuarios. Las páginas profundas que son descubiertas por los motores de búsqueda se consideran menos importantes y tienen menos probabilidades de clasificarse como otras páginas.

Cuando Site Crawl encuentra páginas profundas, enumera

Profundidad: la cantidad de clics necesarios para llegar a la página profunda desde la página de inicio
URL de origen: la URL de la página que enlaza con la página profunda
URL de página profunda: la URL de la página profunda que requiere al menos seis clics para buscar desde la página de inicio

Tener muchas páginas profundas en un sitio web es una señal, ya sea un sitio web muy grande o un sitio web más pequeño con una estructura de enlace interna deficiente. Cuando la profundidad alcanza alrededor de 50 clics o más, eso suele ser un signo de un error en el CMS del sitio web que hace que genere automáticamente URL únicas al cargar una página.

Canonical

La sección Canonical de Site Crawl enumera páginas que contienen etiquetas canónicas y/o etiquetas hreflang. Estas etiquetas le dicen a los motores de búsqueda dónde pueden encontrar la versión original de una página o las versiones de una página en idiomas alternativos, respectivamente.

Canonical

El área Canonical enumera todos los datos importantes que Site Crawl encuentra sobre las etiquetas canónicas descubiertas de un sitio web:

Autorreferencia / no autorreferenciación: Esto te dirá si la etiqueta canónica de una página se vincula o no a la página en la que aparece (autorreferencia) o no (sin autorreferencia)
Canónicos en conflicto: no se puede acceder a la URL que figura en la etiqueta canónica
No coinciden los mapas del sitio: la URL contenida en la etiqueta canónica no se puede encontrar en el mapa del sitio XML del sitio
Múltiples canónicos: las páginas marcadas con múltiples canónicos contienen más de una etiqueta canónica. Esto a menudo se produce cuando una URL canónica se agrega tanto en el encabezado HTTP de la página como en el código HTML.
Desajuste de Open Graph: la URL que figura en la etiqueta canónica de la página no coincide con la URL de Open Graph de la página.

Site Crawl luego mostrará la URL de la página que contiene la etiqueta canónica analizada, así como la página que enlaza con esta página.

Hreflang

El área Hreflang enumera el análisis de Site Crawl de las etiquetas hreflang que contienen enlaces a páginas a las que no puede acceder o cargar correctamente. Los resultados del rastreo del sitio enumerarán el enlace roto contenido en la etiqueta hreflang, así como la página en la que aparece la etiqueta.

Cómo leer el análisis de Site Crawl

Lectura de datos del Site Crawl

En página

Etiquetas de título

Meta descripciones

Encabezados HTML

Contenido de cuerpo de página

Estado HTTP

5xx

4xx

3xx

HTTP dentro de HTTPS

Errores de rastreo

Indexación

Páginas no indexables

Páginas deshabilitadas

Páginas nofollow

Páginas profundas

Canonical

Canonical

Hreflang

Artículos relacionados