lunes, octubre 2, 2023
InicioSin categoríaScreaming Frog: Optimiza el SEO de Tu Sitio Web de 0 a...

Screaming Frog: Optimiza el SEO de Tu Sitio Web de 0 a 100

Screaming Frog Seo Spider es una herramienta que cualquier persona medianamente interesada en el mundo de las páginas web y su optimización debería conocer.

Con él, podemos rastrear todas las URL en un portal y encontrar casi todos los tipos de fallas en el sitio. ¿Quieres dejar tu sitio web perfecto? Bueno, ¡veamos en profundidad y en detalle cómo funciona esta poderosa herramienta!

Pero primero… necesitas descargar esta herramienta para seguir este tutorial.

Configuración inicial

Al ingresar a Screaming, lo primero que vemos es una ventana donde pondremos la url de nuestro sitio:

Cuando hacemos clic en ‘iniciar’, comenzará a rastrear todo el sitio web; ahora hay docenas de opciones y modos que debe verificar antes de comenzar, ya que le permitirán optimizar aún más el proceso y obtener solo la información que desea.

En el menú de la parte superior, haga clic en ‘Configuración’ para mostrar el siguiente submenú:

1.1 Spider

La primera opción que se nos presenta es «Spider» en la que podremos configurar qué tipos de archivos queremos rastrear, qué información obtener y cómo.

Haga clic en esta opción para abrir la siguiente ventana:

¿Qué Rastrear?

La primera pestaña ‘Básica’, como podemos ver en la captura de pantalla, nos permite seleccionar el formato de archivo a rastrear. Podemos incluir / excluir imágenes, CSS, Javascript y archivos SWF.

También podemos decirle que siga los enlaces internos o externos marcados como ‘nofollow’.

Con la opción ‘Explorar todos los subdominios’ le diremos a Screaming que si encuentra un subdominio, que lo trate como un enlace interno y no externo. Si, por alguna razón, desea comenzar a rastrear desde una URL que no sea la raíz, marque la opción «Explorar fuera de la carpeta de inicio».

Las otras opciones se utilizan para realizar un seguimiento de las marcas canónicas, Rel = ‘next’ y Rel = ‘prev’, así como las URL marcadas con Hreflang.

LIMITES

En la segunda pestaña podemos establecer unos límites, muy útiles sobre todo si queremos limitar un sitio web muy grande:

Limit Search Total: le permite seleccionar un límite de URL para rastrear. Al principio nos interesa rastrear toda la web, por eso nunca pongo nada.

Limit Search Depth: establece el nivel de profundidad máximo. El nivel 1 mostraría los enlaces que se encuentran a un clic de distancia de Inicio. El nivel 2 incluso eliminaría los enlaces que están a 2 clics de distancia de Inicio. Y así respectivamente.

Limit Max URI Length to Crawl: limite la longitud máxima (en caracteres) de las URL para rastrear. Ej: Si ponemos 100, no seguirá las direcciones que tengan más de 100 letras en su sintaxis.

Limit Max Folder Depth: muy similar a la segunda opción, pero esta vez limitamos a nivel de directorio. ¡Atención! Para el nivel 0 de Screaming, esta no es la raíz del dominio sino una URL de nivel superior; es decir, si ponemos el nivel 0, solo seguirá las urls que tengan 1 directorio. Si ponemos el nivel 1, seguirá las URL que tengan un máximo de 2 niveles de directorio.

Limit Number of Query Strings: limite el número de parámetros, siempre que tengan un formato de tipo ?x=. Ejemplo: domain.com/shoes?p=red tiene 1 parámetro. Domain.com/shoes?p=rojos_?g=mujer tiene 2 parámetros. Muy útil si queremos excluir combinaciones de parámetros en tiendas online.

RENDERING

La siguiente pestaña «Render» nos permite seleccionar entre 3 opciones que determinarán la forma de procesar el contenido de la página: procesar JavaScript o no.

La opción predeterminada es «Antiguo esquema de rastreo de AJAX» y básicamente emula un sistema de Google propuesto en 2009 para rastrear contenido AJAX; aunque está obsoleto desde 2015, es lo más parecido al seguimiento que realiza actualmente.

Mi recomendación es dejar siempre esta opción, pero imagina que tu sitio web tiene elementos JavaScript que impiden un seguimiento adecuado por parte de Screaming. ¿Que hacer? Seleccionamos la opción ‘Solo texto’, con la que solo seguiremos el código HTML puro, ignorando el JavaScript.

Por último, tenemos la tercera opción “Javascript” que ejecutará este tipo de código si lo tenemos en la web e incluso tomará una captura de pantalla de su apariencia. Obviamente, esta opción es la más cara para la herramienta, por lo que probablemente te llevará mucho más tiempo completar el proceso.

Al seleccionar ‘Javascript’ podemos ajustar algunos parámetros simples:

Esto nos permite seleccionar el tiempo (en segundos) que se ejecutará el código AJAX hasta que se realice la captura. También puede indicar el tamaño de la pantalla en el momento de la captura.

ADVANCED

Si con todo esto no tienes lo suficiente para personalizar el spider a tu gusto, ¡vayamos con las opciones avanzadas!

Aunque esto es poco común, es posible que se encuentre con un sitio web en el que necesite aceptar cookies para una navegación adecuada. Si este es el caso de su portal, marque la primera opción.

Pause on High Memory Usage‘ está marcada por defecto y es muy útil para páginas muy grandes ya que Screaming Frog alcanzará su límite de memoria en ciertos momentos (recuerde que esta es una aplicación Java), pausará el proceso y nos notificará para que guardemos el proyecto si queremos continuar.

¿Migraste o crees que tienes cadenas de redireccionamiento?

A continuación, seleccione «Seguir siempre las redirecciones». Screaming seguirá las redirecciones a la URL final.

Imagina que tienes una URL con un 301 que a su vez apunta a una URL que también tiene un 301. Con esta opción, una vez que se complete el proceso de rastreo, podrás detectar y exportar estas cadenas desde la siguiente ventana del menú principal:

Si marcamos ‘Respect noindex‘, ‘Respect Canonical‘ y ‘Respect Next/Prev‘, no obtendremos en el informe final las URL que tienen una etiqueta Noindex, una canónica para una URL que no es ella misma o las etiquetas de paginación Siguiente / Anterior.

Marque «Extraer imágenes del atributo srcset Img» y Screaming eliminará todas las imágenes marcadas con el atributo srcset. Es posible que su página web no cargue las fotos de esta manera porque es un atributo CSS poco común. Aquí puedes ver un ejemplo: https://webkit.org/demos/srcset/

El siguiente recuadro (“Response Timeout”) es muy interesante si la web que vamos a analizar es muy lenta, porque nos permite definir el tiempo máximo (en segundos) durante el cual Screaming debe esperar a que se cargue una URL. De forma predeterminada, están configurados en 20 segundos; es decir, si pasan 20 segundos y la URL no se ha cargado en el informe, nos dirá que la URL tiene un código de respuesta de 0 – ‘Tiempo de espera de conexión’.

Normalmente un portal no debería tardar tanto… pero si por X razones tienes que mucho por la URL, aumenta ese número. Por supuesto… tendrás que esperar mucho tiempo si tiene muchas URL.

Los últimos 2 cuadros son muy simples: “5XX intentos de respuesta” indica la cantidad de veces que Screaming intentará acceder a una URL con un código de respuesta 5XX. Con «Max Redirects to Follow», indicamos un número máximo de redirecciones a seguir en una cadena.

PREFERENCES

Y llegamos a la última pestaña de preferencias, donde podremos modificar las recomendaciones que por defecto muestra Screaming Frog a nuestro gusto:

Como puede ver, para Screaming, la etiqueta del título debe tener entre 30 y 65 caracteres. Todo lo que no siga estas pautas se marcará como un error.

Si está siguiendo otro tipo de normativas y no desea que el informe aparezca como un error, modifique estos datos como desee. Puedes modificar el ancla en píxeles del título, la descripción, el número máximo de caracteres que debe tener una URL, un H1, un H2, un atributo ALT o el tamaño máximo (en kilobytes) de las imágenes.

1.2.Robots.txt

Una vez configurado el Spider, vamos a la ventana Robots.txt:

No te preocupes porque es mucho más fácil que el anterior. En Configuración, se muestra la siguiente ventana:

En la que podemos:

  • Ignorar completamente el archivo robots.txt de nuestro portal, por lo que las URL bloqueadas no se mostrarán como tales;
  • Ver las URL bloqueadas por el archivo robots.txt en el informe final. Recomiendo dejarlo siempre marcado para verificar que está bloqueando las URL deseadas, aún está a tiempo de eliminarlas del informe final después de verificarlo;
  • Mostrar URL externas bloqueadas por el archivo robots.txt

Por otro lado, si desea simular un archivo robots.txt con fines de prueba, haga clic en la opción ‘Personalizar’ y agregue las líneas deseadas:

Por supuesto, tenga en cuenta que los cambios que realice aquí no se realizarán en su archivo robots.txt real.

1.3 URL rewriting

URL Rewrite es una función avanzada que nos permite cambiar la sintaxis de las URL y / o eliminar parámetros. Tenga en cuenta que no elimina las URL con parámetros del informe final, sino que las reescribe.

¿Y para qué puede ser útil esta función?

Especialmente para portales que generan parámetros dinámicamente y que tenemos totalmente controlados; en estos casos, puede que nos interese evitarlos. Mi recomendación es que nunca utilice esta función inicialmente, para hacer un escaneo completo para identificar todo tipo de URL.

Para trabajar con esta opción, simplemente tendremos que poner el parámetro a eliminar en la ventana inicial.

Sin los símbolos ‘?’ O ‘=’; es decir, imagina que queremos reescribir páginas que tienen una URL como. Solo pondríamos una ‘p’ en la ventana inicial:

También podemos probar su apariencia en la pestaña «test»:

En la pestaña «Opciones» tenemos la posibilidad de hacer que todas las URL del informe estén escritas en minúsculas.

Y en la pestaña ‘Reemplazo de expresiones regulares’, podemos usar expresiones regulares para reescribir direcciones de una manera mucho más avanzada. Si está interesado, puede ver algunos ejemplos aquí: https://www.screamingfrog.co.uk/seo-spider/user-guide/configuration/#remove-parameters

1.4 Include y exclude

Dos de las funciones que más utilizo y las que encuentro más útiles son “Incluir” y “Excluir”. Gracias a ellas, podemos hacer un seguimiento segmentado; cuando estamos frente a un portal extremadamente grande (miles o millones de URL), Screaming no puede hacer frente a una cantidad tan grande de direcciones y se bloqueará en algún momento.

Por lo tanto, estas opciones son simplemente vitales para los sitios web grandes y es muy recomendable saber cómo usarlas y cómo funcionan.

Ambos tienen la misma apariencia: una ventana donde agregaremos los parámetros o carpetas (una por línea) para incluir / excluir:

Usaremos la expresión regular «. * ”(Sin comillas) antes o después del parámetro para indicar que cualquier elemento que se encuentre en estas posiciones debe ser excluido / incluido.

Con un ejemplo, es más claro: si en un análisis queremos excluir todos los filtros que contienen «?page=», en la ventana Excluir agregaremos. *?page=.*.

Puede ver más expresiones regulares aquí: https://www.screamingfrog.co.uk/seo-spider/user-guide/configuration/#exclude

Por último, es muy importante que sepas que si excluyes una URL, Screaming no la rastreará en absoluto, no la tendrá en cuenta ni la borrará en el informe final, por lo que si esa URL contiene enlaces internos a otras URL, no se rastrearán. Si solo se puede acceder a una URL a través de una dirección que ha excluido, nunca llegará a ella.

1.5. Speed

Cuando rastrea con Screaming Frog, escaneará gradualmente todas las direcciones del portal a una velocidad proporcional a la carga en la web.

A veces puede suceder que un sitio web que es lento o que no admite una gran cantidad de usuarios concurrentes es incluso más lento o se bloquea cuando le pasamos Screaming Frog. En estos casos la opción ‘Velocidad’ puede resultar muy útil:

Gracias a lo cual controlamos manualmente la velocidad a la que Screaming rastrea un sitio:

Con «Max Threads», indicamos el número máximo de tareas simultáneas (o Spiders en este caso) que funcionan. Con 5 suele ser más que suficiente, ese dato casi nunca le toca.

Si hacemos clic en «Limitar URI/s», nos permitirá modificar el número máximo de URL por segundo a rastrear. Si tiene un sitio que se carga como tortuga o se cae fácilmente, le recomiendo dejarlo entre 2 y 5 URL por segundo.

1.6. HTTP Header

En la pestaña Encabezado HTTP, podemos cambiar el agente de usuario para que la web responda de alguna manera al rastrear.

Así, podemos pretender que somos GoogleBot, GoogleBot Smartphone o Bingbot entre otros. De forma predeterminada, se seleccionará el propio agente de usuario de Screaming Frog; si durante el análisis de un portal el progreso no avanza (no sigue una URL), es posible que el servidor web haya bloqueado Screaming o que simplemente no esté respondiendo bien a este User-Agent. Intente reemplazarlo con Googlebot:

1.7 Búsquedas personalizadas y extracción de datos específicos

Si audita un sitio varias veces, necesitará obtener un determinado conjunto de URLs que tienen elementos X: aquellas que tienen el código de Analytics, donde se menciona la palabra clave X, etc.

Gracias a la función ‘Custom – Search’, podemos separar las URL que contienen (o no contienen) en su código fuente lo que queremos:

Una vez que ha terminado de rastrear todas las URL, podemos ver en la pestaña ‘Personalizar’ las páginas donde ha encontrado lo indicado.

¿Y si queremos extraer datos? ¡También es posible! Con la opción ‘Custom – Extraction’, podemos obtener directamente el contenido que está dentro de una etiqueta HTML:

Tenemos diferentes formas de hacer esto, usando expresiones regulares, Xpath o CSSPath; dependiendo del elemento que quieras extraer, te resultará más fácil hacerlo de una forma u otra.

Si el propósito de esta función no te queda claro, te daré algunos ejemplos: podríamos obtener todos los nombres de productos de una tienda online o todos los términos que tiene cada URL en la ruta de navegación.

Ahora vayamos con un ejemplo real: en mi blog tengo los datos estimados de minutos que tomará leer un artículo.

Si ahora lo pego en la función que acabamos de mencionar, rasco mi sitio y voy a la pestaña «Custom – Extraction», junto a las URL aparecerá el número estimado de minutos de lectura:

El límite está en tu imaginación, ¡puedes extraer la información que necesitas!

2. Modo

En el menú principal también podemos cambiar el modo de seguimiento:

  • Spider: Screaming actuará como una araña, saltando de una URL a otra siguiendo los enlaces internos. Empezará a seguir la dirección que le indiquemos;
  • List: Con esta opción habilitada, Screaming analizará una lista de URL que indicaremos manualmente.

Con el modo «Listado» se pueden hacer cosas interesantes, como analizar todas las direcciones en un mapa del sitio y detectar aquellas que devuelvan errores 404, 301, etc.

3. Análisis de la información rastreada

Ahora, sí, cuando todo esté configurado, puede hacer clic en «iniciar» y comenzará a rastrear su sitio. Cuantas más páginas tenga su sitio web, más tiempo llevará completar todo el proceso.

Cuando llegue al 100%, tendrás diferentes paneles con una increíble cantidad de información. Para navegar por todos estos datos, puede usar las pestañas en la parte superior:

O desplácese hacia abajo en el cuadro de la derecha, que incluye subsecciones para que pueda ir directamente a lo que le interesa:

En el panel central encontrarás la información obtenida y dependiendo de la pestaña en la que te encuentres será una u otra:

3.1- Interno: análisis de las URL del proyecto

Por defecto, estaremos en la pestaña «Interno» donde se mostrarán todas las URL encontradas por Screaming con los siguientes datos:

  • Status y Status Code: Indican el código de respuesta que puede ser 200, 301, 404, etc;
  • Canónical;
  • Etiqueta meta robots;
  • Title;
  • Description;
  • Encabezados H1 y H2;
  • Tamaño de la página (en bytes);
  • Número de palabras;
  • Text: relación entre contenido y código;
  • Level: nivel de profundidad, la casa estará en el nivel 0, una URL que esté a un clic de la casa será el nivel 1, etc;
  • Inlinks: número de enlaces entrantes internos de esta URL;
  • Outlinks: número de enlaces salientes internos a otras partes de la web;
  • External Outlinks: número de enlaces externos salientes desde esta URL;
  • Hash: este es un código de identificación único generado a partir del código fuente, es decir, si dos páginas tienen exactamente el mismo código, el hash será el mismo. Este es un valor a considerar para sacar contenido duplicado;
  • Response time: tiempo en segundos que tarda la página en cargarse.

Además de todo esto, podemos filtrar rápidamente por tipo de contenido ya que en la barra derecha, en la categoría «Internal», vemos lo siguiente:

Al hacer clic en uno de los formatos, se actualizará el panel central que muestra solo las URL que coinciden con el valor seleccionado.

¿Cómo obtener los enlaces internos entrantes y los enlaces internos salientes de una URL específica?

Si hace clic en una dirección (en el panel central), verá una ventana con diferentes pestañas en la parte inferior. Encontrará los enlaces de entrada y los enlaces de salida de esta página:

Si desea exportar directamente esta información a Excel, haga clic derecho en la URL deseada; verá una lista desplegable como esta:

Donde puedes guardar los Inlinks y Outlinks (ojo, de esa URL específica) así como también revisar otras cosas muy interesantes como el caché, si está indexado o no, verla en archive.org, etc …

3.2- External: Análisis de enlaces salientes externos

Pasamos a la siguiente pestaña «Externos» donde podemos ver todos los enlaces externos que tenemos en nuestro sitio, es decir, todos los enlaces que hemos colocado a otros dominios.

Este panel es exactamente el mismo que el “Internal” ya que tiene los mismos filtros y las mismas columnas de información.

Uso recomendado: compruebe las URL externas que tengan un código de respuesta distinto de 200, como páginas dañadas (404). Aunque, como veremos más adelante, hay formas más fáciles de generar directamente todas las direcciones en función de su código de respuesta.

3.3- Protocolo: comprobar si tenemos URLs con http y https

La pestaña de protocolo muestra por un lado las direcciones que usan https y por otro lado las que usan http.

¡Cuidado! Si ha configurado el seguimiento de enlaces externos salientes, estos se mezclarán con las propias direcciones de su sitio. Si solo desea las páginas de su sitio, no tendrá más remedio que ordenar alfabéticamente o exportar los datos a Excel y eliminar los externos.

Es particularmente interesante revisar esta pestaña cuando hayamos migrado de http a https.

3.4- Análisis de códigos de respuesta

En la cuarta pestaña ‘Códigos de respuesta’ aparecerán todas las direcciones del portal y las podremos filtrar según el código de respuesta que den:

Analice todo lo que no tenga un código de respuesta 200 y tome las decisiones adecuadas si es necesario.

  • Verifique que las URL bloqueadas por robots.txt sean exactamente las que deseaba;
  • Asegúrate de no tener una página «Sin respuesta»;
  • Comprueba si todas las redirecciones que tienes son estrictamente necesarias;
  • Comprueba que no tengas páginas rotas, que devuelvan un 404.

3.5- URI: analiza la sintaxis de tus URL

La siguiente ventana es responsable de brindarle información sobre sus URL, especialmente cómo están escritas. Los filtros que encontrará en el panel derecho son los siguientes:

  • Caracteres no ASCII: direcciones que contienen caracteres extraños, que no pertenecen a la codificación ASCII;
  • Subrayado: detecta las URL que se incluyen bajo las barras;
  • Mayúsculas: detecta URLs que contienen letras mayúsculas;
  • Duplicado: detecta URL con el mismo hash (descrito anteriormente). En otras palabras, detecta páginas idénticas;
  • Parámetros: direcciones que contienen parámetros. Es extremadamente útil ver todo lo que tienes de un vistazo y comprobar si están bloqueados por bots, no tienen pistas, etc;
  • Over 115 characters: muestra URLs que son demasiado largas, con más de 115 caracteres. Siempre se recomiendan direcciones simples y cortas.

3.6- Títulos y descripciones

Los dos paneles tienen exactamente el mismo tipo de filtros:

Con solo un clic, podemos ver todas las páginas cuyo título o descripción:

  • Están vacíos;
  • Tienen una duplicación con otras páginas internas;
  • Son demasiado largos y, por lo tanto, los resultados de la búsqueda no muestran números enteros;
  • Son demasiado cortos;
  • Son exactamente iguales al encabezado H1;
  • Son múltiples, es decir que en una misma dirección tenemos varios títulos o varias descripciones que serían falsas.

3.7- Encabezados e imágenes

Puedes borrar rápidamente páginas que no tengan encabezados H1 o H2, que se repitan en varias páginas, que sean demasiado largas o que en la misma URL se repitan (no necesariamente con el mismo texto).

En los filtros de imagen podemos seleccionar los que pesan más de 100 kb, los que no tienen atributo ALT o los que sí lo tienen pero es demasiado largo. Estos son 3 elementos que solemos descuidar mucho en cuanto a SEO pero que pueden ayudarnos mucho a mejorar el On Site de nuestro portal.

3.8- Directives

Uno de los últimos grupos, pero no menos relevante, es el de las directivas en el que encontramos datos valiosos como:

  • Canonical: URLs que contienen una etiqueta canónica para ellos mismos o para otra URL;
  • Canonicalizadas: URLs que contienen una etiqueta canónica que apunta a una URL diferente;
  • Next/Prev: contiene estas etiquetas de paginación;
  • Index/Noindex: contienen esta etiqueta que le dice a Google si queremos que se indexe o no;
  • Follow/Nofollow: si contienen esta metaetiqueta que le dice a Google que siga o no los hipervínculos contenidos en dicha URL.

Como verás, existen otros filtros pero de menor importancia porque analizan objetivos bastante desactualizados.

3.9- Arquitectura y niveles de profundidad

Aunque está algo oculto, si observa de cerca la esquina superior derecha, justo encima de los filtros que acabamos de comentar, verá una pestaña donde dice ‘Estructura del sitio’:

Al acceder a él, veremos un gráfico muy ilustrativo con la distribución de los niveles de profundidad de nuestras URL:

En el ejemplo, podemos ver que la mayoría de las páginas tienen un tercer nivel de clic desde Inicio. Es importante no tener demasiadas URL en niveles muy distantes, ya que al robot de Google le costará más llegar a ellas.

4. Exportar información (informes)

Como has visto, Screaming Frog es un software extremadamente poderoso que cualquier SEO debería manejar perfectamente.

La cantidad de datos e información que nos brinda es tal que en muchos casos es mejor exportar un segmento pequeño y seguir trabajando en Excel.

Para hacer esto, Screaming tiene una sección de «Bulk Export» en el menú principal que facilita mucho esta tarea.

De todas las opciones que permite, las más interesantes y útiles son:

All Inlinks y All Outlinks: exporta todas las URL del sitio con todos sus enlaces internos entrantes y salientes, respectivamente.

Códigos de respuesta: exporta conjuntos de URL según el código de respuesta que tienen. Lo bueno es que agrega las páginas donde está incrustado el enlace para cada dirección. Es decir, podemos saber por ejemplo si tenemos un redireccionamiento 301 y dónde encontrarlo en nuestro portal (en qué artículo o en qué texto está).

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

- Advertisment -

Most Popular

Recent Comments