Data Quality
Making Science
Alberto Exposito
Alberto Exposito
SEO Consultant

Extracción de datos con Screaming Frog

04 de January de 2019
1 min

Hace unos meses, mi compañera de SEO Olivia Jiménez escribió un artículo de expresiones regulares útiles para SEO, entre las que se encontraban algunas de Screaming Frog para la extracción de información. En el post de hoy, profundizaremos un poco más sobre esta herramienta y conoceremos algunas de sus funciones más avanzadas para extraer datos de nuestras web (custom extraction).

Lo primero que tenemos que saber es que desde Screaming Frog se facilitan tres métodos de extracción:

  • CSSPath: permite consultar y seleccionar los selectores de ruta CSS.
  • XPath: permite consultar y seleccionar elementos HTML, incluidos los atributos.
  • Regex: expresiones regulares avanzadas para extraer html y JavaScript en línea.

De los tres selectores, lo más comunes y usados son los dos primeros, depende de cada uno, la elección de uno u otro. Independientemente de la elección, una vez seleccionado te permiten una serie de opciones:

  • Extraer HTML interno: el contenido HTML interno del elemento seleccionado. Si el elemento seleccionado contiene otros elementos HTML, se incluirán.
  • Extraer elemento HTML: el elemento seleccionado y todo su contenido HTML interno.
  • Extraer texto: extrae el texto del elemento seleccionado.

A continuación, vamos a ver algunos ejemplos de que permiten cada una de las tres opciones principales de extracción:

XPath

Screaming Frog por defecto te permite extraer a nivel headings los H1 y H2, sin embargo, ¿qué pasa si necesitamos extraer los H3, H4, etc? Pues tan sencillo como incluir:

//h3

Posteriormente, filtramos por texto y nos sacará el texto de todos los elementos con esta etiqueta.

Si realizamos la prueba sobre nuestro blog, podemos ver un ejemplo de ello:

Como vemos, de la url de la home, ha detectado y extraído siete elementos H3, pero, y si solo queremos extraer el primer elemento h3 de nuestra web? La fórmula a incluir será la siguiente fórmula:

/descendant::h3[1]

Si queremos recopilar un número en concreto de H3 de una página, por ejemplo cinco, la fórmula sería:

/descendant::h3[position() >= 0 and position() <= 5]

Por último, a destacar dentro de las múltiples opciones de extracción dentro de este método quiero destacar dos. Por un lado, la extracción de urls AMP, cuya fórmula sería:

//head/link[@rel=’amphtml’]/@href

Y por otro lado, extraer Hreflang, cuyo filtro deberá pasar a extraer elemento html y su fórmula sería:

//*[@hreflang]

CSSPath

Es una de las fórmulas más sencillas ya que tan solo tendrás que copiar el selector correspondiente del elemento que quieras extraer. Por ejemplo, si queremos extraer el primer párrafo de todos los artículos de nuestro blog, tan sencillo como abrir el inspector, seleccionar el elemento y pegarlo en Screaming Frog:

Regex

Una de las opciones más interesantes que ofrece este extractor sobre el que se puede hacer un uso más habitual en SEO, es para extraer todos los datos estructurados implementados a través de J-SON. La fórmula sería la siguiente:

<script type=\»application\/ld\+json\»>(.*?)</script>

Estas son algunas de las opciones que te ofrece Screaming Frog a la hora de extraer datos, sin embargo las combinaciones dentro de ella son infinitas. Ahora tan solo queda llevarlas a la práctica y automatizar tareas que de otra forma conllevarían mucho tiempo.

Usamos cookies para mejorar tu experiencia como cliente. Política de cookies

×