Categorías
dobleO | Herramientas | SEO / GEO

Cómo extraer textos de una web con Screaming Frog

Uso Screaming frog desde hace mas de 10años, y cada vez que me toca explicar esta herramienta siempre la defino como LA GRAN HERRAMIENTA SEO, porque sin duda, es una de las herramientas más completas para auditar una web.

Screaming Frog en una herramienta de scraping SEO, es decir, no solo rastrea URLs, sino que también puede extraer información concreta de cada página: textos, migas de pan, valoraciones, precios, autores, fechas, correos electrónicos, datos estructurados, bloques de contenido, fichas de producto o cualquier elemento presente en el HTML de una URL.

Para un consultor SEO, esta opción de poder extraer cualquier elemento HTML es especialmente útil porque permite analizar contenido a gran escala. En lugar de revisar manualmente decenas, cientos o miles de páginas, puedes configurar una extracción y obtener los datos en bloque para analizarlos después en Excel, Google Sheets, Looker Studio o cualquier otra herramienta de análisis, y si hablamos de IA, pues ya podemos imaginar que tenemos que es una forma mas de «usar IA en tareas SEO«.

Tabla de Contenidos

En esta guía vamos a ver qué es la extracción personalizada de Screaming Frog, qué necesitas identificar antes de extraer contenido, qué tipos de extracción existen y cómo utilizarla paso a paso para extraer texto de una web de forma ordenada, útil y accionable para SEO.

Qué es la extracción personalizada de Screaming Frog

La extracción personalizada de Screaming Frog, también conocida como Custom Extraction, es una funcionalidad que permite extraer datos concretos del código HTML de una página durante el rastreo.

En lugar de limitarte a los datos SEO estándar que Screaming Frog recopila por defecto, puedes configurar reglas para decirle a la herramienta exactamente qué información quieres obtener.

¿Que puedes extraer con screaming frog de una web?

Con la opción de extracción personalizada, puedes extraer:

  • El texto principal de una o varias página.
  • Las migas de pan o breadcrumbs.
  • El nombre del autor de uno o varios artículos.
  • La fecha de publicación de un post.
  • Las valoraciones de cientos de productos de un ecommerce.
  • El número de reseñas de un producto.
  • El precio de uno o varios productos.
  • Correos electrónicos visibles en la página.
  • Textos de FAQs.
  • Contenido de fichas de productos.
  • Datos incluidos en etiquetas específicas.
  • Información presente en JSON-LD o datos estructurados.
  • Fragmentos concretos del HTML.

Desde una perspectiva SEO, esto es especialmente útil cuando necesitas analizar muchas URLs a la vez y no quieres revisar página por página de forma manual.

Por ejemplo, si tienes una web con 2.000 fichas de producto, puedes usar Screaming Frog para comprobar si todas tienen descripción, si muestran valoraciones, si incluyen migas de pan, si tienen bloque de preguntas frecuentes o si presentan datos comerciales relevantes para el usuario.

Para qué sirve extraer contenido con Screaming Frog en SEO

La extracción personalizada tiene muchas aplicaciones prácticas en una auditoría SEO. No se trata únicamente de “sacar textos”, sino de obtener datos que ayuden a tomar decisiones. Screaming Frog permite configurar extracciones mediante XPath, CSSPath y regex, y puede extraer datos tanto del HTML original como del HTML renderizado si se activa el renderizado JavaScript.

Con estas bondades, veamos para que se puede usar esta opción de la extracción de contenido de Screaming Frog.

Auditar contenido principal

Puedes extraer el texto principal de cada URL para revisar si hay páginas con poco contenido, contenido duplicado, textos demasiado genéricos o landings sin suficiente profundidad semántica.

Esto es especialmente útil en webs grandes, ecommerce, blogs con mucho histórico o proyectos donde se han generado muchas páginas con plantillas similares.

Revisar fichas de producto

En ecommerce, permite analizar si todas las fichas tienen descripción, precio, disponibilidad, valoraciones, número de opiniones o atributos técnicos.

También ayuda a detectar fichas incompletas, productos sin información comercial suficiente o páginas donde ciertos módulos no se están mostrando correctamente.

Comprobar migas de pan

Las migas de pan ayudan a entender la arquitectura de la web y pueden reforzar el enlazado interno. Con una extracción personalizada puedes comprobar si están presentes y si reflejan correctamente la jerarquía del sitio.

Esto resulta muy útil cuando se quiere auditar una arquitectura web, revisar categorías, detectar rutas inconsistentes o reconstruir la estructura real de un sitio a partir de sus breadcrumbs.

Detectar datos visibles importantes

Puedes extraer teléfonos, emails, direcciones, nombres de autor, fechas de publicación, categorías o cualquier bloque visible que sea importante para el negocio.

Por ejemplo, en una auditoría SEO local podrías revisar si todas las páginas de ubicación muestran dirección y teléfono. En un blog, podrías comprobar si todos los artículos muestran autor y fecha. En un ecommerce, podrías revisar si todos los productos muestran precio, disponibilidad y valoración.

Validar plantillas

Si trabajas con una web grande, Screaming Frog te permite revisar si una plantilla se está aplicando bien en todas las URLs.

Por ejemplo, puedes comprobar si todas las páginas de producto muestran correctamente valoraciones, si todas las entradas del blog tienen autor y fecha, o si todas las categorías tienen texto introductorio.

Analizar contenido renderizado con JavaScript

Si la web carga contenido mediante JavaScript, Screaming Frog puede extraer datos del HTML renderizado siempre que se active el modo de renderizado JavaScript. Esto es importante en webs modernas desarrolladas con frameworks o CMS que no muestran todo el contenido directamente en el HTML inicial.

si todas estas funciones luego las unes a sistemas IA, pues los tiempos logramos optimizarlos y mejorar en su análisis.

Qué necesitas saber antes de extraer contenido de una web

Antes de configurar una extracción personalizada en Screaming Frog, lo más importante es entender dónde está el contenido que quieres extraer dentro del HTML de la página.

Screaming Frog no “adivina” automáticamente qué bloque te interesa, por ello, necesitamos decirle una ruta, un selector o un patrón para localizar ese contenido. Esa ruta puede definirse mediante XPath, CSSPath o regex, dependiendo de cómo esté construido el elemento que quieres extraer.

Por eso, antes de crear una extracción personalizada, necesitas identificar varios elementos:

1. Qué contenido quieres extraer exactamente

El primer paso es definir el objetivo de la extracción.

No es lo mismo extraer:

  • Todo el texto visible de una página.
  • Solo el contenido principal.
  • La descripción de un producto.
  • Las migas de pan.
  • El precio.
  • Las valoraciones.
  • El número de reseñas.
  • El autor de un artículo.
  • La fecha de publicación.
  • Los correos electrónicos visibles.
  • Un bloque de preguntas frecuentes.

Cuanto más concreto sea el objetivo, más limpia será la extracción.

Por ejemplo, si extraes todo el <body>, obtendrás mucho contenido, pero también incluirás menú, footer, cabecera, botones, textos legales y otros elementos repetidos. En cambio, si identificas que el contenido principal está dentro de <main>, <article> o una clase específica como .entry-content, la extracción será mucho más útil para SEO.

2. En qué etiqueta o bloque HTML está el contenido

Una vez definido el contenido que quieres extraer, debes inspeccionar la página para localizarlo en el HTML.

Para hacerlo, abre una URL en Chrome, haz clic derecho sobre el elemento que quieres extraer y selecciona:

Ahí debes fijarte en elementos como:

<main>
<article>
<div class="entry-content">
<div class="product-description">
<nav class="breadcrumb">
<span class="rating">

Estos elementos te ayudarán a construir la regla de extracción.

Por ejemplo, si el texto principal está dentro de:

Podrías usar un XPath como:

O un selector CSS como:

3. Si el contenido está en HTML estático o se carga con JavaScript

Otro punto clave es comprobar si el contenido está disponible en el HTML inicial o si se carga después mediante JavaScript.

Esto es importante porque, si Screaming Frog rastrea la web en modo HTML y el contenido se carga mediante JavaScript, puede que la extracción aparezca vacía.

En ese caso, debes activar el renderizado JavaScript desde:

Configuration > Spider > Rendering > JavaScript

Después, vuelve a lanzar el rastreo.

Esto es habitual en webs modernas creadas con frameworks, ecommerce personalizados, algunos CMS visuales o páginas donde las valoraciones, precios o módulos dinámicos se cargan después de la carga inicial.

4. Si la estructura es igual en todas las URLs

Antes de lanzar un rastreo completo, conviene probar la extracción en varias URLs del mismo tipo.

Por ejemplo, si estás extrayendo descripciones de producto, revisa al menos 3 o 4 fichas diferentes. Puede ocurrir que una ficha use:

<div class="product-description">

Pero otra use:

<div class="short-description">

O que algunas páginas no tengan ese bloque.

Desde una perspectiva SEO, esto también es interesante porque permite detectar inconsistencias de plantilla. Si la misma extracción funciona en unas URLs y en otras no, puede que haya diferencias técnicas o de contenido que deban revisarse.

5. Si necesitas extraer texto, HTML o atributos

Cuando configuras la extracción en Screaming Frog, no solo tienes que indicar el elemento. También debes decidir qué quieres extraer de ese elemento.

Las opciones más habituales son:

Extract Text
Extract Inner HTML
Extract HTML Element
Extract Attribute

Para una auditoría de contenido SEO, normalmente usarás Extract Text, porque quieres quedarte con el texto visible.

Por ejemplo:

XPath: //main
Extracción: Extract Text

Esto extraería el texto visible dentro del bloque <main>.

En cambio, si quieres revisar enlaces, etiquetas internas o marcado HTML, puede interesarte usar Extract Inner HTML.

Si quieres extraer un atributo concreto, como el enlace de una miga de pan, podrías usar XPath con atributo:

//nav[contains(@class,'breadcrumb')]//a/@href

6. Qué método encaja mejor: XPath, CSSPath o regex

Cuando ya sabes qué quieres extraer y dónde está, debes elegir el método adecuado.

XPath

XPath es muy flexible y permite seleccionar elementos según etiquetas, clases, atributos o posición dentro del HTML.

Es recomendable cuando necesitas precisión.

Ejemplos:

//h1
//main
//div[contains(@class,'product-description')]
//*[@itemprop='ratingValue']

CSSPath

CSSPath suele ser más sencillo si el contenido está dentro de clases o etiquetas claras.

Ejemplos:

h1
main
.product-description
.breadcrumb a

Es una buena opción cuando el HTML está bien estructurado y los selectores son fáciles de identificar.

Regex

Regex es útil cuando quieres localizar patrones de texto, no necesariamente elementos HTML concretos.

Por ejemplo, para extraer correos electrónicos:

[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}

O teléfonos:

(\+34\s?)?[6789]\d{2}[\s.-]?\d{3}[\s.-]?\d{3}

Regex es especialmente útil cuando el dato puede aparecer en distintas partes de la página, pero mantiene una estructura reconocible.

7. Si el selector extrae demasiado o demasiado poco

Una buena extracción personalizada debe ser precisa.

Si el selector es demasiado amplio, extraerá ruido. Por ejemplo:

//body

Puede ser útil para una primera prueba, pero normalmente incluirá navegación, footer, cabecera y textos repetidos.

Si el selector es demasiado específico, puede fallar en muchas URLs.

Por ejemplo:

//div[@class='product-description active desktop only']

Puede dejar de funcionar si cambia mínimamente una clase.

Por eso, muchas veces es mejor usar expresiones más flexibles como:

//div[contains(@class,'product-description')]

Esta regla busca cualquier div que contenga esa clase, aunque tenga otras clases adicionales.

8. Si el contenido extraído tendrá valor SEO o no.

Antes de hacer una extracción masiva, conviene preguntarse qué vas a hacer después con esos datos.

Una extracción personalizada tiene sentido cuando ayuda a responder preguntas como:

  • ¿Qué URLs tienen poco contenido?
  • ¿Qué fichas de producto no tienen descripción?
  • ¿Qué categorías no tienen texto SEO?
  • ¿Qué páginas no muestran breadcrumbs?
  • ¿Qué productos no tienen valoraciones?
  • ¿Qué artículos no tienen autor o fecha?
  • ¿Qué páginas muestran emails visibles?
  • ¿Qué plantillas no están funcionando correctamente?
  • ¿Qué URLs tienen contenido duplicado o demasiado similar?

El objetivo no es solo scrapear contenido con Screaming Frog, sino convertir esa extracción en una base de análisis para tomar mejores decisiones SEO.

Tipos de extracción personalizada en Screaming Frog

Screaming Frog permite configurar extracciones personalizadas principalmente mediante tres métodos:

  1. XPath.
  2. CSSPath.
  3. Regex.

Cada método tiene una lógica diferente y conviene elegir uno u otro según el tipo de dato que quieras extraer.

Extracción personalizada con XPath

XPath es uno de los métodos más utilizados para extraer información con Screaming Frog. Sirve para navegar por la estructura del HTML y seleccionar elementos concretos.

Es muy útil cuando quieres extraer datos de etiquetas, clases, atributos o bloques específicos.

Por ejemplo, si quieres extraer todos los H1 de una página, puedes usar:

//h1

Si quieres extraer el contenido principal dentro de una etiqueta <main>, puedes usar:

//main

Si quieres extraer el contenido de un bloque con una clase concreta, puedes usar:

//div[contains(@class,'entry-content')]

XPath es especialmente útil cuando conoces la estructura de la página y quieres seleccionar elementos de forma precisa.

Ejemplos útiles de XPath para SEO

Extraer el H1:

//h1

Extraer todos los H2:

//h2

Extraer el primer párrafo de una página:

(//p)[1]

Extraer el texto principal dentro de <main>:

//main

Extraer contenido dentro de <article>:

//article

Extraer un bloque con clase “content”:

//div[contains(@class,'content')]

Extraer un bloque con clase “product-description”:

//div[contains(@class,'product-description')]

Extraer enlaces internos de breadcrumbs:

//nav[contains(@class,'breadcrumb')]//a

Extraer el atributo href de enlaces dentro de breadcrumbs:

//nav[contains(@class,'breadcrumb')]//a/@href

Extraer elementos con atributo itemprop="ratingValue":

//*[@itemprop='ratingValue']

Extraer elementos con atributo itemprop="reviewCount":

//*[@itemprop='reviewCount']

Extracción personalizada con CSSPath

CSSPath, o selector CSS, es otra forma de seleccionar elementos del HTML. Es muy habitual para quienes están acostumbrados a trabajar con CSS o con inspección de elementos en el navegador.

Por ejemplo, si quieres extraer el contenido de un bloque con la clase entry-content, puedes usar:

.entry-content

Si quieres extraer el contenido de una ficha de producto:

.product-description

Si quieres extraer migas de pan:

.breadcrumb a

CSSPath suele ser más sencillo de leer que XPath, aunque XPath normalmente ofrece más flexibilidad para casos complejos.

Ejemplos útiles de CSSPath

Extraer el H1:

h1

Extraer todos los H2:

h2

Extraer contenido de un artículo:

article

Extraer contenido principal:

main

Extraer una descripción de producto:

.product-description

Extraer migas de pan:

.breadcrumb a

Extraer valoraciones:

.rating

Extraer número de opiniones:

.review-count

Extraer precio:

.price

Extracción personalizada con regex

Regex, o expresiones regulares, sirve para encontrar patrones concretos dentro del HTML o del texto.

Es muy útil cuando el dato no está dentro de una etiqueta clara, pero sí sigue un patrón reconocible.

Por ejemplo, para extraer correos electrónicos visibles en una página, puedes usar una expresión regular como:

[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}

También puedes usar regex para buscar patrones como teléfonos, códigos, IDs, fragmentos de schema, referencias internas o cualquier dato que tenga una estructura repetible.

Ejemplos útiles de regex

Extraer correos electrónicos:

[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}

Extraer teléfonos en formato español aproximado:

(\+34\s?)?[6789]\d{2}[\s.-]?\d{3}[\s.-]?\d{3}

Extraer URLs:

https?:\/\/[^\s"']+

Extraer códigos postales españoles:

\b\d{5}\b

Regex es potente, pero también puede generar ruido si la expresión no está bien afinada. Por eso, para auditorías SEO, suele ser recomendable usar XPath o CSSPath cuando el dato está claramente estructurado en el HTML, y reservar regex para patrones más generales.

Extracción visual personalizada en Screaming Frog

Además de configurar manualmente XPath, CSSPath o regex, Screaming Frog también permite usar la extracción visual personalizada.

Esta opción es muy útil si no tienes experiencia técnica o si quieres seleccionar elementos directamente desde una vista visual de la página. Screaming Frog permite abrir un navegador integrado, seleccionar el elemento que quieres extraer y generar una ruta de extracción a partir de esa selección.

Para usarla, debes ir a:

Configuration > Custom > Extraction

Después, dentro del extractor, puedes usar el icono de navegador para abrir la página, hacer clic en el elemento que quieres extraer y generar el selector.

Desde una perspectiva SEO, esta opción es muy práctica para extraer datos como:

  • Autor de un artículo.
  • Fecha de publicación.
  • Precio de producto.
  • Valoración.
  • Categoría.
  • Breadcrumbs.
  • Texto de una ficha.
  • Bloques visibles de contenido.

Aunque la extracción visual ayuda mucho, siempre conviene revisar el selector generado y probarlo en varias URLs. Un selector que funciona en una página puede no ser válido para todas si la plantilla cambia.

Cómo extraer texto de una web con Screaming Frog paso a paso

A continuación vemos el proceso completo para extraer contenido de una web usando Screaming Frog.

Paso 1: abrir Screaming Frog e introducir la URL

Abre Screaming Frog SEO Spider e introduce la URL de la web que quieres rastrear.

Por ejemplo:

https://www.ejemplo.com/

Antes de iniciar el rastreo, conviene revisar la configuración para asegurarte de que Screaming Frog podrá acceder correctamente al contenido.

Paso 2: revisar la configuración del rastreo

Ve a:

Configuration > Spider

Comprueba que el rastreo de HTML está activado.

Si la web carga contenido mediante JavaScript, ve a:

Configuration > Spider > Rendering

Y selecciona:

JavaScript

Esto es importante en webs donde el contenido no aparece directamente en el HTML inicial, sino que se carga después mediante scripts.

Paso 3: configurar la extracción personalizada

Para configurar una extracción personalizada, ve a:

Configuration > Custom > Extraction

Dentro de esta sección puedes añadir uno o varios extractores.

Cada extractor debe tener:

  • Nombre del extractor.
  • Tipo de extracción.
  • Regla de extracción.
  • Modo de extracción.

Por ejemplo:

Nombre: Texto principal
Tipo: XPath
Regla: //main
Extracción: Extract Text

Paso 4: elegir el tipo de dato que quieres extraer

Screaming Frog permite extraer el texto, el HTML interno, el elemento HTML completo o atributos concretos.

Las opciones más habituales son:

Extract Text

Extrae únicamente el texto visible del elemento seleccionado.

Es la opción más útil cuando quieres analizar contenido desde una perspectiva SEO.

Ejemplo:

//main

Resultado esperado: el texto principal de la página.

Extract Inner HTML

Extrae el HTML interno del elemento seleccionado.

Es útil si quieres revisar etiquetas, enlaces, marcado interno o estructura del bloque.

Extract HTML Element

Extrae el elemento HTML completo.

Puede ser útil si necesitas auditar cómo está construido un bloque concreto.

Extract Attribute

Permite extraer valores concretos de atributos.

Por ejemplo, si quieres extraer el destino de los enlaces de las migas de pan, podrías usar:

//nav[contains(@class,'breadcrumb')]//a/@href

Para la mayoría de trabajos SEO de contenido, lo más habitual será usar Extract Text.

Paso 5: lanzar el rastreo

Una vez configurada la extracción personalizada, vuelve a la pantalla principal de Screaming Frog y pulsa:

Start

Screaming Frog empezará a rastrear la web y aplicará las reglas de extracción a cada URL.

Paso 6: revisar los resultados

Cuando el rastreo avance o finalice, ve a la pestaña:

Custom Extraction

Ahí verás las URLs rastreadas y las columnas correspondientes a cada extracción personalizada configurada.

Por ejemplo:

URL | Texto principal | Breadcrumbs | Rating | Email

Si una celda aparece vacía, puede deberse a varias razones:

  • La regla XPath o CSS no coincide con el HTML.
  • El contenido no existe en esa URL.
  • El contenido se carga por JavaScript y no has activado el renderizado.
  • La clase o estructura HTML cambia según el tipo de página.
  • El dato está en un iframe o recurso externo.
  • La URL no devuelve un código 200.
  • El contenido está bloqueado para el rastreador.

Paso 7: exportar la extracción personalizada en bloque

Para exportar los resultados, puedes ir a la pestaña:

Custom Extraction

Y hacer clic en:

Export

También puedes usar la opción de exportación masiva:

Bulk Export > Custom Extraction

De esta forma puedes descargar en bloque todos los datos extraídos y trabajarlos después en Excel, Google Sheets, Looker Studio, Power BI o cualquier herramienta de análisis.

Para SEO, lo más práctico es cruzar la extracción personalizada con datos como:

  • URL.
  • Código de estado.
  • Indexabilidad.
  • Title.
  • Meta description.
  • H1.
  • Canonical.
  • Profundidad de clic.
  • Inlinks.
  • Tipo de plantilla.
  • Texto extraído.
  • Datos específicos extraídos.

Así puedes analizar no solo qué contenido tiene cada URL, sino también si ese contenido está alineado con su función SEO.

La pestaña de Custom Extraction trabaja junto con la configuración de extracción personalizada y permite revisar los datos extraídos durante el rastreo. Screaming Frog indica que pueden configurarse hasta 100 extractores personalizados y que esta extracción se aplica sobre URLs con contenido HTML.

Cómo extraer el texto principal de una web con Screaming Frog

Una de las tareas más habituales es extraer el texto principal de cada URL.

Hay varias formas de hacerlo.

Opción 1: extraer todo el body

Puedes usar:

//body

Esta opción extrae todo el contenido textual de la página, pero suele incluir mucho ruido: menú, footer, cabecera, textos legales, botones, breadcrumbs y otros elementos repetidos.

Es útil como primera prueba, pero no siempre es la mejor opción para un análisis SEO limpio.

Opción 2: extraer el contenido de main

Puedes usar:

//main

Esta suele ser una opción más limpia si la web está bien estructurada.

Opción 3: extraer el contenido de article

Para blogs, noticias o guías, puedes probar:

//article

Esta opción suele funcionar bien en artículos editoriales.

Opción 4: extraer una clase concreta

Si el contenido principal está dentro de una clase específica, puedes usar:

//div[contains(@class,'entry-content')]

O con CSSPath:

.entry-content

También puedes adaptar la regla a clases como:

.post-content
.page-content
.product-description
.cms-content

La clave está en inspeccionar el HTML de la página y localizar el contenedor que agrupa el contenido que realmente te interesa.

Cómo extraer migas de pan con Screaming Frog

Las migas de pan, o breadcrumbs, son muy útiles para analizar la arquitectura de una web. Ayudan a entender cómo se organizan las páginas y qué jerarquía se está comunicando tanto al usuario como a los buscadores.

Para extraer migas de pan, primero debes inspeccionar el HTML y ver cómo están marcadas.

Algunas webs usan una etiqueta <nav> con clase breadcrumb. En ese caso podrías usar:

//nav[contains(@class,'breadcrumb')]

Si quieres extraer solo los textos de los enlaces de las migas de pan:

//nav[contains(@class,'breadcrumb')]//a

Con CSSPath, podrías usar:

.breadcrumb a

Si quieres extraer las URLs de cada enlace dentro de las migas de pan:

//nav[contains(@class,'breadcrumb')]//a/@href

Si la web usa datos estructurados BreadcrumbList en JSON-LD, también podrías extraer el bloque de script que contiene esa información, aunque en ese caso suele ser más práctico revisar directamente la pestaña de datos estructurados de Screaming Frog o crear una extracción específica sobre el script.

Cómo extraer valoraciones y reseñas con Screaming Frog

En ecommerce, marketplaces o webs con fichas de producto, puede ser muy útil extraer valoraciones y número de reseñas.

Por ejemplo, si la valoración está marcada con itemprop="ratingValue", puedes usar:

//*[@itemprop='ratingValue']

Si el número de reseñas está marcado con itemprop="reviewCount", puedes usar:

//*[@itemprop='reviewCount']

También puedes probar selectores CSS si la web usa clases claras:

.rating
.review-count
.product-rating
.stars-rating

Este tipo de extracción permite detectar fichas sin reseñas, productos con baja valoración o páginas donde el marcado de reviews no se está mostrando correctamente.

Desde un punto de vista SEO, también puede servir para revisar coherencia entre el contenido visible, los datos estructurados y la información que Google puede interpretar.

Cómo extraer correos electrónicos con Screaming Frog

Si necesitas detectar emails visibles en una web, puedes hacerlo mediante regex.

Una expresión regular básica para correos electrónicos sería:

[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}

Esta extracción puede ser útil para:

  • Detectar emails visibles en páginas públicas.
  • Auditar páginas de contacto.
  • Localizar correos antiguos.
  • Revisar posibles datos personales expuestos.
  • Comprobar si ciertas páginas contienen información de contacto.

Eso sí, hay que utilizar esta extracción con criterio. No se trata de recopilar datos de forma indiscriminada, sino de auditar información visible en una web propia o en un proyecto donde tengas autorización para trabajar.

Cómo scrapear con Screaming Frog de forma responsable

Screaming Frog puede utilizarse como herramienta de scraping, pero debe usarse con responsabilidad.

Antes de rastrear una web, conviene tener en cuenta:

  • Si tienes autorización para analizar esa web.
  • Si el rastreo puede sobrecargar el servidor.
  • Si debes respetar robots.txt.
  • Si necesitas limitar la velocidad de rastreo.
  • Si estás extrayendo datos personales.
  • Si la extracción tiene una finalidad legítima de auditoría o análisis.

Para limitar la velocidad de rastreo, puedes ir a:

Configuration > Speed

Y ajustar el número de threads y URLs por segundo.

En auditorías SEO profesionales, lo habitual es usar Screaming Frog sobre webs propias, webs de clientes o entornos donde existe permiso para realizar el análisis.

Distintas formas de extraer texto de una web con Screaming Frog

No existe una única forma correcta de extraer texto. La mejor opción depende de la estructura de la web y del objetivo del análisis.

Extraer todo el contenido textual

Usa:

//body

Ventaja: recoge todo el texto.

Desventaja: incluye ruido de navegación, footer y elementos repetidos.

Extraer solo el contenido principal

Usa:

//main

Ventaja: suele ser más limpio.

Desventaja: no todas las webs usan correctamente la etiqueta <main>.

Extraer artículos de blog

Usa:

//article

Ventaja: útil para blogs, noticias y guías.

Desventaja: puede no funcionar en plantillas mal estructuradas.

Extraer descripciones de producto

Usa:

//div[contains(@class,'product-description')]

O con CSSPath:

.product-description

Ventaja: ideal para ecommerce.

Desventaja: depende de que la clase sea consistente.

Extraer bloques de FAQ

Usa:

//div[contains(@class,'faq')]

O con CSSPath:

.faq

Ventaja: permite auditar preguntas frecuentes en bloque.

Desventaja: puede variar mucho según el CMS o el maquetador.

Extraer textos por patrones

Usa regex cuando el dato no está bien estructurado, pero sigue un patrón reconocible.

Ejemplo para emails:

[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}

Ventaja: útil para datos con estructura repetible.

Desventaja: puede generar falsos positivos si no se ajusta bien.

Ejemplo práctico de extracción SEO con Screaming Frog

Imagina que quieres auditar un ecommerce y necesitas comprobar si todas las fichas de producto tienen:

  • Descripción de producto.
  • Migas de pan.
  • Valoración media.
  • Número de reseñas.
  • Precio visible.

Podrías configurar los siguientes extractores:

Extractor 1: descripción de producto

Nombre: Descripción producto
Tipo: XPath
Regla: //div[contains(@class,'product-description')]
Extracción: Extract Text

Extractor 2: migas de pan

Nombre: Breadcrumbs
Tipo: XPath
Regla: //nav[contains(@class,'breadcrumb')]
Extracción: Extract Text

Extractor 3: valoración

Nombre: Rating
Tipo: XPath
Regla: //*[@itemprop='ratingValue']
Extracción: Extract Text

Extractor 4: número de reseñas

Nombre: Reviews
Tipo: XPath
Regla: //*[@itemprop='reviewCount']
Extracción: Extract Text

Extractor 5: precio

Nombre: Precio
Tipo: CSSPath
Regla: .price
Extracción: Extract Text

Después de lanzar el crawl, podrías exportar los resultados y filtrar:

  • URLs sin descripción.
  • Productos sin breadcrumbs.
  • Productos sin valoración.
  • Productos sin reseñas.
  • Productos sin precio visible.
  • Plantillas con extracción vacía.
  • Diferencias entre tipos de producto.

Este análisis permite detectar problemas de contenido y plantilla de forma mucho más rápida que revisando URL por URL.

Errores habituales al hacer extracciones personalizadas

Al trabajar con Custom Extraction, es normal que al principio algunas extracciones no funcionen. Estos son los errores más habituales.

Usar una clase demasiado genérica

Por ejemplo:

.content

Puede aparecer en muchos bloques distintos y extraer más información de la necesaria.

Extraer desde body sin limpiar después

Extraer todo el body puede servir como prueba, pero normalmente genera demasiado ruido.

No activar JavaScript Rendering

Si el contenido se carga por JavaScript y Screaming Frog rastrea solo el HTML original, puede que la extracción salga vacía.

No probar la regla en varias URLs

Una regla puede funcionar en una plantilla, pero fallar en otra. Es recomendable probar siempre en varios tipos de página.

Confundir texto visible con HTML

Si quieres analizar contenido, normalmente debes usar Extract Text. Si extraes HTML, tendrás etiquetas y código que pueden dificultar el análisis.

No revisar códigos de estado

Si una URL devuelve 3xx, 4xx o 5xx, la extracción puede no comportarse como esperas. Conviene cruzar siempre los resultados con el status code.

Consejos SEO para aprovechar mejor la extracción personalizada

Para sacar más valor de Screaming Frog, conviene plantear la extracción como una auditoría, no como una simple descarga de datos.

Define antes qué quieres comprobar

No extraigas datos por extraer. Define una pregunta SEO concreta.

Por ejemplo:

  • ¿Todas las categorías tienen texto introductorio?
  • ¿Todas las fichas tienen descripción única?
  • ¿Las migas de pan reflejan bien la arquitectura?
  • ¿Los artículos tienen autor y fecha?
  • ¿Las páginas de producto muestran valoraciones?
  • ¿Hay emails visibles que deberían sustituirse por formularios?
  • ¿Las páginas transaccionales tienen contenido suficiente?

Segmenta por tipo de URL

No analices igual una home, una categoría, una ficha de producto, un artículo de blog y una landing.

Después de exportar, crea una columna de tipo de página y analiza cada grupo por separado.

Cruza la extracción con métricas SEO

La extracción personalizada gana mucho valor cuando la cruzas con datos de:

  • Google Search Console.
  • Google Analytics 4.
  • Ahrefs.
  • Semrush.
  • Sistrix.
  • Datos de conversión.
  • Datos de enlazado interno.
  • Profundidad de clic.

Así puedes priorizar mejor. No es lo mismo una URL sin texto que no recibe tráfico que una categoría estratégica con muchas impresiones y una descripción pobre.

Revisa contenido duplicado o demasiado similar

Si extraes el texto principal de varias URLs, puedes detectar patrones repetidos, plantillas con contenido duplicado o páginas que necesitan una optimización editorial.

Usa la extracción para validar implementaciones

Después de un cambio en plantilla, puedes rastrear la web y comprobar si el nuevo bloque aparece correctamente en todas las URLs.

Por ejemplo:

  • Nuevo bloque de FAQs.
  • Nuevo módulo de enlaces internos.
  • Nueva zona de reviews.
  • Nueva descripción SEO.
  • Nuevo breadcrumb.
  • Nuevo marcado visible de producto.

Cómo exportar y trabajar los datos extraídos

Una vez tengas los datos en la pestaña Custom Extraction, exporta el archivo y trabaja con filtros.

Una tabla útil podría incluir:

URL
Status Code
Indexability
Title
Meta Description
H1
Canonical
Tipo de página
Texto principal
Breadcrumbs
Rating
Reviews
Precio
Email

Después puedes crear filtros como:

  • Texto principal vacío.
  • Breadcrumbs vacíos.
  • Rating vacío.
  • Reviews vacío.
  • Precio vacío.
  • Email detectado.
  • Descripciones demasiado cortas.
  • Contenido duplicado.
  • Páginas indexables sin contenido.
  • Páginas importantes con contenido pobre.

La extracción personalizada de Screaming Frog es una de las funciones más útiles para cualquier profesional SEO que necesite analizar webs de forma escalable. Gracias a XPath, CSSPath y regex, puedes extraer prácticamente cualquier dato presente en el HTML de una página: textos principales, migas de pan, valoraciones, correos, precios, autores, fechas, FAQs, descripciones de producto o fragmentos concretos de código.

La clave está en usar esta funcionalidad con un objetivo claro. No se trata solo de scrapear una web, sino de obtener información que permita tomar mejores decisiones SEO: detectar contenidos pobres, validar plantillas, revisar arquitectura, comprobar datos visibles, encontrar errores y priorizar acciones.

Bien utilizada, la extracción personalizada convierte a Screaming Frog en mucho más que un crawler: lo transforma en una herramienta de análisis masivo de contenido, estructura y calidad SEO.

Por:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *