Ir al contenido principal

¿Por qué obtengo campos blancos en la ejecución en la nube?

Actualizado hace más de un año

En algunos casos, la extracción local funciona perfectamente, pero se extraen campos en blanco en la extracción en la nube. Este tutorial presentará las causas de este problema y cómo resolverlo.


1. Ejecución en la nube scrapea datos antes de que se carguen completamente datos en la página

La ejecución en la nube es el tipo de tabla dividida y scrapea demasiado rápido, por lo que Los datos no se han cargado correctamente, el paso de recogida se ha completado

Las tareas con modo de bucle "Lista Fija," "Lista of URLs" y "Lista de texto" se dividen en tablas. Las tareas principales se dividen en sub-tareas ejecutadas con múltiples servidores en la nube simultáneamente. En este caso, cada paso de la tarea funcionará muy rápido, por lo que algunas páginas pueden no cargarse completamente antes de pasar al siguiente paso.

Para asegurarte de que la página web se cargue completamente en la nube, puedes intentar lo siguiente:

  • Aumentar el tiempo de espera para el paso "Ir a la página web".

1.png

Todos los pasos creados en el flujo de trabajo pueden configurar un tiempo de espera. Sugerimos que configures el tiempo de espera para las acciones "Extraer datos".

2.png

Configurar un elemento ancla para encontrar antes de la acción.

Este paso garantizará que la extracción solo comience después de que se haya encontrado un cierto elemento. Puedes elegir el XPath de cualquier elemento de los campos deseados.

Primero, haz clic en el paso "Extraer datos". Segundo, llena el elemento con un XPath y cambia "Esperar antes de la acción" a 30 segundos.

3.png

Nota: ¿Cómo obtener el XPath de un elemento específico en la página?

  • Haz clic en "Extraer datos".

  • Cambia a la vista vertical y verás todos los XPath relativos para cada campo.

4.png


2. El sitio web que estás buscando es multinacional.

Un sitio web multinacional podría tener diferentes estructuras de página para el contenido proporcionado a visitantes de diferentes países. Cuando una tarea se configura para ejecutarse en la nube, se ejecuta con nuestras IP basadas en América. En este caso, para tareas dirigidas a sitios web fuera de América, algunos datos pueden omitirse, ya que no se pueden encontrar en el sitio web abierto en la nube.

Para identificar si el sitio web es multinacional, puedes hacer lo siguiente:

  • Probar la tarea con extracción local. Si no falta ningún dato, como ocurre en la extracción en la nube, es probable que el sitio web sea multinacional. En este caso, como el contenido objetivo solo se encuentra al abrir el sitio web con tu propia IP, te sugerimos utilizar la Extracción Local para obtener los datos.

  • Extraer el HTML externo de toda la página. Al verificar el HTML extraído, podrías encontrar qué ha causado que falten los datos por el mensaje en el código fuente, como "Acceso denegado".

Aquí tienes un tutorial relacionado para verificar errores en la nube: ¿Por qué la tarea no obtiene datos en la nube pero funciona bien cuando se ejecuta de forma local?

¿Ha quedado contestada tu pregunta?