Octoparse ofrece servidores en la nube para ejecutar tareas las 24 horas del día, los 7 días de la semana, y alcanzar una velocidad de extracción de 6 a 20 veces más rápida que la extracción local. La extracción rápida es uno de los aspectos destacados de la extracción en la nube de Octoparse. Pero a veces, la velocidad de la nube puede no ser tan satisfactoria. En este tutorial, explicaremos la lógica para acelerar las tareas en la nube y cómo modificar una tarea para que se ejecute más rápido.
La lógica de acelerar las tareas en la nube
La nube de Octoparse se acelera dividiendo una tarea en múltiples sub tareas y ejecutando las sub tareas con varios servidores en la nube. Una sub tarea requiere un servidor en la nube para ejecutarse, por lo que la velocidad depende de cuántos servidores en la nube tenga su cuenta y si la tarea se puede dividir.
El plan Estándar tiene 6 servidores en la nube, mientras que el plan Profesional tiene 20. Puede actualizar fácilmente a un plan superior para acelerarlo. Pero si no desea cambiar su plan, modificar la tarea para que se pueda dividir es bastante esencial.
¿Qué tipo de tareas se pueden dividir?
Cuando intenta crear cualquier tipo de elemento de bucle en Octoparse, Octoparse asignará automáticamente un modo de bucle en función de los elementos seleccionados y de cómo interactúan con la estructura general de la página web.
Específicamente, hay tres tipos de modos de bucle que se pueden dividir en Octoparse:
1.Lista de URL
Un bucle de URL se utiliza cuando comienza una tarea de extracción utilizando más de una URL. Esto es especialmente útil si los datos deseados se extienden a lo largo de múltiples páginas web que comparten la misma estructura de página. Puede configurar fácilmente un bucle de URLs para recorrer cada una de estas páginas. Octoparse cargará las URLs una por una y ejecutará el mismo conjunto de acciones de extracción en cada página.
Un bucle de URL es divisible. Por lo tanto, cuando una tarea creada con una lista de URLs se configura para ejecutarse en la nube, Octoparse la dividirá en varias sub tareas para una extracción más rápida y efectiva.
Para obtener más información sobre la Lista de URLs, consulte importar de URL por lotes.
2.Lista de Texto
Un bucle de lista de texto funciona de manera similar al bucle de lista de URL, pero en lugar de recorrer una lista de URL, el bucle funciona para recorrer una lista de valores de texto predefinidos.
Para obtener más información sobre el bucle de lista de texto, consulte Ingresar Texto.
3.Lista Fija
Muchas páginas web, como las de comercio electrónico, suelen organizar el contenido de la página web (es decir, la información del producto) como una colección de elementos recurrentes con un patrón HTML compartido.
Cuando se capturan elementos de este tipo, como los títulos de los productos, Octoparse detectará de manera inteligente todos los elementos que comparten el mismo patrón HTML y generará una colección de rutas XPath para localizar todos los elementos del mismo tipo.
Además de estos 3 tipos de modos de bucle dividibles, hay otros 2 modos de bucle que no son dividibles: bucle de elemento único y bucle de lista variable. Dado que ambos modos de bucle solo involucran una sola ruta XPath, no se pueden dividir aún más en sub-tareas para acelerar el proceso.
¿Cómo puedo hacer que mi tarea sea divisible?
1.Para una tarea con una Lista Variable para hacer clic en una lista de elementos
Modifíca a una Lista Fija enumerando las rutas XPath de cada elemento en la página.
Raspa primero solo las URL de los elementos sin hacer clic en las páginas y luego crea otra tarea con las URL para obtener los datos detallados. Aquí tienes un ejemplo: Raspar datos de propiedades de Realtor.com
2.Para tareas que raspan de múltiples páginas
Utiliza las URL de cada página para construir el flujo de trabajo: Acelera la extracción utilizando una lista de URL