Extraer datos de un motor de búsqueda es una buena forma de recopilar información relacionada con un tema. En este tutorial, te mostraremos cómo extraer los datos de los resultados de búsqueda en la búsqueda de Google.

Puedes ir a "Plantillas" en la pantalla de inicio de Octoparse y comenzar directamente con la plantilla de búsqueda de Google lista para usar para ahorrar tiempo. Con esta plantilla, no es necesario configurar las tareas de raspado. Para obtener más detalles, puede consultarlo aquí: Plantillas de tareas

Si deseas crear tu propia tarea con nuestro modo avanzado, puedes consultar este tutorial como referencia. En él, aprenderemos a extraer datos como el título, la URL y la descripción de la página de resultados de búsqueda con Octoparse.

Toma abajo como ejemplo

https://www.google.com/

[Descargar demo tarea clic aquí]

1. Abre la página web objetivo Ingresa la URL en la página de inicio y haz clic en "Comenzar"

Ingresa la URL en la página de inicio y haz clic en "Comenzar"

2. Ingresar Texto

Ingresar "Palabra Clave"

El flujo así

Si deseas buscar una lista de palabras clave, elige "Ingresar texto en el bucle".

Dentro del flujo de trabajo, se creará un "Elemento de bucle" con un "Ingresar texto" en su interior.

Para agregar un clic, puedes configurarlo bajo la acción "Ingresar texto":

Opciones
Marca "Presionar la tecla Enter/Retorno al terminar de ingresar"
Haz clic en "Aplicar"

3.Auto-detectar la página web - para raspar la página de resultados de búsqueda

Selecciona "Auto-detectar los datos de la página"

Desmarca la opción "Añadir un desplazamiento de página" y selecciona "Crear flujo de trabajo".

Haz doble clic para cambiar el nombre de los campos o elimina los campos que no desees.

Nota:

Si la función de detección automática extrae varios campos que no deseas, es más conveniente cambiar a la vista vertical para eliminarlos en bloque.

4.Modificar las rutas XPath de los elementos - para localizar los elementos con precisión

Haz clic en "Elemento de bucle" y luego introduce //h1[contains(text(),'Navegación de página')]/following-sibling::a[1] en el campo "Ruta de coincidencia" (Matching XPath).

Haz clic en "Elemento de bucle 1" y luego introduce //H3[@class='LC20lb MBeuO DKV0Md']/../../../../../../.. en el campo "Ruta de coincidencia" (Matching XPath). Recuerda hacer clic en "Aplicar" en ambas configuraciones.

Haz clic en "Extraer datos",
Cambia a la vista vertical
Entra las XPaths para los campos que necesitas. Aquí tienes algunos ejemplos:

Título: //H3[1]

Título_URL: //div[@class='yuRUbf']//a[1]

Descripción: /div/div[2]

Conoce más detalles sobre XPath aquí: ¿Qué es XPath y cómo se utiliza en Octoparse?

5.Agregar un desplazamiento de página manualmente

El botón de "Cargar más" solo aparece cuando haces un pequeño desplazamiento en la página.

Haz clic en + y elige "Bucle" para crear un desplazamiento de página.

Haz clic en "Elemento de bucle 2" y selecciona "Desplazar página" en el modo de bucle.
Ajusta el desplazamiento hasta el final de la página y repite cada 5 veces.
Haz clic en "Aplicar".

6.Configurar el tiempo de espera - para reducir la velocidad de extracción

Google Search aplica una técnica contra el raspado de datos y puede mostrar reCAPTCHA para resolver. Necesitamos reducir la velocidad del raspado configurando el tiempo de espera.

Haz clic en la acción "Extraer datos".
Selecciona "Opciones".
Marca "Esperar antes de la acción".
Selecciona el tiempo de espera de 1 a 3 segundos y haz clic en "Aplicar" para confirmar.

7.Ejecutar la tarea - para obtener tus datos objetivo

Haz clic en "Guardar".
Haz clic en "Ejecutar" en la parte superior izquierda.
Selecciona un modo de ejecución, ya sea en tu dispositivo o en la Nube (solo para usuarios premium).

Aquí tienes el resultado de muestra.

Scrapear datos de Google Search