Ir al contenido principal

Qué tipos de sitios web Octoparse puede scrapear?

Actualizado hace más de un año

Octoparse soporta el scraping del 98% de todos los sitios web, incluyendo aquellos con AJAX, scripts JAVA y otros sitios web dinámicos. También es fácil interactuar con formularios, listas desplegables, desplazamiento infinito, y muchos más en Octoparse.

Como regla general, cualquier dato/información que pueda copiarse y pegarse de cualquier sitio web puede rasparse con Octoparse. Más específicamente, si los datos de destino se encuentran dentro del código fuente HTML del sitio web (incluso si no son visibles en la página web), entonces pueden ser raspados utilizando Octoparse.


1. Elementos visibles en la página web:

  • Texto

  • Imagen URL

  • Enlaces (URL)

  • Código HTML interno/externo

  • Valor de atributo

Para más información, consulte aquí: Extraer atributos de un elemento web (texto, URL, HTML, etc)


2. Cualquier información en el código fuente, como por ejemplo

  • URL de la página

  • Título de la página

  • Metadatos

  • Código fuente HTML

  • Hora actual

Más información:


3. ¿Qué tipos de sitios web no puede raspar Octoparse?

Actualmente, Octoparse no es capaz de raspar datos de:

  • Mapa del sitio XML

  • Archivos PDF

Si no tienes mucho tiempo para aprender Octoparse pero necesitas scrapear datos para tus negocios. Puedes considerar nuestros Servicios de Datos.

¿Ha quedado contestada tu pregunta?