Octoparse soporta el scraping del 98% de todos los sitios web, incluyendo aquellos con AJAX, scripts JAVA y otros sitios web dinámicos. También es fácil interactuar con formularios, listas desplegables, desplazamiento infinito, y muchos más en Octoparse.
Como regla general, cualquier dato/información que pueda copiarse y pegarse de cualquier sitio web puede rasparse con Octoparse. Más específicamente, si los datos de destino se encuentran dentro del código fuente HTML del sitio web (incluso si no son visibles en la página web), entonces pueden ser raspados utilizando Octoparse.
1. Elementos visibles en la página web:
Texto
Imagen URL
Enlaces (URL)
Código HTML interno/externo
Valor de atributo
Para más información, consulte aquí: Extraer atributos de un elemento web (texto, URL, HTML, etc)
2. Cualquier información en el código fuente, como por ejemplo
URL de la página
Título de la página
Metadatos
Código fuente HTML
Hora actual
Más información:
3. ¿Qué tipos de sitios web no puede raspar Octoparse?
Actualmente, Octoparse no es capaz de raspar datos de:
Mapa del sitio XML
Archivos PDF
Si no tienes mucho tiempo para aprender Octoparse pero necesitas scrapear datos para tus negocios. Puedes considerar nuestros Servicios de Datos.