Manchmal liefert der Cloud-Lauf keine Daten für eine Aufgabe, die lokal einwandfrei läuft. In diesem Artikel zeigen wir Ihnen einige Tipps zur Behebung dieses Problems.
Nachfolgend sind einige der Hauptgründe aufgeführt, warum keine Daten zurückgegeben werden:
1. Cloud-IPs können aufgrund der hohen Scraping-Frequenz nicht auf die Website zugreifen.
Viele Websites wenden Anti-Scraping-Techniken an, um Scraping zu vermeiden. Sie können die Zugriffszeiten von IP-Adressen innerhalb eines bestimmten Zeitraums begrenzen und alle IP-Adressen blockieren, die diese Begrenzung überschreiten.
Einige Websites blockieren möglicherweise sogar alle IPs eines Standorts. Beispielsweise kann eine japanische Website in Kanada möglicherweise nicht geöffnet werden.
Das Problem, dass IPs aufgrund zu häufigen Scrapings auf die schwarze Liste gesetzt werden, kann durch Hinzufügen einer Wartezeit behoben werden, um die Extraktion zu verlangsamen.
Wenn Sie feststellen, dass die Verlängerung der Wartezeit nicht effektiv ist, liegt es sehr wahrscheinlich daran, dass die Cloud-IPs durch die Website eingeschränkt sind. Dies lässt sich leicht durch die Einrichtung integrierter Octoparse-Proxys beheben . Folgen Sie einfach den Schritten in unserer Anleitung unten, und Sie können im Handumdrehen wieder reibungslos scrapen.
Gehen Sie zu den Aufgabeneinstellungen
Klicken Sie auf Anti-Blockierung
Aktivieren Sie „Auf Websites über Proxys zugreifen“
Wählen Sie „Octoparse-Proxys verwenden“
Wählen Sie ein Land/eine Region aus
Alle 2 Minuten drehen
Speichern
2. Die Zielwebsite wird nicht vollständig geladen oder die zu extrahierenden Daten werden nicht geladen
Die Ladezeit der Website hängt von den Internetbedingungen und der Reaktionszeit der Website ab. Wenn Sie die Website auf einem lokalen Computer testen, kann die Ladezeit kürzer sein als in der Cloud.
Wenn keine Daten extrahiert werden, erhöhen Sie bitte das Timeout für die Aktion „Zur Webseite gehen“ . Unten finden Sie möglicherweise eine Auswahlmöglichkeit für das Timeout.
Wenn ein längeres Timeout nicht funktioniert, können Sie versuchen, die Browser-UA in den Aufgabeneinstellungen auf Chrome 91 Linux oder Safari 15.1 zu ändern , was beim Laden der Webseite hilft.
Klicken Sie oben rechts auf dem Bildschirm auf „Aufgabeneinstellungen“.
Wählen Sie Chrome 91.0 für Linux oder Safari 15.1
Sie können auch versuchen, den IP-Pool auf andere Optionen wie JP oder US Legacy einzurichten
3. Vor dem Zugriff auf die Webseite muss ein CAPTCHA gelöst werden
CAPTCHA ist auch eine häufig verwendete Methode zum Anti-Scraping von Websites. Die Website erkennt möglicherweise, dass es sich um eine Cloud-IP statt einer privaten IP handelt, die auf die Seiten zugreift. In vielen Fällen wird das CAPTCHA direkt beim Öffnen der ersten Seite der Website angezeigt, was den gesamten Scraping-Prozess unterbricht. Es ist schwierig, das CAPTCHA in der Cloud zu lösen.
Wir können einige CAPTCHA-Typen automatisch lösen. Sie können dazu dieses Tutorial lesen. Sollte der Fehler weiterhin bestehen, kontaktieren Sie uns bitte. Wir werden versuchen, eine Lösung für Sie zu finden.
4. Die Anmeldung bei der Zielwebsite schlägt fehl
Wenn Sie Anmeldeschritte einrichten oder Cookies in einer Aufgabe speichern, um eine Website zu scrapen, funktioniert die lokale Extraktion einwandfrei, aber die Cloud-Extraktion kann aufgrund der Rotation verschiedener IPs während der Ausführung fehlschlagen.
Viele Websites verlangen vor der Anmeldung eine Verifizierung. Eine solche Verifizierung kann bei der Cloud-Extraktion nicht durchgeführt werden.
Die gespeicherten Cookies haben immer eine Gültigkeitsdauer und funktionieren nach Ablauf nicht mehr. Um dies zu beheben, müssen Sie die Anmeldeschritte erneut durchführen, um die aktualisierten Cookies abzurufen und zu speichern. (Weitere Informationen zum Speichern von Cookies finden Sie hier.
5. Das HTML-Design der Website ist anders, wenn sie in der Cloud geöffnet wird
Für Octoparse bedeutet das Extrahieren von Webdaten, Inhalte aus dem Quellcode/der HTML-Datei zu extrahieren. Es muss den HTML-Code erkennen, um zu wissen, welche Daten extrahiert werden sollen. Es kann vorkommen, dass das Website-Design in der Cloud abweicht und die Extraktion fehlschlägt.
Wenn Sie beispielsweise Sephora.com mit einer IP aus China öffnen, wird die Seite zu Sephora.cn umgeleitet. Das Design der Websites an verschiedenen Standorten ist völlig unterschiedlich. Achten Sie daher bei der Verwendung der Octopare Cloud-Extraktion darauf, dass Sie eine Website extrahieren, die nicht nach IP-Standorten umgeleitet wird.
Auch wenn die Website nicht umgeleitet wird, kann der Quellcode in einem anderen Browser unter anderen Netzwerkbedingungen leicht verändert sein.
Wie erkenne ich die Ursache für einen Fehler bei der Cloud-Extraktion?
Der Cloud-Extraktionsprozess von Octoparse kann nicht wie die lokale Extraktion in unser Blickfeld gelangen, aber wir haben ein Cloud-Protokoll, das Ihnen einen Screenshot der Cloud und einige Fehlerprotokolle zeigt.
Klicken Sie auf dieses Symbol, um das Cloud-Aufgabenfenster zu öffnen.
Gehen Sie zu Unteraufgabenstatus und klicken Sie auf Details
Es gibt eine weitere einfache Möglichkeit, zu testen, was in der Cloud passiert: den äußeren HTML-Code der gesamten Website-Seite zu extrahieren.
Sie können die folgenden Schritte ausführen, um den HTML-Code zu extrahieren:
Schritt 1. Klicken Sie nach dem Öffnen der Website-Seite irgendwo hin, um die "Tipps" auszulösen. Klicken Sie beispielsweise auf "Octoparse" auf dieser Seite
Schritt 2. Klicken Sie auf die Option OuterHtml , um den äußeren HTML-Code zu extrahieren
Schritt 3. Führen Sie die Aufgabe in der Cloud aus und erhalten Sie den HTML-Code
Schritt 4. Kopieren Sie die extrahierten Daten in eine Textdatei und speichern Sie sie als HTML-Datei
Schritt 5. Öffnen Sie die HTML-Datei mit Chrome oder Firefox, um zu sehen, wie die Website-Seite in der Cloud geladen wird
Schritt 6. Überprüfen Sie die Webseite, um herauszufinden, was der Grund für das Fehlschlagen der Extraktion ist.
Wenn auf der Seite beispielsweise „Zugriff verweigert“ angezeigt wird, bedeutet dies, dass die Cloud-IP blockiert ist. Wenn die Seite genauso aussieht, können Sie den HTML-Code sorgfältig prüfen, um den richtigen XPath für die Extraktion zu erhalten.