In der heutigen Webumgebung verwenden viele Websites Cloudflare zum Schutz vor böswilligen Aktivitäten, was eine Herausforderung für Data Scraping darstellt. In diesem Tutorial erklären wir, was die Cloudflare-Verifizierung ist und zeigen Ihnen zwei bewährte Lösungen, um sie zu umgehen.
Was ist die Cloudflare-Verifizierung?
Die Cloudflare-Verifizierung ist eine Sicherheitsmaßnahme, die von Websites verwendet wird, um zwischen legitimen Benutzern und automatisierten Bots zu unterscheiden. Dazu gehören häufig CAPTCHA-Herausforderungen, Browser-Integritätsprüfungen und Ratenbegrenzungen. Diese Überprüfungen helfen, Websites vor Bedrohungen wie DDoS-Angriffen, Spam und Scraping zu schützen, aber sie stellen auch erhebliche Hindernisse für Web-Scraping-Tools dar.
Wie geht man damit in Octoparse um?
Lösung 1: Automatische Anpassung mit Kreidte
Ab Version 8.7.2 kann Octoparse die Cloudflare-Herausforderungen automatisch für Sie lösen. Wenn die Website Cloudflare-Captcha anzeigt, müssen Sie nur die Option „Cloudflare mit Kredite lösen“ ankreuzen und auf „Bestätigen“ klicken, wenn das Cloudflare-Drehkreuz erscheint, und warten, bis es automatisch umgangen wird.
Diese Funktion kostet 1,5 $ pro 1.000 Anfragen. Stellen Sie also sicher, dass Sie genügend Zusatzguthaben in Ihrem Konto haben, bevor Sie sie nutzen. Beachten Sie bitte, dass Ihnen die Kosten in Rechnung gestellt werden, sobald Sie auf „Bestätigen“ klicken, um den Prozess zu starten, unabhängig davon, ob er erfolgreich ist oder nicht. Die Erfolgsquote bei der Lösung dieser Aufgaben liegt bei etwa 80 %.
Es ist auch wichtig zu beachten, dass diese Funktion nur während des Schritts „Zur Webseite“ verfügbar ist. Das bedeutet, dass Octoparse Cloudflare, die während des Scraping-Prozesses in Echtzeit auftauchen, nicht erkennen oder auflösen kann.
Notiz: Wenn Sie die Verifizierungsfunktion von Cloudflare während des Scrapings deaktivieren möchten, deaktivieren Sie bitte die Option „Cloudflare mit Kredite lösen“ in den Aufgabeneinstellungen.
Lösung 2: Manuelle Anpassung
Sie haben auch die Möglichkeit, die Cloudflare-Überprüfung manuell zu umgehen, wenn Sie Ihre Aufgaben bearbeiten oder ausführen. Eine ausführliche Anleitung dazu finden Sie in diesem Tutorial.