Zum Hauptinhalt springen

Auflösung des Captcha

Vor über 9 Monaten aktualisiert

CAPTCHA ist eine populäre Anti-Scraping-Technik, die von vielen Websites in verschiedenen Formen angewendet wird.

Um die Effizienz von Scraping zu verbessern, kann Octoprase derzeit die drei Arten von Captcha automatisch verarbeiten: hCaptcha, ReCaptcha V2 und ImageCaptcha.

hCaptcha und ReCaptcha V2 können auf ähnliche Weise gelöst werden, während es komplizierter ist, eine Auflösung für ImageCaptcha einzurichten.

Folgen Sie diesem Tutorial und Sie würden in der Lage sein, ein grundlegendes Verständnis für jedes Captcha zu haben und sie mit Octoparse zu behandeln.


1. Was sind hCaptcha & ReCaptcha V2?

  • hCaptcha kombiniert normalerweise:

- einen „Ich bin kein Roboter“ Button mit das Logo von hCaptcha

hCaptcha

- und einfache Fragen (in Bildern), die für Menschen leicht und für Maschinen schwierig erkannt werden:

einfache Fragen

  • ReCaptcha V2

Die meisten ReCaptcha V2 haben einen „Ich bin kein Roboter“ Button; manchmal enthalten sie jedoch auch einfache Fragen ähnlich wie hCaptcha.

ReCaptcha V2
  • ReCaptcha V3 sieht ähnlich wie ReCapctha V2 aus, aber es es enthält keinen Checkbox.


2. Auflösung für hCaptcha & ReCaptcha V2

  • Schritt 1: Klicken Sie auf den Hinzufügen-Button im Workflow.

  • Schirtt 2: Wählen Sie „CAPTCHA lösen“ aus.

  • Schritt 3: Klicken Sie auf den „ CAPTCHA lösen“ Kasten.

  • Schritt 4: Selektieren Sie einen entsprechenden CAPTCHA-Typ anhand des Captchas, das Sie vorfinden.

Notiz: Wenn das reCaptcha v2 oder hCaptcha, auf das Sie stoßen, eine Schaltfläche zum Senden enthält (siehe Screenshot unten), wählen Sie reCaptcha V2 Checkbox oder hCaptcha Checkbox.

Andernfalls wählen Sie reCaptcha v2 oder hCaptcha.

  • Schritt 5: Klicken Sie auf „Übernehmen“ zur Speicherung der Einstellungen.

Notiz:

  • Für ReCCaptcha oder hCapctha mit einem Submit-Button müssen Sie eine weitere Aktion einrichten.

a. Klicken Sie auf eine Schaltfläche zum Absenden, die Sie zur Zielseite führt.

(Dies kann eine Schaltfläche zum Absenden, zur Anmeldung oder zur Bestätigung sein)

b. Wählen Sie „Auf Element klicken“.

  • hCaptcha und ReCaptcha werden nicht automatisch aufgelöst, bis ein tatsächlicher Datenlauf stattfindet. Daher müssen Sie den Durchsuchungsmodus aktivieren und die Auflösung manuell vornehmen, wenn Sie die Aufgabe erstellen.


3. Was ist ImageCaptcha?

ImageCaptcha ist die ursprüngliche Methode, mit der Menschen verifiziert wurden. Es kann bekannte Wörter, Phrasen oder zufällige Kombinationen von Ziffern und Buchstaben verwenden. Einige ImageCaptcha enthalten auch Variationen in der Großschreibung.

ImageCaptcha


4. Auflösung für ImageCaptcha

Um das Tutorial weiterzuverfolgen und ImageCaptcha zu lösen, können Sie die folgende URL verwenden:

A. Wählen des Eingabefeldes und Bildfeldes für Captcha

  • Schritt 1: Klicken Sie auf das Eingabefeld für Captcha.

  • Schritt 2: Wählen Sie „Captcha lösen“ in der Tips-Platte.

  • Schritt 3: Klicken Sie auf das Bildfeld.

  • Schritt 4: Klicken Sie auf den „Login/Submit/Confirm“ Button, um weiterzugehen. (Manchmal können es auch andere Schaltflächen sein, wie „Send“ in diesem Fall.)

  • Schritt 5: Klicken Sie auf „Bestätigen“ in der Tips-Platte.

B. Einrichtung eines Captcha-Lösungsfehlers

Nun müssen wir Octoparse darauf trainieren, das Captcha zu lösen, indem wir einen Lösungsfehler einrichten.

  • Schritt 1: Klicken Sie auf die Fehlermeldung (in diesem Fall - Some errors were detected in your form: Invalid verification code).

  • Schritt 2: Klicken Sie auf „Fehler bestätigen“ in der Tips-Platte.

C. Einrichtung eines Captcha-Lösungserfolges

  • Schritt 1: Klicken Sie auf „CAPTCHA-Lösung wird erfolgreich erstellt“, um den letzten Schritt zu vollziehen.

  • Schritt 2: Geben Sie den Text in den Bildkasten ein.

  • Schritt 3: Klicken Sie auf „CAPTCHA-Antwort abschicken und Einrichtung abschließen“.

Das Bild-Captcha wurde jetzt gelöst. Der Schritt von Lösung des CAPTCHA wird dem Workflow hinzugefügt. Und dann können Sie auch die Einstellungen unter dem Workflow ändern.


Notiz:

  • hCaptcha/ReCaptcha V2/ReCaptcha V3 können automatisch erkannt werden, so dass es nicht notwendig ist, XPath zu setzen, um sie zu finden. Image CAPTCHA können ohne XPath nicht erkannt werden. Sie müssen auf den XPath in den Einstellungen achten.

  • Die Kosten betragen $1/1K CAPTCHA. Ein Versuch, ein CAPTCHA zu lösen, wird als ein CAPTCHA-Credit gezählt. Das erfolgreiche Lösen eines CAPTCHAs kann also mehrere CAPTCHA-Credits kosten. Sie können auf „Kredite hinzufügen“ klicken, um sie aufzustocken. CAPTCHA-Credits können nicht zurückerstattet werden. Wir haben einige Credits für Benutzer des Standard/Professional-Plans zum Testen verschickt. Sie können es testen, bevor Sie für die Credits bezahlen.

  • Sobald die Credits aufgebraucht sind, kann die Aufgabe die Captchas nicht mehr lösen. Vergewissern Sie sich daher vor der Ausführung der Aufgabe, dass genügend Guthaben auf Ihrem Konto vorhanden ist.

  • In Version 8.7.4 hat Octoparse eine Option zum Hervorheben von Ressourcenprotokollen im Ereignisprotokoll eingeführt. Diese Funktion erleichtert die Überprüfung, ob ein CAPTCHA erfolgreich gelöst wurde, und die Nachverfolgung des Kreditverbrauchs. Credits werden nur abgezogen, wenn das CAPTCHA-Auflösungsprotokoll „Abgeschlossen“ anzeigt.

Hat dies deine Frage beantwortet?