Zum Hauptinhalt springen

Scraping der Produktdaten von Amazon

Diese Woche aktualisiert

Amazon ist eine der beliebtesten E-Commerce-Websites auf der ganzen Welt. Viele Benutzer versuchen, die Produktinformationen von Amazon zu scrapen. In diesem Tutorial zeigen wir Ihnen, wie Sie mit Octoparse Produktdaten von Amazon einfach scrapen können.

Sie können integrierte Aufgabenvorlagen im Hauptbildschirm des Octoparse-Scraping-Tools finden und direkt den gebrauchsfertigen Amazon-Vorlagen verwenden. Octoparse bietet mehrere Amazon-Vorlagen, die für verschiedene Länder wie Deutschland, Frankreich, die USA, Spanien und Indien entwickelt wurden. Mit dieser Funktion müssen Sie nicht selbst Scraping-Aufgaben konfigurieren. Für weitere Details können Sie hier nachsehen: Aufgaben-Vorlagen

Wenn Sie wissen möchten, wie Sie die Aufgabe von Grund auf neu erstellen können, lesen Sie bitte die folgende Anleitung oder sehen Sie sich das Video unten an.

Zum Üben können Sie diese URL im Tutorial verwenden:


Schritt 1: Zur Webseite gehen - Öffnen Sie die Ziel-Webseite

  • Geben Sie die Beispiel-URL ein und klicken Sie auf „Start“.


Schritt 2: Automatische Erkennung der Webseite – um den Workflow zu erstellen

  • Klicken Sie auf „Webseitendaten automatisch erkennen“ und warten Sie, bis die Erkennung abgeschlossen ist.

  • Deaktivieren Sie die Option „Seiten Scrollen hinzufügen“

  • Klicken Sie auf Workflow erstellen

  • Im Workflow werden automatisch eine Paginierung und ein Loop-Element generiert.

  • Klicken Sie auf Mehr und Feld löschen, um die unerwünschten Daten loszuwerden.

  • Doppelklicken Sie, um Datenfelder umzubenennen.

Wenn alle benötigten Daten von der Listenseite abgerufen werden konnten, können Sie hier aufhören und mit „AJAX-Timeout für „Zum Paginieren klicken“ einrichten“ fortfahren . Wenn Sie die einzelnen Produktdetailseiten aufrufen möchten, um weitere Informationen zu erhalten, führen Sie die folgenden Schritte aus.


Schritt 3: Klicken Sie in jeden Detail-Link, um weitere Informationen zu scrapen

  • Klicken Sie auf das zweite Element auf der Seite und wählen Sie im Bereich Option „Element anklicken“.

So sollte der Workflow aussehen:

  • Klicken Sie auf „ Element anklicken “ und fügen Sie den neuen XPath ein : //a[@class="a-link-normal s-no-outline"]

  • Klicken Sie auf Übernehmen

  • Gehen Sie zu Optionen

  • Klicken Sie auf „In neuem Tab öffnen“ und speichern Sie die Änderungen


Schritt 4: Daten extrahieren - Daten auf den Detailseiten extrahieren

  • Informationen auf der Webseite auswählen

  • Text auswählen

  • Wiederholen Sie die obigen Schritte, um alle benötigten Daten zu extrahieren


Schritt 5: AJAX-Wartezeit für „Klicken zum Paginieren“ einrichten

  • Öffnen Sie die Aktionseinstellungen von „Klicken zum Paginieren“.

  • Wählen Sie „Laden mit AJAX“ und stellen Sie 10s AJAX-Wartezeit ein.


Schritt 6: Extraktion ausführen - führen Sie Ihre Aufgabe aus und erhalten Sie die Daten

  • Klicken Sie auf „Speichern“.

  • Klicken Sie auf „Ausführen“.

  • Wählen Sie „Auf Ihrem Gerät ausführen“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder wählen Sie „Aufgabe in der Cloud ausführen“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).

Hier sind Daten für die Beispielaufgabe.

56156156.png
Hat dies deine Frage beantwortet?