Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!
eBay ist ein multinationaler E-Commerce-Unternehmen, der sich in den USA befindet. Durch seine Webseite fördert eBay die Verkäufe von C2C und B2C. Es ist eine der bekanntesten und häufigsten E-Commerce-Plattformen auf der ganzen Welt.
Dieses Tutorial würde Ihnen anzeigen, wie man die URLs der Bilder von eBay Produktedetailseiten extrahieren kann.
Um diesem Tutorial zu folgen, benötigen Sie vielleicht die folgende URL: https://www.ebay.com/b/SCUBA-Snorkeling-Masks/71161/bn_1973279
Es gibt hier die hauptsächlichen Sachritte in diesem Tutorial: [Downloaden Sie hier Task-File]
Schritt 1: Erstellen von „Go to Web Page“ - um die Ziel-Webseite zu öffnen
Geben Sie die Ziel-URL auf die Startseite von Octoparse ein und dann klicken Sie auf „Start“.
Schritt 2: Erstellen von „Pagination Loop“ - um die Daten aus mehreren Listenseiten zu scrapen
Scrollen Sie immer nach unter, bis die Webseite am Ende geht.
Klicken Sie auf den Button von nächster Seite(>).
Klicken Sie auf „Loop click a single URL“ in die Tipps-Platte.
Stellen Sie das AJAX-Timeout als 7-10s ein.
Notiz: Wenn Sie mehr über AJAX und das Prinzip lernen möchten, wie Octoparse es behandelt, überprüfen Sie hier bitte. |
Schritt 3: Erstellen von „Page Scroll down“ - um die Daten auf jede Seite vollständig geladen zu werden
Klicken Sie zuerst auf „Add step“ (+) im Workflow und dann auf „Loop“.
Stellen Sie „Loop Mode“ als „Scroll Page“ ein.
Kreuzen Sie Scroll für „for one screen“ ein.
Stellen Sie Repeats-Anzahl als 15 ein.
Klicken Sie auf „Apply“.
Schritt 4: Erstellen eines „Loop Item“ - um wiederholend auf jeden Produkt-Link zu klicken und dann in die Detailseite einzugehen
Klicken Sie auf den Namen des ersten Produktes.
Klicken Sie auf „Select all“ in der Tipps.
Wählen Sie „Loop click each element“ in der kommenden Tipps.
NOTIZ: Um das Loop genauer zu machen, brauchen wir, den XPath vom Loop-Item zu modifizieren. |
Klicken Sie auf „Loop Item“.
Stellen Sie „Loop Mode“ als „Variable List“ ein.
Geben Sie den Matching-XPath ein: //ul[@class="b-list__items_nofooter srp-results srp-grid"]/li//a[@class="s-item__link"]
Klicken Sie auf „Apply“ zur Speicherung der Änderungen.
Schritt 5: Extrahieren von Daten - um die Bilder-URLs zu scrapen
Klicken Sie auf das erste Bild in der Seitenleiste.
Klicken Sie auf „Select all“ in der Tipps.
Klicken Sie auf „Extract image URLs“.
Klicken Sie auf „More“ Button, was in der Nähe vom Datenfeld liegt.
Wählen Sie „Merge multiple rows of data into one“ aus.
Notiz: Diese Funktion „Merge multiple rows of data into one“ hilft Ihnen, alle Bilder eines Produktes in einer Zelle zu erhalten. Wenn Sie sie in unterschiedlichen Zeilen liegen lassen möchten, benötigen Sie nicht, darauf zu klicken. Und dafür sollten Sie die Methode in diesem Tutorial ansehen: Daten Scraping von Bilder aus dem Bildkarussell. |
Schritt 6: Ausführung des Tasks - um Ihre Ziel-Daten zu erhalten
Klicken Sie auf „Save“ oben rechts, um Ihr Task zu speichern.
Klicken Sie auf „Run“ und warten Sie darauf, ein Pop-Up-Fenster von „Run Task“ geöffnet zu werden.
Wählen Sie „Run on your device“, um das Task in Ihrem eigenen Gerät auszuführen.
Warten Sie, bis es abgeschlossen ist.
Hier liegt ein Beispiel-Output aus einer Lokale-Ausführung: