Zum Hauptinhalt springen

Wie kann man die vollständigen Bild-URLs anstelle der Thumbnails scrapen?

Vor über 6 Monaten aktualisiert

Manchmal müssen wir die URL eines Bildes von einer Website abrufen, aber alles, was wir erhalten, ist nur die URL eines Miniaturbildes anstelle eines Bildes in normaler Größe.

Hier ist ein Bild, das von Amazon abgerufen wurde. Wie Sie sehen können, ist das Bild zu klein, um es zu sehen.

Um die Bilder in normaler Größe zu erhalten, müssen wir nur die bereits vorhandene Bild-URL ändern, indem wir die folgenden Schritte ausführen:

Wenn Sie wissen möchten, wie Sie die Bild-URLs auslesen können, lesen Sie bitte zuerst dieses Tutorial: Daten Scraping von Bilder aus dem Bildkarussell


Schritt 1: Finde das Unterschied zwischen der vollständigen Bild-URL und der Thumbnail heraus

Die URLs der verschiedenen Größen unterscheiden sich in der Regel nur geringfügig. Wir müssen den Unterschied zwischen der URL des vollständigen Bildes und der URL der Miniaturansicht herausfinden.

Es gibt zusammen zwei Möglichkeiten für das Unterschied:

  • Beispielerweise wird die Thumbnail in Amazon wie folgend:

Und das vollständige Bild ist

Sie können sehen, dass die URL der Thumbnail „SR38,50“ hat. Was wir machen sollten, ist, es aus der URL zu löschen.

  • In einigen Fällen könnten Sie sehen, dass die Bild-URL die Größenangabe wie 85X85 enthält, um die Größe des Bildes anzugeben:

Sie können versuchen, „85X85“ durch „1000X1000“ zu ersetzen, um zu sehen, ob die URL noch gültig ist:


Schritt 2: Verwende Octoparse „Daten reinigen“-Funktion, um die URL der Miniaturansicht in eine vollständige URL umzuformatieren

  • Klicken Sie auf den Mehr-Button (...)

  • Wählen Sie „Daten reinigen

  • Fügen Sie einen Schritt „Ersetzen“.

  • Geben Sie den Wert, den Sie ersetzen möchten (z. B. SR38,50), in das Feld „Ersetzen“ ein.

3.png

(Im Falle der Amazon-Bild-URL müssen Sie die SR38, 50 löschen, d. h. durch nichts ersetzen. Sie müssen also nur das Feld mit leer lassen.)

  • Klicken Sie auf „Übernehmen

  • Klicken Sie auf „Übernehmen

Dann können Sie die vollständige Bild-URL, die Sie benötigen, in den endgültigen Ergebnissen erhalten.

Hat dies deine Frage beantwortet?