Zum Hauptinhalt springen

Extrahieren Sie Attribute eines Webelements (Text, URL, HTML usw.)

Vor über einem Monat aktualisiert

In diesem Tutorial zeigen wir Ihnen, wie Sie Text, URL, Bild-URL, HTML und andere Attributwerte extrahieren.


1. Text extrahieren

Klicken Sie auf Ihre Zieldaten und wählen Sie dann im Bereich „Tipps“ die Option „Text“ aus.


2. Extrahieren Sie die URL (eines Links oder eines Bildes)

Eine URL ist ein Hyperlink. Mit einem einzigen Klick auf eine URL können Sie eine neue Webseite öffnen oder zu einer neuen Website wechseln, ähnlich wie wenn Sie bei Amazon auf den Titel eines Buches klicken.

Neben einer Webseite ermöglicht Ihnen die URL auch den Zugriff auf die jeweilige Dateiressource über das Internet, beispielsweise ein Bild oder ein PDF-Dokument. Wenn Sie die URL erhalten, können Sie die entsprechende Datei oder das Bild über die URL aus dem Internet herunterladen.

2.1 Extrahieren Sie die URL eines Links

Klicken Sie auf Ihre Zieldaten und wählen Sie dann „Link“ im Bereich „Tipps“ aus.

TIPP: Wenn Sie ein Element mit einer URL auswählen, sollte das ausgewählte Tag unten bei „Tipps“ „A“ sein. Dies steht für einen Anker, der normalerweise eine Seite mit einer anderen verknüpft. Bitte stellen Sie sicher, dass Sie den richtigen Bereich auswählen.

14.png

2.2 Extrahieren Sie die Bild-URL

Klicken Sie auf Ihre Zieldaten und wählen Sie dann im Bereich „Tipps “ die Bild-URL aus .

FAQ: Kann ich Octoparse verwenden, um ein Bild direkt von der Webseite abzurufen, nicht dessen URL?

Ja! Mit der brandneuen Scrape- und Download-Funktion, können Sie das Bild jetzt direkt während des Scrapens herunterladen.


3. Extrahieren Sie das innere/äußere HTML

Im Gegensatz zu Text und URL können Daten wie Symbole nicht direkt extrahiert werden. Wenn Sie visuelle Nicht-Text-Inhalte, wie z. B. die Sternebewertung, extrahieren möchten, müssen Sie das innere/äußere HTML dieser Inhalte extrahieren.

Neben Symbolen können Sie auch versteckte Texte, Diagramme und Grafiken von einer Webseite extrahieren, indem Sie zunächst den HTML-Code dieser Elemente extrahieren. Nachdem Sie den HTML-Code erhalten haben, müssen Sie reguläre Ausdrücke anwenden, um die Daten zu bereinigen.

Um inneres/äußeres HTML zu extrahieren, klicken Sie auf Ihre Zieldaten und wählen Sie dann im Bereich „Tipps“ „Inneres/Äußeres HTML“ aus .

TIPP: Um das extrahierte innere/äußere HTML in nützliche Daten umzuwandeln, sollten Sie sich diese Tutorials ansehen:


4. Attributwert extrahieren

Attribute befinden sich im HTML-Code und liefern zusätzliche Informationen zu HTML-Elementen. Beispielsweise wird die Sternebewertung üblicherweise im Attribut gespeichert. Sie wird üblicherweise in Name/Wert-Paaren wie name="value" angegeben . Octoparse kann dabei helfen, den Wert direkt abzurufen.

Klicken Sie auf das Zielelement (hier nehmen wir als Beispiel die Sterne) und wählen Sie OuterHtml aus.

Gehen Sie zum Abschnitt „Datenvorschau“ , bewegen Sie den Mauszeiger über das Namensfeld, klicken Sie auf die Schaltfläche „… mehr“ , wählen Sie „Feld anpassen“ und wählen Sie dann Ihr Zielattribut im Feld „Attribut extrahieren“ aus.

Hat dies deine Frage beantwortet?