Zum Hauptinhalt springen

Daten Scraping von Seiteninformationen (Metadaten, Seiten-URL, Seitentitel, Quellcode)

So verwenden Sie Octoparse zum Extrahieren von Daten auf Seitenebene, einschließlich Webseiten-URL, Seitentitel, Metabeschreibung, Meta-Schlüsselwörtern und HTML-Quellcode.

Gestern aktualisiert

SCHRITT 1.

Wählen Sie im Workflow „Daten extrahieren“ aus

SCHRITT 2.

Gehen Sie zum Abschnitt „Datenvorschau“ und klicken Sie auf die Schaltfläche „Benutzerdefinierte Felder hinzufügen“.

SCHRITT 3.

Wählen Sie Ihr Zieldatenfeld aus den Daten auf Seitenebene aus

3.png

SCHRITT 4 (optional).

Benennen Sie das Datenfeld um, indem Sie auf den Feldnamen doppelklicken


Es können 5 Arten von Daten hinzugefügt werden:

  • Seiten-URL: URL der aktuellen Seite

  • Seitentitel: Titel der aktuellen Seite, der eine kurze Beschreibung einer Webseite darstellt und oben im Browserfenster angezeigt wird.

mceclip2.png
  • Meta-Beschreibung: Meta-Beschreibungs-Tag der aktuellen Seite, der eine Zusammenfassung der Seite enthält.

mceclip3.png
  • Meta-Keyword: Meta-Keyword-Tag der aktuellen Seite

mceclip4.png
  • HTML-Quellcode: der komplette HTML-Code der Webseite

Hat dies deine Frage beantwortet?