Sie befinden sich in einer Anleitung für die neueste Version von Octoparse. Wenn Sie eine ältere Version von Octoparse verwenden, empfehlen wir Ihnen dringend ein Upgrade, da diese schneller, einfacher und robuster ist! Laden Sie die neueste Version hier herunter und führen Sie das Upgrade durch, falls Sie dies noch nicht getan haben!
Einige Websites (wie Trustpilot) speichern Bewertungen in HTML-Attributen statt als Klartext. So extrahieren Sie diese:
Beispiel-Website:
📌 Trustpilot Bewertung - Airforce Gift Shop: https://www.trustpilot.com/review/airforcegiftshop.co.uk
Es gibt zwei Lösungen für die Extraktion der Informationen der Sternbewertung.
Lösung 1: Extrahieren Sie Attribut aus dem Image-Code.
✅ Geeignet für
Einfache Bewertungsextraktion aus alt-
, src-
oder anderen Attributen.
Schritte:
Wählen Sie das Sternebewerftung-Element auf die Webseite.
In der Tipps-Platte, wählen Sie:
Bild-URL (wenn die Bewertung ein Bild ist)
OuterHtml (für Roh-HTML-Extraktion)
3. Klicken Sie auf „Daten Scrapen”, das Icon „...” (Mehr Optionen) und „Feld anpassen”.
4. Wählen Sie „Andere Attribute wählen” und dann „alt
” oder „scr
“.
5. Die Zieldaten werden in der Datenvorschau gezeigt.
Lösung 2: Extrahieren und bereinigen Sie den HTML-Code.
✅ Geeignet für
Komplexe Fälle, in denen Bewertungen in HTML verborgen sind.
Schritte:
1. Wählen Sie die Bewertung aus und wählen Sie dann „OuterHtml“.
2. Klicken Sie auf „Daten Scrapen”, das Icon „...” und „Daten reinigen” .
3. Klicken Sie danach auf „Schritt hinzufügen” und wählen Sie „Übereinstimmung mit Regulärem Ausdruck”.
Für Octoparse Version 8.8.0 und später
2. Markieren Sie für jede Testzeichenfolge manuell nur den Text, den Sie abgleichen möchten.
3. Klicken Sie auf „Generieren“. Die KI analysiert Ihre Beispiele und schlägt ein RegEx-Muster vor.
4. Klicken Sie auf „Testen“, um zu überprüfen, ob das Muster für alle Ihre Beispiele funktioniert.
5. Klicken Sie auf „Anwenden & Speichern“, geben Sie Ihrem Muster einen Namen und bestätigen Sie.
Vor der Version 8.8.0
Zwei Optionen:
Geben Sie RegEx manuell ein (wenn Sie damit vertraut sind).
Verwenden Sie das RegEx-Tool (für Anfänger empfohlen).
2. In dem RegEx-Tool:
Klicken Sie auf „Beginnen mit“ → Geben Sie den Text vor der Bewertung ein (z. B. alt=").
Klicken Sie auf „Beenden mit“ → Geben Sie den Text nach der Bewertung ein (z. B. ").
Klicken Sie auf „Abgleichen“, um zu überprüfen.
3. Anwenden → Einstellungen bestätigen