Während Ihres Web-Scraping-Projekts möchten Sie vielleicht die Datenfelder bereinigen. Octoparse bietet 10 Datenbereinigungsoptionen, um die gescrapten Daten in das von Ihnen benötigte Format zu bringen.
Wenn sollte ich die gescrapten Daten verfeinern?
Wenn Sie das gewünschte Datenformat für ein bestimmtes Feld haben, können Sie die Funktion „Daten reinigen“ verwenden, um das Feld in Octoparse zu bereinigen. Octoparse würde es direkt während des Scraping-Prozesses auslesen und verfeinern, damit Sie das Feld nach dem Export der Daten in eine Excel-Datei nicht formatieren müssen.
Wie kann ich die gescrapten Daten in Octoparse verfeinern?
Um diese Eigenschaften in Octoparse zu verwirklichen, sollten Sie nach den folgenden 4 Schritten folgen:
Schritt 1: Wählen Sie das Datenfeld zu verfeinern.
Schritt 2: Klicken Sie auf „...“ und wählen Sie auf „Daten reinigen“.
Schritt 3: Klicken Sie auf „Schritt hinzufügen“.
Schritt 4: Wählen Sie eine Option, um Ihre Daten neu zu formatieren.
Tipps:
In der Programmierung bezieht sich einen „String“ grundsätzlich auf eine Sammlung von Zeichen wie Buchstaben, Ziffern, Symbole und Interpunktionszeichen. Zum Beispiel ist „“ (Leerzeichen) ein String; „Octoparse“ ist ein String; und „Hello 2 *% World!“ ist ebenfalls ein String. Ein String kann auch aus keinem Zeichen bestehen. Mit anderen Worten: Ein String, die kein Zeichen enthält, ist leer. Wenn Sie ein Wort durch einen leeren String ersetzen, ist das umgangssprachlich gleichbedeutend mit dem Löschen des Wortes.
Das Wort „String“ wird in vielen Funktionsanweisungen der Datenumformatierungsoptionen von Octoparse verwendet. Wenn Sie dort das Wort „String“ sehen, bedeutet das, dass Sie die entsprechenden Optionen verwenden können, um mit Zeichentypen in den extrahierten Daten umzugehen, z.B. Buchstaben, Wörter, Sätze, Zahlen, Leerzeichen, Symbole und Interpunktionszeichen.
10 Optionen zur Datenumformatierung
Option 1: Ersetzen
Funktion: Ersetzen Sie den(ie) bestimmte(n) String(s) in den extrahierten Daten durch den(ie) gewünschte(n) neue(n) String(s).
Option 2: Ersetzen mit Regulärem Ausdruck
Funktion: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge in den extrahierten Daten durch den gewünschten String zu ersetzen.
Tipps:
Wenn Sie nicht wissen, wie man einen regulären Ausdruck schreiben soll, bieten wir nützliche Tools für Sie!
Option 3: Übereinstimmung mit regulärem Ausdruck
Funktion: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge aus den extrahierten Daten herauszufiltern.
Sie können mehr über reguläre Ausdrücke in W3schools erfahren.
Option 4: Räume trimmen
Funktion: Entfernen Sie die unerwünschten Leerzeichen am Anfang oder/und am Ende der extrahierten Daten.
Wenn Sie die Leerzeichen inmitten der Daten löschen möchten, können Sie die Funtion „Ersetzen“ oder „Ersetzen mit regulärem Ausdruck“ verwenden.
Option 5: Ein Präfix hinzufügen
Funktion: Fügen Sie vor den extrahierten Daten einen String oder mehere Strings hinzu.
Option 6: Ein Suffix hinzufügen
Funktion: Fügen Sie einen String am Ende der extrahierten Daten ein.
Option 7: Datum/Uhrzeit umformatieren
Funktion: Verschieben Sie das extrahierte Datum/die extrahierte Uhrzeit in eines der integrierten Formate oder in Ihr eigenes benutzerdefiniertes Format.
Beispielsweise können Sie „2024-01-01“ in „2024/01/01“ umformatieren.
Funktion: Konvertieren Sie ein relatives Datum und eine relative Uhrzeit in ein bestimmtes Datum und eine bestimmte Uhrzeit.
Beispielsweise können Sie „vor 2 Tagen“ in 2024/01/01 umwandeln. Dies ist nützlich, wenn Sie die Veröffentlichungszeit von Stellenangeboten, Artikeln oder Videos scrapen.
Option 8: Umwandlung von Zeitstempeln
Funktion: Verschieben Sie den Unix-Zeitstempel in Ihr eigenes benutzerdefiniertes Format.
Der Unix-Zeitstempel ist eine Zahlenfolge, die ein bestimmtes Datum und eine bestimmte Uhrzeit darstellt. Diese Funktion wird Unix-Zeit in ein Format konvertieren, das wir leicht verstehen können.
Option 9: Umwandlung von Zeitzonen
Funktion: Konvertieren Sie das Datum und die Uhrzeit in Ihre Zielzeitzone.
Bei einigen Websites basiert das auf der Seite angezeigte Datum und die Uhrzeit auf dem Land, aus dem die Website stammt. Wenn Sie die Zeitzone auf die Ihres Landes umstellen möchten, können Sie dies ganz einfach mit dieser Funktion tun.
Tipp: Dies ist nützlich, wenn Sie die aus dem Cloud Run extrahierten Daten sammeln. Die Zeitzone des Cloud Run basiert auf UTC+0. Sie können sie in Ihre Zielzeitzone umrechnen, um Verwirrung zu vermeiden.
Option 10: HTML Transkodierung
Funktion: Bestimmte HTML-Tags automatisch in einfachen Text umwandeln. Beispielsweise „&“ in „&“ umwandeln.
Tipp: Alle hinzugefügten Schritte können bearbeitet und gelöscht werden, indem Sie auf die Icons klicken.
Octoparse Regex Tool
Octoparse bietet auch einen KI-RegEx-Generator und RegEx-Builder, um die benötigten regulären Ausdrücke automatisch zu generieren.
Klicken Sie hier, um weitere Informationen zur Verwendung des Regex-Tools zu erhalten.