Zum Hauptinhalt springen

Regular Expression Tool

Diese Woche aktualisiert

Regular Expression (RegEx) ist eine spezielle Textzeichenfolge, die ein Suchmuster definizieren kann, was von Algorithmen zum „Suchen“ oder „Suchen und Ersetzen“ von Zeichenketten verwendet wird. Sie könnten sich auch hier über einige Grundlagen von Regular Expression informieren.

In Octoparse können Sie RegEx zur Übereinstimmung oder Ersetzung der Charakter in einem Feldwert verwenden, so dass die extrahierten Daten direkt verfeinert werden können.

Octoparse RegEx Tool ist ein intergriertes Tool, das eine praktische Methode anbietet, dass man durch Einstellungen verschiedener Kriterien automatisch Regular Expressions generiert. Wenn man wenig wissen, wie ein Regular Expression Syntax eingebaut wird, würde RegEx Tool besonders hilfreich sein.


Wo kann man RegEx Tool finden?

In Octparse gibt es zwei Methoden zum Eingang des RegEx Tool:

1. In den Optionen von „Daten reinigen“

  • Wählen Sie Ihre gewünschten Datenfelder zum Einrichten.

  • Klicken Sie auf „...“ und wählen Sie „Daten reinigen“.

  • Klicken Sie auf „Schritt hinzufügen“.

  • Wählen Sie auf „Ersetzen mit Regulärem Ausdruck“/„Übereinstimmung mit Regulärem Ausdruck“ aus.

  • Klicken Sie auf „Regex nicht verstehen? Regex-Tool und KI-Unterstützung ausprobieren“, um diese Funktion zu verwenden.

2. Von der Seitenleistennavigation aus

  • Wählen Sie „Tools“ Icon am Ende der Seitenleistennavigation.

  • Klicken Sie auf „RegEx Tool“.


Das Interface von RegEx Tool

Version 8.8.0 und höher

1. Allgemeine RegEx

Dies ist eine Bibliothek mit vorgefertigten, häufig verwendeten regulären Ausdrücken. Sie können nach einem Muster suchen, das Ihren Anforderungen entspricht (z. B. E-Mails, Telefonnummern, URLs oder bestimmte Datumsformate). Dies ist der schnellste Weg, um einen leistungsstarken RegEx anzuwenden, ohne ihn selbst erstellen zu müssen.

2. KI-RegEx

Sind Sie es leid, komplexe reguläre Ausdrücke zu schreiben? Verwenden Sie unseren KI-RegEx-Generator, um diese sofort zu erstellen, indem Sie dem Tool einfach zeigen, was Sie extrahieren möchten.

So funktioniert es:

  1. Suchen Sie das Datenfeld, das Sie bereinigen möchten, und klicken Sie auf „Mehr >> Daten reinigen”.

  2. Fügen Sie Ihrem Workflow für das Zieldatenfeld den Schritt „Übereinstimmung mit Regulärem Ausdruck” hinzu.

  3. Klicken Sie auf „Regex nicht verstehen? Regex-Tool und Kl-Unterstützung ausprobieren“.

  4. Markieren Sie für jede Testzeichenfolge manuell nur den Text, den Sie abgleichen möchten (z. B. NY in Suffolk County, NY).

  5. Klicken Sie auf „Generieren“. Die KI analysiert Ihre Beispiele und schlägt ein RegEx-Muster vor.

  6. Klicken Sie auf „Testen“, um zu überprüfen, ob das Muster für alle Ihre Beispiele funktioniert.

  7. Klicken Sie auf „Anwenden & Speichern“, geben Sie Ihrem Muster einen Namen und bestätigen Sie.

Beispiel für Eingabe und Ausgabe:

  • Quelltext: Suffolk County, NY

  • Sie markieren: NY

  • Generierte RegEx: Erstellt ein Muster, das mit dem Bundesstaatcode übereinstimmt (z. B. NY, NC).

3. Regex-Generator

Dies ist die Weiterentwicklung der klassischen Registerkarte „Generieren“. Sie bietet eine benutzerfreundliche, formularbasierte Oberfläche, über die Sie Ihre eigene benutzerdefinierte reguläre Ausdrucksformel erstellen können, indem Sie Optionen auswählen und Parameter eingeben (z. B. „Start mit“, „End mit“, „Enthält“). Ihre Auswahl wird automatisch in die richtige RegEx-Syntax übersetzt, was diese Funktion ideal für Lernende oder diejenigen macht, die einen visuellen Ansatz bevorzugen.


Wie kann man Octoparse Regex-Generator verwenden?

SCHRITT 1: Überprüfen Sie die Optionen und geben Sie die erforderlichen Parameter ein (1), dann generieren Sie (2) einen regulären Ausdruck (3).

  • „Start/End mit“: Wählen Sie den Inhalt aus, der mit dem/den in das Feld eingegebenen Zeichen beginnt oder endet, diese jedoch ausschließt.

  • „Start/End enthält“: Diese Option kann nur verwendet werden, wenn „Start/End mit“ aktiviert ist. Wenn Sie „Start/End enthält“ aktivieren, enthält das Suchergebnis die von Ihnen eingegebene Zeichenfolge.

  • Enthält einen“: Wählen Sie den Inhalt aus, der das/die von Ihnen eingegebene(n) Zeichen enthält.

SCHRITT 2: Klicken Sie auf die Schaltfläche „Übereinstimmung“ (4) – aktivieren Sie das Kontrollkästchen „Alle übereinstimmenden Ergebnisse“, wenn Sie alle Übereinstimmungen anzeigen möchten.

SCHRITT 3: Wenn Sie mit den angezeigten Übereinstimmungen zufrieden sind, klicken Sie auf die Schaltfläche „Übernehmen“, um die Änderungen zu bestätigen und zu übernehmen.

Vor der Version 8.8.0

Das hauptsächliche Interface von RegEx Tool enthält 4 Teile:

Interface von RegEx Tool

1. Origineller Text

  • Wenn Sie das RegEx Tool ohne Optionen von Clean Data öffnen, würde die extrahierte Textzeichenfolge hier angezeigt.

  • Wenn Sie aus der Seitenleistennavigation es öffnen, sollte die Charakter-Zeichenfolge direkt im originellen Text eingetreten werden, indem Sie selbst tippen oder einfügen.

2. Generieren/Referenz/Beispiel

Es gibt 3 Tabs in diesem Teil.

  • In dem „Generate“ Tab gibt es Checkboxen für verschiedene Optionen. Sie können diese Boxen überprüfen und einige Parameter in Octoparse eingeben, um Ihr gewünschtes Regular Expression automatisch zu generieren.

  • „Referenz“ und „Beispiel“ sind nun leer, seitdem wir keine Tutorials der Referenz vorbereitet haben.

3. Regular Expression

  • Regular Expression wird automatisch in „Regular Expression“-Kasten generiert, nachdem Sie die Auswahlboxen überprüft und die Parameter im „Generate“ Tab eingegeben haben.

  • Überprüfen Sie „Match All“, wenn Sie alle Übereinstimmungen erhalten möchten. Dann klicken Sie auf den „Match“ Button, um zu bestätigen, dass die Expressions Ihr Ziel finden können.

4. Matches

  • Sobald Sie einen Ausdruck erstellt haben, wird die erste Übereinstimmung in Matches-Box angezeigt.

  • Wenn Sie bereits „Match All“ überprüft haben, würden alle Übereinstimmungen dann ordnungsgemäß im Kasten angezeigt.

Hat dies deine Frage beantwortet?