メインコンテンツにスキップ

正規表現ツール

一週間前以上前にアップデートされました

正規表現(RegExp)は、文字列内で文字の組み合わせを照合するために用いられるパターンです。「正規表現」を利用すれば、長文中から簡単に見つけたい文字列を検索することができます。

任意の文字列を正規表現に検索できるため、テキストから部分文字列を探すとか、部分的に文字列を置き換えるとか、目的の文字列かどうか判定する機能も実行できます。

ここ で正規表現の基本知識を知ることができます。


Octoparse正規表現ツールとは?


Octoparse正規表現ツールは、さまざまな条件を設定して、正規表現を自動的に生成するツールです。正規表現の作成方法についてほとんど知らない場合、Octoparse正規表現ツールを試してみてください。

正規表現ツールにアクセス方法

方法1:「データを再フォーマット」→正規表現ツールを試す

  • カスタマイズしたい「データフィールド」の右上のボタンをクリックします。

  • 「データを再フォーマット」をクリックします。

mceclip1.jpg

  • 「ステップを追加」をクリックして、「正規表現による置換」または「正規表現によるマッチング」をクリックします。

mceclip2.png

方法2:サイドバー → 正規表現ジェネレーター

・サイドバーの「ツール」ボタンをクリックして、正規表現ジェネレーターをクリックします。


正規表現ツールのインターフェース

Version 8.8.0以降

※最新バージョンへアップグレード可能です


1. よく使う正規表現

あらかじめ用意された正規表現のライブラリです。よく使われるパターン(例:メールアドレス、電話番号、URL、日付フォーマットなど)をブラウズまたは検索して選択できます。
自分で一から作成しなくても、すぐに強力な正規表現を適用できる最速の方法です。

2. AIで生成

複雑な正規表現を書くのに疲れましたか?
AI正規表現ジェネレーターを使えば、抽出したい内容を例示するだけで、すぐに正規表現を生成できます。

使い方

  1. 整形したいデータフィールドを見つけ、ほかのオプション >> データを再フォーマット をクリックします。

  2. 対象のデータフィールドに「正規表現によるマッチング」ステップをワークフローに追加します。

  3. 「正規表現がわからない? ツールやAl補助を使ってみましょう」をクリックします。

  4. 各テスト文字列に対して、マッチさせたい部分だけを手動でハイライトします(例:Suffolk County, NY の中でNYを選択)。

  5. 「生成」をクリックすると、AIが例を分析し、正規表現パターンを提案します。

  6. 「テスト」をクリックして、パターンがすべてのサンプルに対して正しく機能するか確認します。

  7. 「適用して保存」をクリックし、パターンに名前を付けて確定します。

入出力例

  • 入力文字列: Suffolk County, NY

  • ハイライト: NY

  • 生成される正規表現: 州コード(例:NY, NC)にマッチするパターンを作成

     

3. ルール生成

オプションを選択し、パラメータを入力することで、自分専用の正規表現を簡単に作成できるフォーム形式のインターフェースを提供します。
選択内容は自動的に正規表現の構文に変換されるため、学習中の方やビジュアル的に操作したい方に最適です。

使い方

ステップ 1:


オプションにチェックを入れ、必要なパラメータを入力します (1)。
次に「生成」(2) をクリックすると、正規表現が作成されます (3)。

  • 「で始まる/終わる」: 入力した文字列で始まる/終わる内容を抽出します。ただし入力文字列自体は含みません。

  • 「先頭/末尾を含む」: 「で始まる/終わる」にチェックが入っている場合のみ利用可能です。有効にすると、入力した文字列自体もマッチ結果に含まれます。

  • 「いずれかを含む」: 入力した文字列を含む内容を抽出します。

ステップ 2:


すべての一致結果を取得したい場合は「すべて一致」(4)にチェックを入れてください。

ステップ 3:


プレビューでマッチ結果を確認し、問題なければ「適用」ボタンをクリックして確定し、変更を反映させます。


Version 8.8.0以前

インターフェースは、4つの部分で構成されています。

1.元の文字列

「データを再フォーマット」オプション内で正規表現ツールを開くと、抽出されたテキスト文字列がここに表示されます。

サイドバーメニューからクリックする場合は、入力または貼り付けにより、文字列をソーステキストに直接入力する必要があります。

2.自動生成/参考記事/サンプル

  • 自動生成

    • で始める、で終わる

      • 入力文字列の開始(終端)位置をマッチングします(文字列自体は含みません)。

    • を含めて始める、を含めて終わる

      • 入力文字列の開始(終端)位置をマッチングします(文字列自体も含みます)。

    • を含める

      • 文字列を含む内容を抽出します。

3.正規表現

「自動生成」でパラメータを入力して「生成」をクリックすれば、「正規表現」ボックスで構文が自動的に生成されます。

すべてのテキストにマッチしたい場合は、「正規表現」で「すべてにマッチ」をオンにします。 次に、「マッチング」ボタンをクリックして、左の「マッチした文字列」でターゲットテキストを見つけたかどかを確認します。

4.マッチした文字列

右下の「マッチング」ボタンをクリックしてターゲットテキストが表示されます。

こちらの回答で解決しましたか?