正規表現(RegExp)は、文字列内で文字の組み合わせを照合するために用いられるパターンです。「正規表現」を利用すれば、長文中から簡単に見つけたい文字列を検索することができます。
任意の文字列を正規表現に検索できるため、テキストから部分文字列を探すとか、部分的に文字列を置き換えるとか、目的の文字列かどうか判定する機能も実行できます。
ここ で正規表現の基本知識を知ることができます。
Octoparse正規表現ツールとは?
Octoparse正規表現ツールは、さまざまな条件を設定して、正規表現を自動的に生成するツールです。正規表現の作成方法についてほとんど知らない場合、Octoparse正規表現ツールを試してみてください。
正規表現ツールにアクセス方法
方法1:「データを再フォーマット」→正規表現ツールを試す
カスタマイズしたい「データフィールド」の右上のボタンをクリックします。
「データを再フォーマット」をクリックします。
「ステップを追加」をクリックして、「正規表現による置換」または「正規表現によるマッチング」をクリックします。
方法2:サイドバー → 正規表現ジェネレーター
・サイドバーの「ツール」ボタンをクリックして、正規表現ジェネレーターをクリックします。
正規表現ツールのインターフェース
Version 8.8.0以降
※最新バージョンへアップグレード可能です
1. よく使う正規表現
あらかじめ用意された正規表現のライブラリです。よく使われるパターン(例:メールアドレス、電話番号、URL、日付フォーマットなど)をブラウズまたは検索して選択できます。
自分で一から作成しなくても、すぐに強力な正規表現を適用できる最速の方法です。
2. AIで生成
複雑な正規表現を書くのに疲れましたか?
AI正規表現ジェネレーターを使えば、抽出したい内容を例示するだけで、すぐに正規表現を生成できます。
使い方
整形したいデータフィールドを見つけ、ほかのオプション >> データを再フォーマット をクリックします。
対象のデータフィールドに「正規表現によるマッチング」ステップをワークフローに追加します。
「正規表現がわからない? ツールやAl補助を使ってみましょう」をクリックします。
各テスト文字列に対して、マッチさせたい部分だけを手動でハイライトします(例:
Suffolk County, NY
の中でNY
を選択)。「生成」をクリックすると、AIが例を分析し、正規表現パターンを提案します。
「テスト」をクリックして、パターンがすべてのサンプルに対して正しく機能するか確認します。
「適用して保存」をクリックし、パターンに名前を付けて確定します。
入出力例
入力文字列:
Suffolk County, NY
ハイライト:
NY
生成される正規表現: 州コード(例:
NY
,NC
)にマッチするパターンを作成
3. ルール生成
オプションを選択し、パラメータを入力することで、自分専用の正規表現を簡単に作成できるフォーム形式のインターフェースを提供します。
選択内容は自動的に正規表現の構文に変換されるため、学習中の方やビジュアル的に操作したい方に最適です。
使い方
ステップ 1:
オプションにチェックを入れ、必要なパラメータを入力します (1)。
次に「生成」(2) をクリックすると、正規表現が作成されます (3)。
「で始まる/終わる」: 入力した文字列で始まる/終わる内容を抽出します。ただし入力文字列自体は含みません。
「先頭/末尾を含む」: 「で始まる/終わる」にチェックが入っている場合のみ利用可能です。有効にすると、入力した文字列自体もマッチ結果に含まれます。
「いずれかを含む」: 入力した文字列を含む内容を抽出します。
ステップ 2:
すべての一致結果を取得したい場合は「すべて一致」(4)にチェックを入れてください。
ステップ 3:
プレビューでマッチ結果を確認し、問題なければ「適用」ボタンをクリックして確定し、変更を反映させます。
Version 8.8.0以前
インターフェースは、4つの部分で構成されています。
1.元の文字列
「データを再フォーマット」オプション内で正規表現ツールを開くと、抽出されたテキスト文字列がここに表示されます。
サイドバーメニューからクリックする場合は、入力または貼り付けにより、文字列をソーステキストに直接入力する必要があります。
2.自動生成/参考記事/サンプル
自動生成
で始める、で終わる
入力文字列の開始(終端)位置をマッチングします(文字列自体は含みません)。
を含めて始める、を含めて終わる
入力文字列の開始(終端)位置をマッチングします(文字列自体も含みます)。
を含める
文字列を含む内容を抽出します。
3.正規表現
「自動生成」でパラメータを入力して「生成」をクリックすれば、「正規表現」ボックスで構文が自動的に生成されます。
すべてのテキストにマッチしたい場合は、「正規表現」で「すべてにマッチ」をオンにします。 次に、「マッチング」ボタンをクリックして、左の「マッチした文字列」でターゲットテキストを見つけたかどかを確認します。
4.マッチした文字列
右下の「マッチング」ボタンをクリックしてターゲットテキストが表示されます。