「データを抽出」とは何ですか?
「データを抽出」は、必要なデータを取得するためにタスクを設定する際に必要なステップです。このステップの中で、必要なデータフィールドを見つけることができます。このステップでは、データのクリーニングやXPathの変更、データフィールドの順序の変更、コピー、削除などが行えます。このステップがないと、タスクを実行することができません。
「データを抽出」をワークフローに追加する方法は?
「データを抽出」をワークフローに追加する方法は2つあります。
1. ウェブページ上の要素をクリックして自動生成する方法(最も一般的な方法)
データをキャプチャするために、まず対象の要素をクリックします。その後、操作提案に表示される「データ抽出」の下部にあるオプションをクリックすると、「データを抽出」アクションがワークフローに表示されます。
オプションは以下のようになります:
テキスト
リンク
テキスト+リンク
InnerHtml/OuterHtml
2. ワークフローから追加する方法
ワークフロー上でカーソルを合わせると、アイコンが表示されます。アイコンをクリックしてドロップダウンオプションを表示し、「データを抽出」を選択してこのステップをワークフローに追加します。
アクションの設定
データフィールドに関連するさらなる設定を調整するには、ワークフロー上の「データを抽出」アクションをクリックし、操作提案を下部に表示します。3つの主要な機能があります。
「基本設定」セクションでは、データを抽出アクションがループアイテム内にある場合に「ループ内のデータを抽出する」というオプションが見つかります。
「詳細設定」セクションでは、「実行前に数秒を待機」および「トリガー」というオプションが見つかります。
1. ループ内でデータを抽出する
このオプションは、データの抽出がループアイテム内にある場合にのみ表示されます。通常、データを抽出する際に詳細ページにアクセスせずに、一覧ページから直接データを取得する場合に使われます。
以下は、一覧ページの例です。
一覧結果ページからデータを抽出する方法について詳しくは、以下のガイドを参照してください:リスト一覧ページからデータを抽出する
2. トリガー
トリガーは、特定の条件に基づいてデータをスクレイピングする場合に使用されます。
例えば、ユーザー名のフィールドが空白ではなく、この行のデータを抽出したい場合、トリガーを使用してそれを実現することができます。トリガーの詳細については、こちらをご覧ください。
3. 実行前の待機時間(待機時間を追加)
このオプションを使用すると、このアクションを実行する前に待機時間を追加することができます。異なるウェブサイトでは、データを読み込むための待機時間設定が異なる場合があります。そのため、ウェブページが読み込まれるのに十分な時間を与えるために、待機時間や待機条件を追加する必要がある場合があります。
異なる使用例については、以下のガイドを参照してください:実行前の待機時間を設定する
4. データフィールドを調整する
データプレビューの部分にデータフィールドの詳細が表示されます。フィールド名をダブルクリックすることで、フィールドの名前を変更したり、フィールドを削除したり、移動したり、データをフォーマットしたりするなどの操作ができます。また、事前に定義されたリストから抽出時間や現在のページのURLなどのフィールドを追加することもできます。
また、出力結果で特定のデータフィールドが正しく位置していない場合は、そのデータフィールドのXPathをカスタマイズすることもできます。
これらのアイコンがどのような意味を持つのかをよりよく理解するために、以下の詳細をご確認ください。
以上は事前定義されたリストからカスタムデータフィールドを追加するアイコンです。
以上はデータフィールドに特定のデータファイルをインポートするアイコンです。(Octoparse抽出設定ファイル(*.oec))
以上はデータフィールドから特定のデータファイルをエクスポートするアイコンです。(Octoparse抽出設定ファイル(*.oec))
横向き表示と縦向き表示
縦向き表示に切り替えると、すべてのフィールドのXPathを簡単に変更したり、各フィールドの前のチェックボックスを使用して複数のフィールドに操作を行ったりすることができます。
以上は抽出したデータから重複を削除するアイコンです。
ほかのオプション:以上はデータのさらなる変更を行うオプションのアイコンです。
データタイプを設定:ページ要素からスクレイプする必要のある情報(テキスト、HTML、属性値、URLなど)を選択するアイコンです。
データを再フォーマット:データの出力を必要な形式に変更するアイコンです。(接頭辞や接尾辞の追加、時間の変換、置換など)
同一フィールドでの複数行のマージ:他のループアイテムから同じフィールドのデータを結合するアイコンです。
削除:現在のデータフィールドを削除するアイコンです。
コピー:特定のデータフィールドを複製するアイコンです。