メインコンテンツにスキップ

増分抽出 - 簡単に更新データを取得

1年以上前に更新

注意

増分抽出は、1つの「データを抽出」アクションを持つタスクのみで実行できます。Octoparseは、「データを抽出」アクションが実行されるとすぐにページのURLをスキャンして差異を検出します。

ニュースポータルやフォーラムなどのウェブサイトは、通常、新しいコンテンツが迅速に追加されます。このようなウェブサイトの最新情報を把握するために、Octoparseの増分抽出機能を使用すると、既に抽出済みのページをスキップし、新しいページのみをスクレイピングすることで、より効果的に更新されたデータを抽出することができます。


どんな場合に増分抽出を利用するのか?

  1. 頻繁にウェブサイトから最新のデータを取得する必要がある場合

  2. 新しい情報が既存のウェブページに追加/更新されるのではなく、新しいウェブページとして表示される場合

CNN.comを例に取ると、ほぼリアルタイムでCNN.comからニュースフィードを取得する必要があると想像してみてください。サイトに追加された情報を迅速に抽出するために、スケジュールを設定し、必要な頻度でタスクを実行することが重要です。したがって、上記の基準1を満たしています。

明らかに、CNN.comの各ニュース記事には一意のURLがあり、簡単に特定できます。したがって、上記の基準2も満たされています。

前回の実行で既に取得された記事を再スクレイピングすることは意味がありません。増分抽出を使用することで、まずURLをチェックして以前に抽出されていないことを確認し、本当に新しい記事のみを取得することができます。


増分抽出は、新しいデータをどのように識別するのでしょうか?

増分抽出では、新たに追加されたデータが新しいURLで識別できる場合にのみ機能します。抽出プロセス中に、Octoparseは各URLをチェックして、以前にクロールされたURLかどうかを判断します。URLが前回のクロール時のものと同じである場合、増分抽出を実行する際に自動的にスキップされます。


設定方法

  1. タスク設定に移動します。

  2. 実行設定に進み、「増分抽出」にチェックを入れます。

  3. URL全体を比較する」または「URLの一部を比較する」のいずれかを選択します。

    1. URL全体を比較する
      Octoparseは現在のURLと完全に一致させます。わずかな違いでも、新しいURLとして識別されます。

    2. URLの一部を比較する
      現在のURLを選択したパラメータに基づいて比較するよう指示します。いずれかのパラメータが同じであればスキップし、そうでなければページをスクレイピングします。

  4. 保存」をクリックします。

こちらの回答で解決しましたか?