注意
増分抽出は、1つの「データを抽出」アクションを持つタスクのみで実行できます。Octoparseは、「データを抽出」アクションが実行されるとすぐにページのURLをスキャンして差異を検出します。
ニュースポータルやフォーラムなどのウェブサイトは、通常、新しいコンテンツが迅速に追加されます。このようなウェブサイトの最新情報を把握するために、Octoparseの増分抽出機能を使用すると、既に抽出済みのページをスキップし、新しいページのみをスクレイピングすることで、より効果的に更新されたデータを抽出することができます。
どんな場合に増分抽出を利用するのか?
頻繁にウェブサイトから最新のデータを取得する必要がある場合
新しい情報が既存のウェブページに追加/更新されるのではなく、新しいウェブページとして表示される場合
CNN.comを例に取ると、ほぼリアルタイムでCNN.comからニュースフィードを取得する必要があると想像してみてください。サイトに追加された情報を迅速に抽出するために、スケジュールを設定し、必要な頻度でタスクを実行することが重要です。したがって、上記の基準1を満たしています。
明らかに、CNN.comの各ニュース記事には一意のURLがあり、簡単に特定できます。したがって、上記の基準2も満たされています。
前回の実行で既に取得された記事を再スクレイピングすることは意味がありません。増分抽出を使用することで、まずURLをチェックして以前に抽出されていないことを確認し、本当に新しい記事のみを取得することができます。
増分抽出は、新しいデータをどのように識別するのでしょうか?
増分抽出では、新たに追加されたデータが新しいURLで識別できる場合にのみ機能します。抽出プロセス中に、Octoparseは各URLをチェックして、以前にクロールされたURLかどうかを判断します。URLが前回のクロール時のものと同じである場合、増分抽出を実行する際に自動的にスキップされます。