Octoparse

増分抽出は、1つの「データを抽出」アクションを持つタスクのみで実行できます。Octoparseは、「データを抽出」アクションが実行されるとすぐにページのURLをスキャンして差異を検出します。

ニュースポータルやフォーラムなどのウェブサイトは、通常、新しいコンテンツが迅速に追加されます。このようなウェブサイトの最新情報を把握するために、Octoparseの増分抽出機能を使用すると、既に抽出済みのページをスキップし、新しいページのみをスクレイピングすることで、より効果的に更新されたデータを抽出することができます。

___________________________________________________________

どんな場合に増分抽出を利用するのか？

頻繁にウェブサイトから最新のデータを取得する必要がある場合

新しい情報が既存のウェブページに追加/更新されるのではなく、新しいウェブページとして表示される場合

1. 頻繁にウェブサイトから最新のデータを取得する必要がある場合
2. 新しい情報が既存のウェブページに追加/更新されるのではなく、新しいウェブページとして表示される場合

CNN.comを例に取ると、ほぼリアルタイムでCNN.comからニュースフィードを取得する必要があると想像してみてください。サイトに追加された情報を迅速に抽出するために、スケジュールを設定し、必要な頻度でタスクを実行することが重要です。したがって、上記の基準1を満たしています。

明らかに、CNN.comの各ニュース記事には一意のURLがあり、簡単に特定できます。したがって、上記の基準2も満たされています。

前回の実行で既に取得された記事を再スクレイピングすることは意味がありません。増分抽出を使用することで、まずURLをチェックして以前に抽出されていないことを確認し、本当に新しい記事のみを取得することができます。

増分抽出は、新しいデータをどのように識別するのでしょうか？

増分抽出では、新たに追加されたデータが新しいURLで識別できる場合にのみ機能します。抽出プロセス中に、Octoparseは各URLをチェックして、以前にクロールされたURLかどうかを判断します。URLが前回のクロール時のものと同じである場合、増分抽出を実行する際に自動的にスキップされます。

タスク設定に移動します。

実行設定に進み、「増分抽出」にチェックを入れます。

「URL全体を比較する」または「URLの一部を比較する」のいずれかを選択します。

1. URL全体を比較する Octoparseは現在のURLと完全に一致させます。わずかな違いでも、新しいURLとして識別されます。
2. URLの一部を比較する 現在のURLを選択したパラメータに基づいて比較するよう指示します。いずれかのパラメータが同じであればスキップし、そうでなければページをスクレイピングします。

「保存」をクリックします。

1. タスク設定に移動します。
 
 
 
2. 実行設定に進み、「増分抽出」にチェックを入れます。
3. 「URL全体を比較する」または「URLの一部を比較する」のいずれかを選択します。
 1. URL全体を比較する Octoparseは現在のURLと完全に一致させます。わずかな違いでも、新しいURLとして識別されます。
 2. URLの一部を比較する 現在のURLを選択したパラメータに基づいて比較するよう指示します。いずれかのパラメータが同じであればスキップし、そうでなければページをスクレイピングします。
4. 「保存」をクリックします。

増分抽出 - 簡単に更新データを取得

Go to Octoparse.com

Octoparse DE

Octoparse FR

Octoparse ES

Octoparse JP

ダウンロード

ブログ

API Docs

Intercom のサポートやコミュニティのエキスパートに質問し、答えてもらいましょう。

メッセンジャーを介して開始した会話はこちらに表示されます。

作成されている会話はありません

別のキーワードを使用するか、入力ミスがないか確認してみてください。

別のキーワードやフィルタを使用してみてください。

会話が見つかりません

タイトル

このサイトでは、当社および当社の第三者ベンダーが、当社のクッキーポリシーに記載された目的のために、お客様とサイトでのやりとり（閲覧したコンテンツ、カーソルの動き、画面の記録、チャット内容を含む）に関する個人情報を監視および記録するために、クッキーやその他の技術を使用しています。当サイトを引き続きご利用いただくことで、{websiteTermsLink}、{privacyPolicyLink}および{cookiePolicyLink}に同意したことになります。

このサイトでは、サイトの運営に必要不可欠なCookieおよび類似のテクノロジー（以下「Cookie」）を使用します。また、当社とパートナーは、サイトのパフォーマンス分析、機能、広告、ソーシャルメディア機能を有効にするために、追加のクッキーを設定したいと考えています。詳細については、{cookiePolicyLink}をご覧ください。クッキーの設定は、[クッキー設定] で変更することができます。

当社では、ウェブサイトの機能維持、分析、そして広告表示のためにクッキーを使用しています。オプションで必要に応じて希望するクッキーを有効または無効にできます。詳細については、{cookiePolicyLink}をご覧ください。

広告クッキーは、さまざまなブラウザやデバイスで利用されているサイト、コミュニケーション、その他のオンラインサービスの利用状況に関する情報を長期にわたって収集するために、広告パートナーによって設定されます。ここでの情報を使用して、利用者が興味を持つと思われるオンライン広告を表示し、広告のパフォーマンスを測定します。ソーシャルメディアクッキーは、ソーシャルメディアプラットフォームでコンテンツを共有するために当該のソーシャルメディアプラットフォームによって設定されます。また、他のオンラインサービスでの活動情報を追跡し、プライバシーポリシーに記載されている目的で使用することができます。

これらのクッキーにより、ウェブサイトは強化された機能とパーソナライズを提供できるようになります。当社または当社のページにサービスを追加したサードパーティプロバイダーによって設定される場合があり、許可しない場合、これらのサービスの一部またはすべてが正常に機能しない可能性があります。

ウェブサイトが機能するために不可欠なクッキーであり、当社のシステムで無効にすることはできません。

これらのクッキーを使用することで、訪問数やトラフィックソースをカウントし、サイトのパフォーマンスを測定および改善できます。これにより、どのページが最も人気があり、どのページが最も人気がないかを把握し、訪問者がサイト内をどのように移動しているかを確認できます。

お客様には、個人情報の販売をオプトアウトする権利があります。お客様のデータの使用方法について詳しくは、{cookiePolicyLink}をご覧ください。

お客様のプライバシーに関する選択

当社では、お客様の体験を向上させるためにクッキーを使用しています。クッキーの設定は以下でカスタマイズすることができます。詳細については、{cookiePolicyLink}をご覧ください。

クッキー設定

ヘルプセンターは空です

エラーが発生しました。そのページは存在しません。

ホーム

検索結果

がっかり

無表情

笑顔

考えています...

ソースを検索しています...

分析しています...

メッセンジャー経由で送信されたチケット、または会話内でサポートエージェントによって送信されたチケットがここに表示されます。

お客様が作成したチケットはありません

チケットが見つかりませんでした

御社に関連するすべてのチケットと会話の進捗状況を追跡

カスタマーポータル。

御社に関連するすべてのチケットの進捗状況を追跡

チケットポータル。

{assigneeName}さんがこちらに対応中です！

{assigneeName}さんがチケットを完了しました

{assigneeName}さんが近日中に対応する予定です

{assigneeName}さんが詳細情報を必要としています

あなたのチケットは完了しました

チケット

チケットポータルへのアクセス権限がありません

検索

検索をスキップしてください。あなたが何をしようとしているのかを説明し、根拠に基づいた回答を得てください。

このトピックに関する記事やガイドをご覧ください。

ワークスペースを作成し、一緒に働く人たちを招待しましょう。

アカウントを設定してください

最初のワークフローを作成し、それが最初から最後まで実行される様子を見てみましょう。

発送する

チームがすでに使用しているツールと連携して、データを取り込みましょう。

スタックを接続してください

製品内の各機能がどこにあるかをすばやく把握できるツアーです。

60秒で{appName}

このプロトタイプデモは、あなたが「 {title} 」を読んでいることを認識しています。現在の記事に戻ることはできますが、本番環境向けの記事対応 Fin 契約の実装は、まだ今後の課題となっています。

記事対応プロトタイプ版回答

すでに招待についてお尋ねいただいているため、このプロトタイプデモには次の機能を追加できます：各招待を送信する前に役割セレクターを使用して、チームメイトの担当業務に応じてアクセスを制限してください。

プロトタイプの役割制限に関するフォローアップ

このプロトタイプデモでは、まずワークスペースのプロフィールから始め、アクセスが必要なチームメンバーを招待し、その後使用している統合を接続することをお勧めします。

プロトタイプの利用開始に関する回答

このプロトタイプデモでは、統合はワークスペース設定から構成します。統合を選択し、アカウントを接続して、有効になっている権限を確認します。

統合機能プロトタイプ版回答

このプロトタイプデモでは、ワークスペースの設定からチームメイトを招待し、招待を送信する前に、各チームメイトに必要なアクセス権を選択してください。

チーム招待プロトタイプ版回答

このプロトタイプデモには、その質問に対するスクリプト化された回答はまだ含まれていません。チームの招待方法やソース記事の開き方について試しに尋ねてみてください。本番環境の Fin API は呼び出されませんでした。

プロトタイプ版の回答は利用できません

このページを開いています。これについて何でも聞いてください。ドキュメントをもとにお答えします。

増分抽出 - 簡単に更新データを取得

どんな場合に増分抽出を利用するのか？

増分抽出は、新しいデータをどのように識別するのでしょうか？

設定方法