メインコンテンツにスキップ

クラウド抽出から空白のフィールドが取得される理由

1年以上前に更新

一部のケースでは、ローカル抽出では完璧に機能するのに、クラウド抽出では空白のフィールドが抽出されることがあります。このチュートリアルでは、この問題の原因と解決方法について紹介します。

1. 速すぎるため一部の要素がスキップされる


「定数リスト」、「URLリスト」、「テキストリスト」のループモードを持つタスクは分割テーブルです。メインのタスクは複数のクラウドサーバーで同時に実行されるため、タスクの各ステップは非常に高速に動作します。そのため、次のステップに進む前に一部のページが完全に読み込まれない場合があります。

クラウド上でウェブページが完全に読み込まれるようにするためには、次の方法を試してみることができます:

  • ウェブページを開く」ステップのタイムアウトを増やす

ワークフローで作成されたすべてのステップには待機時間を設定することができます。データを抽出するアクションの待機時間を設定することをおすすめします。

  • 実行する前に指定要素を設定する

このステップでは、特定の要素が見つかった後に抽出が開始されることが保証されます。希望のフィールドから任意の要素のXPathを選択できます。

xpath に詳しくない場合、設定した xpath が異なるページで正確に目的のデータにマッチすることを保証できないため、この機能を慎重に使用してください。

最初に「データを抽出」ステップをクリックし、次にXPathを使用して要素を入力し、「実行前に数秒を待機」を30秒に変更します。

ヒント:ページ上の特定の要素のXPathを取得する方法は次のとおりです:

  • データを抽出」をクリックします。

  • 縦向きプレビューに切り替えると、各フィールドの相対XPathが表示されます。


2. ターゲットのウェブサイトは複数の地域で提供されている

複数の地域で提供されるウェブサイトは、異なる国の訪問者に提供されるコンテンツに対して異なるページ構造を持つ場合があります。タスクがクラウドで実行される場合、アメリカを拠点とするIPを使用して実行されます。この場合、アメリカ外のウェブサイトを対象とするタスクでは、クラウドで開かれたウェブサイトには存在しないデータがスキップされることがあります。

ウェブサイトが複数地域を対象としているかどうかを特定するためには、次の方法があります:

  • ローカル抽出でタスクをテストします。クラウド抽出と同様にデータが欠落しない場合、ウェブサイトはおそらく複数地域を対象としています。この場合、ターゲットのコンテンツは自分のIPでウェブサイトを開くとのみ見つけることができるため、データを取得するためにローカル抽出をおすすめします。

  • ページ全体の外部HTMLを抽出します。抽出したHTMLを確認することで、ソースコード内の「アクセスが拒否されました」といったプロンプトによってデータが欠落した原因を特定することができます。

以下は、クラウドでのエラーチェックに関する関連チュートリアルです:ローカル抽出が動作しているのに、なぜクラウド抽出にデータがないのですか?

こちらの回答で解決しましたか?