メインコンテンツにスキップ

クラウド抽出にデータ欠落の対応方法

1年以上前に更新

こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。

データの欠落は、以下のような原因が考えられます。

1. タスクは分割可能で動作速度が速過ぎると、一部のデータがスキップされる可能性がある

「定数リスト」、「URLリスト」、「テキストリスト」のループモードを持つタスクは、Octoparseでは分割可能です。メインタスクはサブタスクに分割され、複数のクラウドサーバで同時に実行されます。ですので、この場合、タスクの各ステップは非常に高速で動作します。そのため、次のステップに移動する前に、すべてのページが完全に読み込まれる可能性が低くなります。したがって、一部のデータがスキップされる可能性があるのです。

Webページが完全にクラウドに読み込まれるようにするには、

1. 「Webページを開く」ステップのタイムアウト時間を増やします。

mceclip0.png

2. 「データを抽出」ステップの待機時間を増やします。

mceclip1.png

2. 対象webサイトは多地域である

多地域のウェブサイトは、異なる国の訪問者に向けて、異なるページ構成やコンテンツを提供することができます。クラウドサーバーに変更がない場合、タスクは米国サーバーで実行されます(必要であれば、デフォルトサーバーを日本リージョンに変更するよう連絡することも可能です)。この場合、クラウド上で開くウェブサイトが日本ではなく、米国地域のものである可能性があります。

webサイトが多地域であるかどうかを確認するには、

1. ローカル抽出でタスクをテストします。

クラウド抽出のようにデータが欠落していない場合、webサイトはたぶん多地域です。この場合はローカル抽出を行い、データを取得することをお勧めします。

2. ページ全体の外側HTMLを抽出します。

抽出されたHTMLをチェックすることで、ソースコード内に「Access denied」のようなデータ失われた原因を見つけることができます。

こちらの回答で解決しましたか?