メインコンテンツにスキップ

レッスン4:タスクをテスト実行する

7か月以上前に更新

タスクの作成が完了し、これから実行します。その前に、もう1つ必要なことがあります。各ステップをクリックして、ワークフローが希望通りに動いているかどうか、またデータを取得できているかどうかを確認します。

下記の参考URLを使って作ったタスクのワークフローを確認します。

一、ワークフローのステップをクリックする

ワークフローのステップは上から下、外側から内側という形となっているので、ワークフローをチェックする時も同じように上から下、外から内へとクリックします。

参考URLを使って作ったタスクのワークフローは下の画像で表示されたように順番通りにチェックしていきます。

  1. Webページを開く」→Webページが正しく読み込まれているかどうかをチェック

  2. ページネーション」→「次のページ」ボタンが正しく指定されているかどうかをチェック

  3. 次のページをクリック」→次のページに移動できるかどうかをチェック

  4. ループアイテム」→アイテムにあるリストが正しいかどうかをチェック

  5. データの抽出」→データが選択され、正しく抽出されているかをチェック

注意:多くのワークフローでは、ページネーションが1つだけ作成されています。ただし、ワークフロー内に複数のページネーションが作成されている場合は、必ず二重確認とテストを行うことをお勧めします。不要なページネーションを削除する場合、そのページネーション内のステップをドラッグして外に移動し、その後で削除します。

すべてのタスクがこのようなワークフローではなく、まったく異なる場合もありますが、チェック方法は大体同じですので、これからチェックしてみましょう。


1.「Webページを開く」をチェックする

ステップをクリックすると、Octoparseの内蔵ブラウザーがWebページを読み込みます。特別な技術が使われていないWebサイトであれば、一般的に正常通りに開けます。ただし、いくつか注意点があります。

1.1 Webサイトが無限スクロールダウンで読み込む場合→「Webの読み込み後」で「スクロールダウン」を設定する必要があります。

1.2 Webページの読み込みに通常より時間がかかる場合→ページのタイムアウトを長くします。

1634527476_1_.jpg


2.「ページネーション」をチェックする

ページネーションをうまく動かせるためには、以下の2点を確認する必要があります:

  • 次のページボタンまたは矢印が正しく認識されていますか。

  • ページ遷移がすべてのページで正常に機能しているか(例えば、ページ1からページ2、ページ2からページ3、ページ3からページ4への遷移が正しく行われますか)。

ページネーションボックスをクリックした後、ウェブページ上でハイライトされた要素が正しい「次のページ」ボタンであるか確認してください。正しい次のページボタンが設定されていない場合は、対応するXPathを手動で修正する必要があります。


3.「次のページをクリック」をチェックする

「次のページをクリック 」をクリックすると、「ページネーション」で指定された「次へ」ボタンをクリックします。 このような作業を回数繰り返して、ページネーションが機能できているかどうかを確認します。

ページネーションがうまく動かない場合は、「次へ」ボタンを正しく指定していないということです。その場合、ステップ2のチュートリアルに参考し、「次へ」ボタンを指定するXPathを手動で修正する必要があります。

  1. 「次へ」ボタンを指定するXPathの書き方についておわからない方にはこちらの記事をご参照ください。

2. ページネーションがうまくいかない場合の解決方法は下記の記事をご参照ください。


4. 「ループアイテム」をチェックする

「ループアイテム」では、基本的に、必要なアイテムがすべて正しく選択されているかどうかを確認します。

中にあるアイテムをクリックしたら、内臓ブラウザーが希望先のWebページに移動します。選択されたアイテムがハイライトで表示されます。

または、「ループアイテムを切り替える」アイコンをクリックしてアイテムのリストをクリックして、アイテムが正しく選択されているかどうかを確認します。

注意:テスト実行時にリストが完全でない場合は、以下のトラブルシューティングのアイデアを確認してください。


5.「データを抽出」をチェックする

最後に、データが抽出されているかどうかを確認します。

「データを抽出」をクリックしたら、データプレビューでデータがあっているかどうかを確認します。

注意:空白のフィールドが表示されたり、データが間違っていたり場合の解決方法は下記の記事をご参照ください。


二、タスクを実行する


タスクワークフローの各ステップのチェックが完了できたら、ローカルでタスクを実行します。「保存」と「実行」をそれぞれクリックして、「ローカル抽出」の下にある「通常モード」を選択します。

ローカルではデータを取得する実況を見ることができます。

  • 収集画面:内蔵ブラウザを開いてスクレイピングのプロセスを観察します。

  • タスク概要:現在のプロセスの開始時刻と終了時刻を確認します。

  • 一時停止:ウェブページでのログインやCAPTCHAの処理を行うためにプロセスを一時停止します。

  • 停止:タスクを完全停止させて、スクレイピングされたデータをプレビューします。

エラーログ:Octoparseはスクレイピング中に実行されるすべてのアクションを表示します。また、リソースログやエラーログを強調表示するオプションを提供します。

  • リソース使用状況の強調表示: CAPTCHAが正常に解決されたかどうかを確認し、クレジットの使用状況を追跡します。

  • エラーログの強調表示: スクレイピング中に発生したエラーを特定します。


必要なデータが取得できない理由については、下記の記事をご参照ください。

上記の記事がお役に立てなければ、カスタマーサポートまで具体的な原因をお問い合わせください。

タスクの設定が確認できたので、これからタスクを実行してデータを取得してみましょう。


次へ

レッスン5:データを取得する

こちらの回答で解決しましたか?