こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください
。
このチュートリアルでは、Target.comから製品名、価格、ブランドなどの製品情報をスクレイピングする方法を紹介します。
手順を進めるには、以下のURLをご利用ください:
主な手順は右側のメニューに表示されています。[タスクファイルをこちらからダウンロード]
1.「Webページを開く」を作成 - 目標ページを開くため
サンプルURLをホーム画面の検索ボックスに入力し、「スタート」をクリックします。
タスクを開始した後、「Webページを開く」というステップが表示されます。
「Webページを開く」に行きます。
「詳細設定」をクリックします。
ページが読み込まれた後に「スクロールダウン」にチェックを入れます。
スクロールを「1画面ずつスクロール」に設定します。
「実行間隔」を3秒、「スクロール回数」を15回に設定します。
2. クッキーを保存 - 製品情報を読み込むため
製品情報はTarget.comに特定の店舗がある場合のみ表示されるため、店舗を選択し、その選択をOctoparseに保存する必要があります。
ブラウザモードをオンにします。
「Garden City」をクリックします。
郵便番号を入力して近くの店舗を探し、必要な店舗を選択します。
「特定のCookieを使用」にチェックを入れ、「該当ページのCookieを取得する」をクリックし、「保存」を選択します。
ブラウザモードをオフにします。
3. ウェブページを自動検出 - ワークフローを作成
「ウェブページのデータを自動検出」をクリックし、終了まで待ちます。
「スクロールダウンを設定する」のチェックを外します。
「ワークフローを生成」をクリックします。
ワークフローを作成した後、データプレビューに移動して、フィールドが適切に表示されているか確認できます。
不要なデータフィールドは、「ほかのオプション」をクリックして直接削除できます。
ヘッダーをダブルクリックして、データフィールドの名前が変更できます。
4. ページネーションの設定を変更 - ウェブページ上のコンテンツを完全に読み込むため
ワークフローで「次のページをクリック」を選択し、「詳細設定」をクリックします。
ページが読み込まれた後に「スクロールダウン」にチェックを入れます。
スクロールタイプを「1画面ずつスクロール」に選択します。
「実行間隔」を3秒、「スクロール回数」を15回に設定します。
ワークフローで「ページネーション」を選択します。
XPathを入力します: //button[@data-test='next' and not(@disabled)]
5. タスクを実行 - 目標データを収集
右上の「保存」をクリックしてタスクを保存します。
その隣の「実行」をクリックし、実行タスクのウィンドウが表示されるのを待ちます。
「ローカル収集」セクションの下にある「通常モード」を選択して、ローカルデバイスでタスクを実行します。
タスクの実行が終了まで待ちます。
こちらがローカル実行からのサンプル出力です: