メインコンテンツにスキップ

Target.comから製品情報をスクレイピング

10か月以上前に更新

こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください

このチュートリアルでは、Target.comから製品名、価格、ブランドなどの製品情報をスクレイピングする方法を紹介します。

2022-05-26_18-05-06.jpg

手順を進めるには、以下のURLをご利用ください:

主な手順は右側のメニューに表示されています。[タスクファイルをこちらからダウンロード]


1.「Webページを開く」を作成 - 目標ページを開くため

  • サンプルURLをホーム画面の検索ボックスに入力し、「スタート」をクリックします。

タスクを開始した後、「Webページを開く」というステップが表示されます。

  • Webページを開く」に行きます。

  • 詳細設定」をクリックします。

  • ページが読み込まれた後に「スクロールダウン」にチェックを入れます。

  • スクロールを「1画面ずつスクロール」に設定します。

  • 実行間隔」を3秒、「スクロール回数」を15回に設定します。


2. クッキーを保存 - 製品情報を読み込むため

製品情報はTarget.comに特定の店舗がある場合のみ表示されるため、店舗を選択し、その選択をOctoparseに保存する必要があります。

  • ブラウザモードをオンにします。

  • Garden City」をクリックします。

  • 郵便番号を入力して近くの店舗を探し、必要な店舗を選択します。

  • 特定のCookieを使用」にチェックを入れ、「該当ページのCookieを取得する」をクリックし、「保存」を選択します。

  • ブラウザモードをオフにします。


3. ウェブページを自動検出 - ワークフローを作成

  • ウェブページのデータを自動検出」をクリックし、終了まで待ちます。

  • スクロールダウンを設定する」のチェックを外します。

  • ワークフローを生成」をクリックします。

ワークフローを作成した後、データプレビューに移動して、フィールドが適切に表示されているか確認できます。

  • 不要なデータフィールドは、「ほかのオプション」をクリックして直接削除できます。

  • ヘッダーをダブルクリックして、データフィールドの名前が変更できます。


4. ページネーションの設定を変更 - ウェブページ上のコンテンツを完全に読み込むため

  • ワークフローで「次のページをクリック」を選択し、「詳細設定」をクリックします。

  • ページが読み込まれた後に「スクロールダウン」にチェックを入れます。

  • スクロールタイプを「1画面ずつスクロール」に選択します。

  • 実行間隔」を3秒、「スクロール回数」を15回に設定します。

  • ワークフローで「ページネーション」を選択します。

  • XPathを入力します: //button[@data-test='next' and not(@disabled)]


5. タスクを実行 - 目標データを収集

  • 右上の「保存」をクリックしてタスクを保存します。

  • その隣の「実行」をクリックし、実行タスクのウィンドウが表示されるのを待ちます。

  • ローカル収集」セクションの下にある「通常モード」を選択して、ローカルデバイスでタスクを実行します。

  • タスクの実行が終了まで待ちます。


こちらがローカル実行からのサンプル出力です:

こちらの回答で解決しましたか?