メインコンテンツにスキップ

eBayから商品情報をスクレイピング

12か月以上前に更新

こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。

eBayやAmazonのようなオンラインショップからのWebスクレイピングは、価格、特徴、商品説明などを簡単に比較できる重要なデータソースとなっています。

このチュートリアルでは、eBayから商品データをスクレイピングする方法をご紹介します。

また、Octoparseのメイン画面の「テンプレートギャラリー」に移動し、Google 詳細検索用の使い方が準備されたeBayテンプレートを直接使用することで、時間を節約することもできます。テンプレートタスクの詳細については、こちらをご覧ください。

もし最初からタスクを構築する方法を知りたい場合は、以下のチュートリアルを読み続けてください。ここでは、Octoparseを使って商品詳細ページから名前、状態、価格、その他の情報をスクレイピングする方法について説明します。

チュートリアルに従うためには、こちらのURLを使用することをお勧めします:

「デジタルカメラ」のeBayの商品情報をスクレイピングします。右側のメニューで主要な手順が確認できます。[タスクファイルをダウンロード]


1.「ウェブページへ移動」を作成-ターゲットウェブサイトを開くため

  • ホーム画面の検索ボックスにターゲットURLを入力し、「スタート」をクリックします。


2.ウェブページデータの自動検出 - ワークフローを作成するため

  • ウェブページのデータを自動検出」をクリックし、検出が完了するまで待ちます。

  • 不要なフィールドを削除します。

  • スクロールダウンを設定する」を解除します。

  • 操作提案で「ワークフローを生成」を選択します。

これで、以下のワークフローが表示されます:

必要なデータがすべてリスティングページから取得できる場合は、ここで停止し、【6.「タスクを実行開始」- タスクを実行してデータを取得】からタスクを実行してデータを取得できます。各商品の詳細ページに移動してさらに情報を取得したい場合は、以下の手順に従ってください。


3.「サブページのURLを選択」 - 詳細ページからデータをスクレイピング

  • サブページのURLを選択」を選びます。

  • ドロップダウンメニューから「タイトルURL」を選択します。

  • 保存」を選択します。

Octoparseは自動的に最初の商品の詳細ページに移動します。


4.「データを収集」 - 商品詳細ページからデータを収集ため

  • 抽出したい要素をクリックし、「テキスト」を選択します。

  • 必要に応じて、フィールド名をダブルクリックして名前を変更します。

ヒント: どのようなデータをスクレイピングできるかについては、以下のチュートリアルを確認してください:


5.データフィールドのXPathを修正して、データを正確にスクレイピング

一部のデータフィールド(例えば、MPNやUPCなど)がすべての製品ページに表示されない場合や、ページごとにフィールドの位置が異なる場合があります。そのため、XPathを修正してデータスクレイピングをより正確に行う必要があるかもしれません。心配しないでください! よく使われるXPathをいくつか用意していますので、以下の要素XPathをそのまま使用することができます。

  • データフィールドの横にある「ほかのオプション」ボタンをクリックします。

  • 要素のXPathを設定」を選択します。

  • 修正したXPathで置き換えます。

    • MPN: //span[text()='MPN']/../../../../div[2]/div

    • UPC: //span[text()='UPC']/../../../../div[2]/div

ヒント: 必要に応じて他のフィールド用のXPathを書くために、以下のXPathチュートリアルを確認してください。


6.「タスクを実行開始」- タスクを実行してデータを取得

  • 右上にある「保存」をクリックしてタスクを保存します。

  • 左上の「実行」をクリックします。

  • ローカル収集」を選択するか、「クラウド収集」を選択します(プレミアムユーザーのみ)。

こちらがローカル実行からのサンプル出力です。

こちらの回答で解決しましたか?