こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
eBayやAmazonのようなオンラインショップからのWebスクレイピングは、価格、特徴、商品説明などを簡単に比較できる重要なデータソースとなっています。
このチュートリアルでは、eBayから商品データをスクレイピングする方法をご紹介します。
また、Octoparseのメイン画面の「テンプレートギャラリー」に移動し、Google 詳細検索用の使い方が準備されたeBayテンプレートを直接使用することで、時間を節約することもできます。テンプレートタスクの詳細については、こちらをご覧ください。
もし最初からタスクを構築する方法を知りたい場合は、以下のチュートリアルを読み続けてください。ここでは、Octoparseを使って商品詳細ページから名前、状態、価格、その他の情報をスクレイピングする方法について説明します。
チュートリアルに従うためには、こちらのURLを使用することをお勧めします:
「デジタルカメラ」のeBayの商品情報をスクレイピングします。右側のメニューで主要な手順が確認できます。[タスクファイルをダウンロード]
1.「ウェブページへ移動」を作成-ターゲットウェブサイトを開くため
ホーム画面の検索ボックスにターゲットURLを入力し、「スタート」をクリックします。
2.ウェブページデータの自動検出 - ワークフローを作成するため
「ウェブページのデータを自動検出」をクリックし、検出が完了するまで待ちます。
不要なフィールドを削除します。
「スクロールダウンを設定する」を解除します。
操作提案で「ワークフローを生成」を選択します。
これで、以下のワークフローが表示されます:
必要なデータがすべてリスティングページから取得できる場合は、ここで停止し、【6.「タスクを実行開始」- タスクを実行してデータを取得】からタスクを実行してデータを取得できます。各商品の詳細ページに移動してさらに情報を取得したい場合は、以下の手順に従ってください。
3.「サブページのURLを選択」 - 詳細ページからデータをスクレイピング
「サブページのURLを選択」を選びます。
ドロップダウンメニューから「タイトルURL」を選択します。
「保存」を選択します。
Octoparseは自動的に最初の商品の詳細ページに移動します。
4.「データを収集」 - 商品詳細ページからデータを収集ため
抽出したい要素をクリックし、「テキスト」を選択します。
必要に応じて、フィールド名をダブルクリックして名前を変更します。
5.データフィールドのXPathを修正して、データを正確にスクレイピング
一部のデータフィールド(例えば、MPNやUPCなど)がすべての製品ページに表示されない場合や、ページごとにフィールドの位置が異なる場合があります。そのため、XPathを修正してデータスクレイピングをより正確に行う必要があるかもしれません。心配しないでください! よく使われるXPathをいくつか用意していますので、以下の要素XPathをそのまま使用することができます。
データフィールドの横にある「ほかのオプション」ボタンをクリックします。
「要素のXPathを設定」を選択します。
修正したXPathで置き換えます。
MPN: //span[text()='MPN']/../../../../div[2]/div
UPC: //span[text()='UPC']/../../../../div[2]/div
ヒント: 必要に応じて他のフィールド用のXPathを書くために、以下のXPathチュートリアルを確認してください。
6.「タスクを実行開始」- タスクを実行してデータを取得
右上にある「保存」をクリックしてタスクを保存します。
左上の「実行」をクリックします。
「ローカル収集」を選択するか、「クラウド収集」を選択します(プレミアムユーザーのみ)。
こちらがローカル実行からのサンプル出力です。