こちらは最新バージョンのOctoparse向けチュートリアルガイドです。お使いのOctoparseのバージョンが古い場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは、速度が向上し、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
eBayは、ウェブサイトを通じて消費者間取引や企業間取引を促進する、アメリカに本社を置く多国籍電子商取引企業です。世界で最も有名で利用されている電子商取引プラットフォームの一つです。
このチュートリアルでは、eBayの商品詳細ページから画像のURLをスクレイピングする方法をご紹介します。
作業には、以下のURLをお使いください:
主な手順は右側のメニューに記載されています。サンプルのタスクファイルはこちらからダウンロードできます。
1. ウェブページを開くステップを作成 - ターゲットサイトを開く
2. ページネーションループを作成 - 複数の商品リストページからデータをスクレイピングする
注意: AJAXとOctoparseの処理方法についてさらに学びたい場合は、こちらをチェックしてください。
3. ページスクロールダウンのステップを作成 - 各ページのデータを完全にロードする
ステップを追加ボタン(+)をクリックし、 ループアイテムをクリックします。
ループモードをページをスクロールに設定します。
1画面ずつスクロールにチェックします。
ループ回数を15回に設定します。
保存をクリックします。
4. ループアイテムを作成 - 各商品リンクをクリックして商品詳細ページに入る
ループをより正確にするために、ループアイテムのXPathを変更する必要があります。
5. データを抽出 - 画像のURLを抽出
サイドバーの最初の画像をクリックします。
操作提案の類似要素をすべて選択をクリックします。
テキストをクリックします。
ループアイテム2をクリックします。
ループモードを変数リストに設定します。
要素のXPathを入力: //button[contains(@class,'ux-image-filmstrip-carousel-item image-treatment')]/img
変更を保存するには保存をクリックします。
データフィールドの横のほかのオプションボタンをクリックします。
データタイプを設定を選択します。
画像のURL(IMGタグのsrc属性)を選択します。
同一フィールドでの複数行のマージをクリックします。
注意: この「同一フィールドでの複数行のマージ」を使うと、1つの商品のすべての画像を1つのセルに取得できます。異なる行にスクレイピングしたい場合は、このオプションを選択する必要はありません。異なる列に画像をスクレイピングしたい場合は、こちらを参照してください: スライダーから複数画像を取得する
6. タスクを実行 - 目的のデータを取得する
右上の保存をクリックしてタスクを保存します。
その隣の実行をクリックし、タスク実行ウィンドウがポップアップするのを待ちます。
ローカル抽出を選択して、ローカルデバイスでタスクを実行します。
タスクの完了を待ちます。
ローカル実行のサンプル出力は以下のとおりです: