こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
Kijiji はカナダのオンラインクラシファイド広告サイトで、eBay Classifieds グループの一部です。
このチュートリアルでは、Kijiji から車両情報をスクレイピングする方法を紹介します。
チュートリアルに従うには、以下の URL を使用してください:
主要な手順は右側のメニューに表示されており、サンプルタスクファイルはここからダウンロードできます。
1.「ウェブページへ移動」を作成-ターゲットウェブサイトを開くため
2.「ループクリックアイテム」を作成し、リスト内の各アイテムを順にクリック
最初のアイテムカードをクリックします。
次に、2番目のアイテムカードをクリックします。
操作提案で「各URLにループクリック」をクリックします。
3.「ループアイテム」のXPathを修正して、すべてのアイテムを特定
アイテムカードのループ設定後に、一部のアイテムがループに含まれない場合があります。そのため、すべてのアイテムを手動で特定するために、XPath を修正する必要があります。
4.「アイテムをクリック」を設定して、詳細情報を表示させる
詳細な説明は詳細ページで隠されているため、「もっと見る」ボタンをクリックして情報を完全に読み込む必要があります。
5.「データを抽出」して、必要なデータを選択
データフィールドの名前を変更する必要がある場合は、フィールドをダブルクリックします。
6.データフィールドのXPathを修正して、各詳細ページで要素を正確に特定
データ収集が欠けている場合やフィールドの位置がずれている場合は、すべての詳細ページで要素が正しく特定できるようにXPathを再設定する必要があります。
各データフィールドのXPathは以下の通りです:
商品名: //h1[@itemprop="name"]
価格: //span[@itemprop="price"]
画像リンク: //div[contains(@class,'backgroundImage')]//img
アドレス: //a[contains(@class,"location")]
トランスミッション: //span[contains(text(),"Transmission")]/following-sibling::span
燃料タイプ: //span[contains(text(),"Fuel Type")]/following-sibling::span
在庫番号: //span[contains(text(),"Stock")]/following-sibling::span
ドライブトレイン: //span[contains(text(),"Drivetrain")]/following-sibling::span
ボディタイプ: //span[contains(text(),"Body Type")]/following-sibling::span
説明: //div[@itemprop="description"]
最終的なワークフローは次のようになります:
7.タスクを実行して、必要なデータを取得
こちらがサンプル出力データで、Excel、CSV、HTML、JSON 形式でエクスポートできます。
ヒント: ローカル収集は迅速な実行や少量のデータに最適です。より複雑なタスクや大量のデータを扱う場合は、クラウド収集をお勧めします。14日間の無料トライアルにサインアップしてプレミアム機能をお試しください。タスクは毎時、毎日、または毎週スケジュールでき、データを定期的に受け取ることができます。