メルカリはオンラインのフリマアプリで、不要な物を簡単に売買できます。衣類、家電、家具など、多種多様な商品が取引され、検索機能やコミュニケーションツールが充実しており、スムーズな取引も可能です。セキュリティ対策もしっかりしており、安心して利用できます。日本国内で広く人気があり、使いやすいインターフェースと幅広い商品一覧が魅力です。メルカリは便利なフリマ体験を提供し、多くの人々に愛用されています。
今回のチュートリアルでは、WebスクレイピングツールOctoparseでメルカリから商品一覧のデータを取得する方法についてご説明します。
また、Octoparseのメイン画面にある「テンプレートタスク」に移動し、利用準備が整ったテンプレートを直接使用して時間を節約することもできます。この機能を使用すると、タスクのワークフローを作成することなしでメルカリの情報を取得することができます。詳細については、こちらをご覧ください:タスクテンプレート
チュートリアルで次のURLを使用します:
1. ウェブページを開く - 対象のウェブページを開く
ホームページにURLを入力してください。
スタートボタンをクリックしてください。
2. キーワードを入力 ‐ 検索を開始する
検索ボックスを選択し、テキストを入力するをクリックします。
操作提案上のテキストボックス1にキーワードを入力し、保存をクリックします。
ページ上の検索ボタンをクリックし、操作提案上の選択した要素をクリックするを選択します。
3. 自動検出でワークフローを生成する
操作提案上のワークフローを生成をクリックします。
必要に応じて、データフィールドでほかのオプションを選択し、削除をクリックすることで不要な情報を削除します。
データフィールドのヘッダーをダブルクリックし、フィールドの名前を変更します。
4. 各詳細リンクをクリック - 追加情報をスクレイピングする
操作提案パネルのサブページのURLを選択を選択します。
データフィールドからクリックしたいリンクを選択します。
保存をクリックします。
「URLをクリック」ステップが追加され、ワークフローは以下のようになります。
5. データを抽出 - 詳細ページでデータを抽出する
必要なデータをクリックし、操作提案の要素データを選択します。
必要に応じて、データフィールドを削除したり名前を変更したりします。
一部分の商品詳細ページの構造が違うので、自動生成された絶対XPathがすべての商品詳細ページのデータを特定できなくなってしまいました。その場合、各フィールドの相対XPathを変更しなければなりません。
データプレビューを縦向きモードに変更し、XPathを変更したいフィールドの絶対XPath入力ボックスをダブルクリックし、正しいXPathを入力します。
以下は各フィールドの正しいXPathです。ご参照ください。
データ | XPath(絶対Xpath) |
価格 |
|
商品の説明 |
|
ブランド |
|
6. 待機時間を設定 - スクレイピング速度を遅くする
スクレイピングを過度に行うと、お使いのIPがブロックされる可能性があるので、スクレイピングの速度を調整する必要があります。
データを抽出1をクリックします。
詳細設定に移動します。
実行前に数秒を待機にチェックを入れます。
時間を5秒から10秒に設定します。
保存をクリックします。
7. データ抽出を開始 - タスクを実行してデータを取得する
保存をクリックします。
右上の実行をクリックします。
デバイス上でタスクを実行するには、ローカル抽出を選択します。(クラウド環境でメルカリのデータをクローリングするためにOTDプログラムの使用は推奨しておりません)
以下はサンプルです。
一部分の商品詳細ページにブランドの情報がないので、データが空白になったのは正常です。