こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
Airbnbは理想的なバケーションレンタルを見つけるのに最適なサイトです。このチュートリアルでは、Octoparseを使ってAirbnbからホテル情報を取得する方法をご紹介します。
最も簡単な方法は、Airbnbの事前設定されたタスクテンプレートを使用することです。スクレイピングタスクを設定する必要はなく、キーワードやURLを入力してデータを取得するだけです。詳細については、タスクテンプレートをご覧ください。
タスクをゼロから作成したい場合は、このチュートリアルを続けてお読みください。ここでは、例として使用するAirbnbの宿泊先ページのソースリンクを示します。
https://www.airbnb.jp/s/%E3%83%91%E3%83%AA/homes?tab_id=home_tab&refinement_paths%5B%5D=%2Fhomes&flexible_trip_lengths%5B%5D=one_week&monthly_start_date=2024-09-01&monthly_length=3&monthly_end_date=2024-12-01&price_filter_input_type=0&channel=EXPLORE&place_id=ChIJD7fiBh9u5kcRYJSMaMOCCwQ&date_picker_type=calendar&adults=1&source=structured_search_input_header&search_type=filter_change
主な手順は右側のメニューに表示されています。また、サンプルのタスクファイルはこちらからダウンロードできます。
1. Webページを開く - ターゲットとなるWebサイトへ移動
2. ループアイテムとページネーションの設定 - 各ホテルのリンクをクリックしてページを切り替える設定を行います
最初のブロックを選択し、全てのブロックを検出
「類似要素をすべて選択」をクリック
「各URLにループクリック」をクリック
「はい」をクリックして、「ページネーション」を作成
「次へ」を選択
ページの最後までスクロールして、「次のページ」アイコンを選択し、「保存」をクリック
作成されたワークフローは以下のようになります。
次のページはAJAXで読み込まれるため、「次のページをクリック」アクションにAJAXタイムアウトを追加する必要があります。
3. ループアイテムのXPathを修正 - アイテムを正確に特定する
自動生成されたXPathがうまく機能しない場合があります。この場合、「ループアイテム」のXPathを修正する必要があります。
注:XPathは、Octoparseで正しい要素を特定する上で重要な役割を果たします。詳細については、こちらのチュートリアルを参照してください:XPathとは?OctoparseでXPathを利用する方法は?
4. 詳細ページからデータを抽出
現在のページのURLを取得したい場合は、「フィールドを追加」 -> 「該当ページの情報を追加」 -> 「URL」 を選択します。
フィールド名を変更するには、ダブルクリックします。
5. タスクを実行 - 必要なデータを取得
「実行」をクリックして、デバイスまたはクラウドでタスクを実行します。
タスクをお使いのデバイスで実行するには、「ローカル実行」セクションで「通常モード」を選択します。
タスクの完了までお待ちください。
以下は出力データのサンプルです。Excel、CSV、HTML、JSON形式でエクスポートできます。