メインコンテンツにスキップ

SUUMO(スーモ)から物件情報をスクレイピングする

今週アップデートされました

使用バージョン:Octoparse v8.5以降

Octoparseで新宿駅から徒歩15分以内、家賃8万円以下のワンルームをゲットしましょう。


1.対象URLをバーに貼り付け、抽出開始を押します。


2.物件のループアイテムを作る

  • 任意物件名のタイトルをクリックすると、クリックした部分は①緑色になります。これは「選択済み」の意味合いです。

  • ①をクリックした後、 ②赤になった部分もあります、これらは類似項目として検出された部分です。

  • 他のタイトルを押し続けると、③「リンク○○件が選択され」(上の図)の数と④ページ表示件数(下の図)が同じになるはずです。

  • ⑤「各リンクをループクリックする」をクリックします。

これで物件ループの生成が終わりました。


3.ページネーションを作る

  • 「ループアイテム」を選択すると、画面上に「現在のページでページングを設定する」というメッセージが表示されます。

  • ここで[はい]を選択すると、次のページへ自動的に移動できるように設定できます。

  • 下までスクロールし、ページボタンを探します。

  • このサイトは「次のページ」をクリックしてページを切り替えるタイプのため、以下のように選択します。

  • ワークフローが作られました。


4.抽出データを選択する

  • ループアイテムを作るステップが終わった後、詳細ページへ自動的に遷移するはずです。取得データをクリックし、最後「操作提案」にあるデータを抽出するを選択します。

click_DATA.gif
  • ダブルクリックでフィールド名を編集します。

EDITNAME.gif

5.ワークフローの最適化

SUMMO側のスクレイピング防止対策がかからないように、ワークフローを調整します。

最適化方向:各ステップ間の待機時間を増やす

OPTIMIZE.png

6.実行

  • 右上の[実行]をクリックし、ローカルまたはクラウドのいずれかの収集モードを選択すると、データ収集が開始されます。

こちらの回答で解決しましたか?