メインコンテンツにスキップ

iタウンページからお店・施設の情報をスクレイピングする

1年以上前に更新

こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。

iタウンページは、日本のオンラインディレクトリサービスで、企業や店舗、サービスの情報を提供しています。検索機能や地図、ルート案内などがあり、レストランやホテル、医療機関などの情報を簡単に見つけることができます。生活や旅行で役立つ便利なツールです。

このチュートリアルでは、WebスクレイピングツールOctoparseを使って、iタウンページからお店・施設の情報をスクレイピングする方法を説明します。

また、Octoparseのメイン画面にある「テンプレートタスク」に移動し、利用準備が整ったテンプレートを直接使用して時間を節約することもできます。この機能を使用すると、タスクのワークフローを作成することなしでデータをスクレイピングすることができます。詳細については、こちらをご覧ください:タスクテンプレート

次のURLを例として使います。

主な手順は右側のメニューに表示されています。こちらからサンプルタスクをダウンロードできます。


1. ウェブページを開く - 対象のウェブページを開く

  • ホームページにURLを入力してください。

  • スタートボタンをクリックしてください。


2. キーワードを入力し検索する

  • 入力ボックスをクリックし、パネルの「テキストを入力する」をクリックします。

  • キーワードを入力し、「はい」をクリックします。

  • ページの検索ボタンをクリックし、「操作提案」の「選択した要素をクリックする」をクリックします。

ヒント!

  • 複数キーワード入力することも可能です、ガイドをご覧ください


3. ページネーションを作成 ‐ 複数のページのデータを取得する

  • 「プロセスを追加」をクリックし、「ループアイテム」を作成します。

  • ループアイテムの「基本設定」で、「ループモード」を「単一要素」に設定し、「要素のXPath」空欄に以下のXPathを入力します。

//div[@class="comp-lgurnb7e5 gydiew"]/button[@aria-disabled="true"]/../../following-sibling::div[1]/div/button
  • 「ループアイテム」の中に「アイテムをクリック」を追加します。「絶対XPath」の空欄にループアイテムと同じXPathを入力します。

  • 「アイテムをクリック」の「詳細設定」で、「Ajax読み込み」にチェックを入れタイムアウト時間を2秒に設定します。

ヒント:

XPathを書く方法及びAjax読み込みの詳細については、以下の記事をご参照ください。


4. ループアイテムを作成 ‐ データスクレイピングの範囲を特定する

  • ページの一番目の項目を選択してから、二番目の項目を選択します。

  • 「操作提案」の「テキスト」を選択します。

  • ワークフローにループアイテム1が生成されます。

現在のループアイテムは4つの項目しか含ませんので、すべての項目を特定できるXPathに変更する必要があります。

  • 「ループアイテム1」の「要素のXPath」を以下の正しいXPathに変更します。

//div[@class='AG_P7Z MAs5Tr wixui-dev-only-search-searchResultsBottom-itemContainer wixui-repeater__item']/..|//div[@class='AG_P7Z MAs5Tr wixui-dev-only-search-result-itemContainer wixui-repeater__item']/..
  • 「保存」をクリックします。


5. データを抽出 ‐ 必要なデータを選択する

  • 必要に応じて、スクレイピングしたい情報を選択し、「要素データ」を選択します。今回は、病院名、電話番号、ウェブサイト及び病院所在地などの情報をスクレイピングします。

  • 「データプレビュー」上のデータを確認し、「ほかのオプション」をクリックし「削除」を選択することで不要なデータを削除することができます。

現在の所在地のデータはすべて取得されていない、データフィールドのXPathを修正することが必要です。

  • データプレビューを「縦向き」モードに変更します。

  • 所在地の「相対XPath」を以下の正しいXPathに変更します。

//div[@class="BaOVQ8 tz5f0K comp-lgurnb384 wixui-rich-text wixui-dev-only-searchResultsBottom-address" or @class='BaOVQ8 tz5f0K comp-lgurnazc4 wixui-rich-text wixui-dev-only-searchResultsTop-address']/p/span

6. タスクを実行 -ご希望のデータを取得する

  • 右上の保存をクリックし、実行をクリックします。

  • ローカル抽出を選択してパソコン上でタスクを実行するか、クラウド抽出を選択してクラウド上でタスクを実行します(プレミアムユーザーのみ)。

以下は、サンプルデータです。

こちらの回答で解決しましたか?