こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
iタウンページは、日本のオンラインディレクトリサービスで、企業や店舗、サービスの情報を提供しています。検索機能や地図、ルート案内などがあり、レストランやホテル、医療機関などの情報を簡単に見つけることができます。生活や旅行で役立つ便利なツールです。
このチュートリアルでは、WebスクレイピングツールOctoparseを使って、iタウンページからお店・施設の情報をスクレイピングする方法を説明します。
また、Octoparseのメイン画面にある「テンプレートタスク」に移動し、利用準備が整ったテンプレートを直接使用して時間を節約することもできます。この機能を使用すると、タスクのワークフローを作成することなしでデータをスクレイピングすることができます。詳細については、こちらをご覧ください:タスクテンプレート
次のURLを例として使います。
主な手順は右側のメニューに表示されています。こちらからサンプルタスクをダウンロードできます。
1. ウェブページを開く - 対象のウェブページを開く
ホームページにURLを入力してください。
スタートボタンをクリックしてください。
2. キーワードを入力し検索する
入力ボックスをクリックし、パネルの「テキストを入力する」をクリックします。
キーワードを入力し、「はい」をクリックします。
ページの検索ボタンをクリックし、「操作提案」の「選択した要素をクリックする」をクリックします。
ヒント!
複数キーワード入力することも可能です、ガイドをご覧ください
3. ページネーションを作成 ‐ 複数のページのデータを取得する
「プロセスを追加」をクリックし、「ループアイテム」を作成します。
ループアイテムの「基本設定」で、「ループモード」を「単一要素」に設定し、「要素のXPath」空欄に以下のXPathを入力します。
//div[@class="comp-lgurnb7e5 gydiew"]/button[@aria-disabled="true"]/../../following-sibling::div[1]/div/button
「ループアイテム」の中に「アイテムをクリック」を追加します。「絶対XPath」の空欄にループアイテムと同じXPathを入力します。
「アイテムをクリック」の「詳細設定」で、「Ajax読み込み」にチェックを入れタイムアウト時間を2秒に設定します。
4. ループアイテムを作成 ‐ データスクレイピングの範囲を特定する
ページの一番目の項目を選択してから、二番目の項目を選択します。
「操作提案」の「テキスト」を選択します。
ワークフローにループアイテム1が生成されます。
現在のループアイテムは4つの項目しか含ませんので、すべての項目を特定できるXPathに変更する必要があります。
「ループアイテム1」の「要素のXPath」を以下の正しいXPathに変更します。
//div[@class='AG_P7Z MAs5Tr wixui-dev-only-search-searchResultsBottom-itemContainer wixui-repeater__item']/..|//div[@class='AG_P7Z MAs5Tr wixui-dev-only-search-result-itemContainer wixui-repeater__item']/..
「保存」をクリックします。
5. データを抽出 ‐ 必要なデータを選択する
必要に応じて、スクレイピングしたい情報を選択し、「要素データ」を選択します。今回は、病院名、電話番号、ウェブサイト及び病院所在地などの情報をスクレイピングします。
「データプレビュー」上のデータを確認し、「ほかのオプション」をクリックし「削除」を選択することで不要なデータを削除することができます。
現在の所在地のデータはすべて取得されていない、データフィールドのXPathを修正することが必要です。
データプレビューを「縦向き」モードに変更します。
所在地の「相対XPath」を以下の正しいXPathに変更します。
//div[@class="BaOVQ8 tz5f0K comp-lgurnb384 wixui-rich-text wixui-dev-only-searchResultsBottom-address" or @class='BaOVQ8 tz5f0K comp-lgurnazc4 wixui-rich-text wixui-dev-only-searchResultsTop-address']/p/span
6. タスクを実行 -ご希望のデータを取得する
以下は、サンプルデータです。