ヘルプセンター

Bingからリスト一覧をスクレイピング

今日アップデートされました

最新のOctoparseバージョンのチュートリアルガイドをご覧いただいています。古いバージョンのOctoparseを使用している場合は、アップグレードを強くお勧めします。アップグレードすると、より高速で、使いやすく、堅牢になります！まだダウンロードとアップグレードをしていない場合はこちらからどうぞ！

Bingは世界中で最も人気のある検索エンジンの一つです。本チュートリアルでは、Bing.comから検索結果情報をスクレイピングする方法を紹介します。

本チュートリアルでは、以下のURLを使用することをおすすめします：

http://www.bing.com/search?q=Web+scraping&form=QBLHVN&sp=-1&pq=web+scraping&sc=8-12&qs=n&sk=&cvid=0F966DDFA0C4442CA6957B085350A50Dwww.bing.com

Octoparseを使用して、検索結果リストからタイトル、URL、および説明などのデータをスクレイピングします。

主要な手順は、右側のメニューに表示されています。また、デモタスクはここからダウンロードできます。

１．ウェブページを開く - 目標Webページへ進む

ホームページのURLを入力して、スタートをクリックする

２．ページネーションを作る - 複数のリスティングページをスクレイピングする

スクロールダウンしてウェブページの「次へ」ボタンをクリックします。
操作提案の「ループクリック」を選択します。

AJAXタイムアウトを７秒に設定します

３．データを抽出 - 各ページから特定の要素をスクレイピングする

検索結果リストの2番目の広告以外のアイテムから始めましょう。

ページ上で2番目の広告以外のアイテムのタイトルをクリックします。
操作提案で「類似要素をすべて選択」をクリックします。
操作提案で「テキスト」を選択します。

2番目のアイテムのタイトルをクリックします。
操作提案で「リンク」を選択します。

もし説明が必要な場合は、内容をクリックし、その後「テキスト」を選択します。
また、「+」アイコンからいくつかの事前定義されたデータフィールドを追加することもできます。ここでは、抽出時の日時を取得するために「現在の時刻を追加」を選択します。

必要に応じて、フィールド名をダブルクリックして名前を変更できます。

作成されたワークフローは以下のようになります：

４．XPathを修正する - 数据フィールドをより正確に特定する

ここで、ループにまだいくつかの広告が含まれていることがわかりましたが、これらの広告は必要ありません。そのため、XPathを修正する必要があります。

ループアイテムをクリックし、XPathを //li[@class='b_algo'] に書き直します。
「保存」をクリックします。

データフィールドのXPathも修正する必要があります。
データプレビューを縦向きに切り替え、フィールドのXPathを以下のように修正します。

レビュータイトル：//h2

リンク：//h2/a

レビュー内容：//p

以下は、必要になるかもしれない関連チュートリアルです：

５．タスクを実行 - 目標データを取得する

「実行」をクリックして、タスクをデバイスまたはクラウドで実行できます。

デバイス上で実行する場合は、「デバイスで実行」セクションから「通常モード」を選択してください。

タスクが完了するまでお待ちください。

こちらが抽出データサンプルです。データはExcel、CSV、HTML、JSON形式でエクスポートできます。

関連記事