メインコンテンツにスキップ

Bingからリスト一覧をスクレイピング

1年以上前に更新

最新のOctoparseバージョンのチュートリアルガイドをご覧いただいています。古いバージョンのOctoparseを使用している場合は、アップグレードを強くお勧めします。アップグレードすると、より高速で、使いやすく、堅牢になります!まだダウンロードとアップグレードをしていない場合はこちらからどうぞ!

Bingは世界中で最も人気のある検索エンジンの一つです。本チュートリアルでは、Bing.comから検索結果情報をスクレイピングする方法を紹介します。

本チュートリアルでは、以下のURLを使用することをおすすめします:

Octoparseを使用して、検索結果リストからタイトル、URL、および説明などのデータをスクレイピングします。

主要な手順は、右側のメニューに表示されています。また、デモタスクはここからダウンロードできます。


1.ウェブページを開く - 目標Webページへ進む

  • ホームページのURLを入力して、スタートをクリックする


2.ページネーションを作る - 複数のリスティングページをスクレイピングする

  • スクロールダウンしてウェブページの「次へ」ボタンをクリックします。

  • 操作提案の「ループクリック」を選択します。

  • AJAXタイムアウトを7秒に設定します


3.データを抽出 - 各ページから特定の要素をスクレイピングする

検索結果リストの2番目の広告以外のアイテムから始めましょう。

  • ページ上で2番目の広告以外のアイテムのタイトルをクリックします。

  • 操作提案で「類似要素をすべて選択」をクリックします。

  • 操作提案で「テキスト」を選択します。

  • 2番目のアイテムのタイトルをクリックします。

  • 操作提案で「リンク」を選択します。

  • もし説明が必要な場合は、内容をクリックし、その後「テキスト」を選択します。

  • また、「+」アイコンからいくつかの事前定義されたデータフィールドを追加することもできます。ここでは、抽出時の日時を取得するために「現在の時刻を追加」を選択します。

  • 必要に応じて、フィールド名をダブルクリックして名前を変更できます。

  • 作成されたワークフローは以下のようになります:


4.XPathを修正する - 数据フィールドをより正確に特定する

ここで、ループにまだいくつかの広告が含まれていることがわかりましたが、これらの広告は必要ありません。そのため、XPathを修正する必要があります。

  • ループアイテムをクリックし、XPathを //li[@class='b_algo'] に書き直します。

  • 保存」をクリックします。

  • データフィールドのXPathも修正する必要があります。

  • データプレビューを縦向きに切り替え、フィールドのXPathを以下のように修正します。

レビュータイトル://h2

リンク://h2/a

レビュー内容://p

以下は、必要になるかもしれない関連チュートリアルです:


5.タスクを実行 - 目標データを取得する

  • 実行」をクリックして、タスクをデバイスまたはクラウドで実行できます。

  • デバイス上で実行する場合は、「デバイスで実行」セクションから「通常モード」を選択してください。

  • タスクが完了するまでお待ちください。

こちらが抽出データサンプルです。データはExcel、CSV、HTML、JSON形式でエクスポートできます。

こちらの回答で解決しましたか?