最新のOctoparseバージョンのチュートリアルガイドをご覧いただいています。古いバージョンのOctoparseを使用している場合は、アップグレードを強くお勧めします。アップグレードすると、より高速で、使いやすく、堅牢になります!まだダウンロードとアップグレードをしていない場合はこちらからどうぞ!
Bingは世界中で最も人気のある検索エンジンの一つです。本チュートリアルでは、Bing.comから検索結果情報をスクレイピングする方法を紹介します。
本チュートリアルでは、以下のURLを使用することをおすすめします:
Octoparseを使用して、検索結果リストからタイトル、URL、および説明などのデータをスクレイピングします。
主要な手順は、右側のメニューに表示されています。また、デモタスクはここからダウンロードできます。
1.ウェブページを開く - 目標Webページへ進む
ホームページのURLを入力して、スタートをクリックする
2.ページネーションを作る - 複数のリスティングページをスクレイピングする
スクロールダウンしてウェブページの「次へ」ボタンをクリックします。
操作提案の「ループクリック」を選択します。
3.データを抽出 - 各ページから特定の要素をスクレイピングする
検索結果リストの2番目の広告以外のアイテムから始めましょう。
ページ上で2番目の広告以外のアイテムのタイトルをクリックします。
操作提案で「類似要素をすべて選択」をクリックします。
操作提案で「テキスト」を選択します。
2番目のアイテムのタイトルをクリックします。
操作提案で「リンク」を選択します。
もし説明が必要な場合は、内容をクリックし、その後「テキスト」を選択します。
また、「+」アイコンからいくつかの事前定義されたデータフィールドを追加することもできます。ここでは、抽出時の日時を取得するために「現在の時刻を追加」を選択します。
4.XPathを修正する - 数据フィールドをより正確に特定する
ここで、ループにまだいくつかの広告が含まれていることがわかりましたが、これらの広告は必要ありません。そのため、XPathを修正する必要があります。
ループアイテムをクリックし、XPathを //li[@class='b_algo'] に書き直します。
「保存」をクリックします。
データフィールドのXPathも修正する必要があります。
データプレビューを縦向きに切り替え、フィールドのXPathを以下のように修正します。
レビュータイトル://h2
リンク://h2/a
レビュー内容://p
以下は、必要になるかもしれない関連チュートリアルです:
5.タスクを実行 - 目標データを取得する
「実行」をクリックして、タスクをデバイスまたはクラウドで実行できます。
デバイス上で実行する場合は、「デバイスで実行」セクションから「通常モード」を選択してください。
タスクが完了するまでお待ちください。
こちらが抽出データサンプルです。データはExcel、CSV、HTML、JSON形式でエクスポートできます。