こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
ウェブサイトから情報をスクレイピングする際には、通常、検索結果ページ(通常はリストページ)だけでなく、各製品の詳細ページからもデータを抽出することが期待されます。
Octoparseを使用してこの目的を達成する方法がわからない場合は、次のチュートリアルを確認してみてください: 「検索結果と詳細ページを同時にスクレイピングする」
ただし、詳細ページが新しいタブで開けない場合、Octoparseはリストページに戻って次の詳細ページをスクレイピングすることができません。詳細ページに「前に戻る」ボタンがない場合、タスクを2つのパートに分割する必要があります。そうでないと、最初のデータの行を取得した後に空白の重複が生じます。
このチュートリアルでは、Octoparseの新しい「前に戻る」機能を使用して、この問題に対処する方法を紹介します。
このチュートリアルを進めるために、次のURLを使用します:
注意: ワークフローが正しく動作するかどうかを確認する場合は、このケースのOTDファイルをこちらからダウンロードしてください。
既に検索結果ページから詳細ページにクリックするためのループを設定しているとします。
始めるには、Octoparseのブラウズの現在のページが検索結果ページではなく、詳細ページであることを確認する必要があります。
ワークフローにステップを追加するために「プロセスを追加」ボタンをクリックします。
ドロップダウンメニューで「前に戻る」を選択します。
そして、「前に戻る」のボックスがワークフローに表示されます。
注: このステップが正しく機能するかどうかを確認するためには、「前に戻る」ボックスをクリックするだけで、自動的に検索結果ページに戻ります。クリックアイテムの新しいタブオプションはチェックされていない必要があります。
以下は、ローカルからのサンプルデータの実行結果です。エクスポート形式としては、Excel、CSV、HTML、JSONが利用できます。