こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
一部のウェブサイト(例: eコマース)では、追加のコンテンツを読み込むためにページの一番下までスクロールする必要があります。この場合、Octoparseでは自動的にページをスクロールするために、ページスクロールを設定することができます。これは、無限スクロールや遅延読み込みを使用しているウェブページを抽出する際に特に便利です。
1. Webページを開くまたはアイテムをクリックアクションのスクロールを設定する
Webページを開くアクション(またはアイテムをクリック)をクリックして、設定メニューにアクセスします。詳細設定に移動します。
ページスクロールを設定するには、「スクロールダウン」のチェックボックスをオンにします。
スクロールモードを選択します。
デフォルト:Octoparseはページ全体をスクロールダウンします。
子階層:Googleマップのレビューなど、複数のスクロールが含まれる場合があります。必要な正確なエリアを特定するために、子階層を選択し、エリアの正確なXPathを入力できます。
ヒント:この部分スクロール機能の使用方法については、次のチュートリアルをご覧ください:ウェブページの指定エリア内でスクロールする
ページをスクロールダウンする方法を選択します。
スクロールダウンには2つのタイプがあります:1画面ずつスクロールするか、一番下までクロールするかです。
一番下までスクロール:Octoparseはページの途中で停止せずに直接一番下までスクロールします。Google Playのレビューなど、ページの要素がページの底部に到達するとのみ読み込まれる場合には、このオプションを使用することを検討してください。
1画面ずつスクロール:Octoparseは1回のスクロールで1画面分のみスクロールします。ページが連続してスクロールダウンするとコンテンツが読み込まれる場合には、このオプションを使用することを検討してください。
1画面ずつスクロールはすべてのウェブサイトで使用できますが、ページの一番下までスクロールするオプションは特定のウェブサイトでは機能しない場合があります。まず、ページを手動でスクロールしてオプションをテストし、目標のウェブページに最適なオプションを選択することをおすすめします。
「回数」と「実行間隔」を設定する
2つのスクロールの間の適切な実行間隔を選択します。読み込みに時間がかかるページには、より長い待機時間を選択することがあります。
次に、スクロール回数として繰り返すスクロールダウンの回数を入力します。再び、必要な情報をすべて読み込むために何回スクロールする必要があるかを確認するために、まず対象のウェブページを手動でスクロールしてみたほうがいいです。
2. ループアイテムでスクロールを設定する
ワークフローにループアイテムを追加します。
ループモードとして「ページをスクロール」を選択します。
上記で示したように、スクロール詳細を設定します。
3.スクロールを直接追加(v8.7.6新機能)
「+」をクリックして「スクロール」を選択することで、ワークフローにスクロールステップを簡単に追加できます。