一部のWebサイトは、スクレイピング対策としてIPブロックなどの手段を講じており、自動アクセスが制限される場合があります。
このチュートリアルでは、Webサイトにブロックされるリスクを軽減するために、タスクの実行前にワークフロー上部の「タスク設定」からOctoparseのアンチブロッキング機能を有効にする方法をご紹介します。
IPプロキシの利用
プロキシの利用には2種類の方法があります。1つはプレミアムプロキシサーバー、もう1つはカスタムプロキシサーバーです。
プレミアムプロキシサーバーは、Octoparseに内蔵された有料のプレミアムプロキシサーバーを利用することで、自動IPローテーション機能を活用し、ブロッキング対策に対応します。
カスタムプロキシサーバーは、ユーザー様が事前に購入済みのプロキシを入力することで、ブロッキング対策に対応します。
以下では、それぞれの設定方法についてご紹介いたします。
プレミアムプロキシサーバー
Octoparseに内蔵された有料のプレミアムプロキシサーバーを利用し、クラウド抽出の自動IPローテーション機能を利用する場合は、
「タスク設定」をクリックし、「ブロッキング対策設定」を選択します。
「プレミアムプロキシサーバー」チェックボックスをオンにし、「エリア選択」で希望する国・地域を選択します。
プロキシの切り替え間隔を30秒から10分の範囲で設定します。
「はい」をクリックして変更を保存します。
カスタムプロキシサーバー
外部プロキシ(特定の国など)を使用してWebサイトにアクセスする場合、またはクラウド抽出の自動IPローテーション機能の代わりに独自のプロキシを使用する場合は、以下の手順に従って設定してください。
「タスク設定」をクリックし、「ブロッキング対策設定」を選択します。
「カスタムプロキシサーバ」チェックボックスをオンにし、隣にある「設定」をクリックします。
プロキシIPとプロキシの切り替え間隔(秒数)を入力します。
「はい」をクリックして変更を保存します。
タスク実行中、Octoparseは設定に従ってプロキシを自動的に切り替えます。
ブラウザ(ユーザーエージェント)の自動切り替え
ブラウザは、アクセスするWebページのユーザーエージェントとして知られているものを送信します。これは、ページにアクセスしているデバイスの種類をターゲットWebサイトに伝える文字列です。同じユーザーエージェントでWebサイトを頻繁にスクレイピングすると、スクレイピングボットアクティビティとして検出されやすくなります。したがって、この機能を使用すると、ブロックされる可能性を減らすことができます。
ブラウザの自動切り替えを設定するには:
「ブラウザの自動切り替え」のチェックボックスをオンにします。
「設定」をクリックして、ユーザーエージェントのタイプを設定します。
WebサイトをスクレイピングするときにOctoparseが「PC経由で」Webサイトにアクセスするようにするには、「すべて選択」のチェックボックスをオンにし、「Chrome / Firefox / Safari for mobile」のチェックボックスをオフにします。OctoparseがWebサイトに「モバイル経由」でアクセスするようにしたい場合は、「Chrome / Firefox / Safari for mobile」のチェックボックスのみをオンにしてください。
※選択したユーザーエージェントがすべてのWebサイトで動作するわけではないため、テストが必要になる場合があります。
「はい」をクリックして変更を保存します。
「実行間隔」のチェックボックスをオンにして、ユーザーエージェントを切り替える時間を分単位で選択するか、「プロキシサーバと同時に切り替える」チェックボックスをオンにします。
Octoparseは、タスクがローカルまたはクラウドで実行されているときに、設定に従ってユーザーエージェントを自動的に切り替えます。
クッキーの自動クリア
同じクッキーを使用してWebサイトを非常に一貫してスクレイピングすると、スクレイピングボットアクティビティとして簡単に検出されます。 したがって、この機能を使用すると、ブロックされる可能性を減らすことができます。
「Cookieの自動クリア」チェックボックスをオンにします。
「実行間隔」のボックスをオンにして、ユーザーエージェントを切り替える分数を選択するか、「プロキシサーバを切り替えながらクリアする]ボックスをオンにします。
Octoparseは、タスクがローカルまたはクラウドで実行されているときに設定したクッキーを自動的にクリアします。
Octoparseブロッキング防止を設定したら、「保存」をクリックして設定を保存できます。