現在のウェブ環境では、多くのサイトが悪意のある攻撃から保護するためにCloudflareを利用しており、データスクレイピングに対しても課題が生じています。このチュートリアルでは、Cloudflare認証の概要と、それを回避するための2つの効果的な方法を説明します。
Cloudflare認証とは?
Cloudflare検証とは、ウェブサイトが正当なユーザーと自動化されたボットを区別するために使用するセキュリティ対策です。CAPTCHAチャレンジ、ブラウザの整合性チェック、レート制限などが含まれることがよくあります。これらの検証は、DDoS攻撃、スパム、スクレイピングなどの脅威からウェブサイトを保護するのに役立ちますが、Webスクレイピングツールにとっても大きな障害となります。
Octoparseでの対処方法
解決策1:クレジットによる自動解く
バージョン8.7.2以降、OctoparseはCloudflareの認証を自動的に解決することができます。WEBサイトにCloudflareのCAPTCHAが表示されたら、「クレジットを利用してCloudflareを自動で解く」オプションにチェックを入れ、Cloudflare turnstileが表示されたら「スタート」をクリックして、自動的に解決されるのを待つだけです。
この機能は1,000リクエストあたり $1.5 かかるため、使用する前にアカウントに十分なアドオンクレジット残高があることを確認してください。注意点として、成功の可否に関わらず、「スタート」をクリックしてプロセスを開始すると課金されます。これらの解決する成功率は約80%です。
また、この機能は「Webページを開く」ステップでのみ利用可能です。スクレイピング中にリアルタイムで再度表示されるCloudflareの検出や解決はできません。
注: スクレイピング中にCloudflare認証機能を無効にする必要がある場合は、タスク設定で[クレジットを利用してCloudflareを自動で解く]オプションのチェックを外してください。
解決策2: 手動回避
タスクの編集や実行中に手動でCloudflare認証を回避することもできます。詳しい手順については、こちらのチュートリアルを参照してください。