対象サイトがログインする必要がある場合でも、Octoparseでデータをスクレイピングできます。
以下はAmazonを例として操作手順を紹介します。
方法一:ワークフロー内でログイン手順を構築する
注意事項:
この方法を使用すると、各タスクの起動時にアカウントがサイト上でログインされます。高頻度でのデータ収集を行うために複数のクラウドサービスを利用する予定がある場合は、この方法を推奨しません。代わりに、方法二:ログイン状態を保持し、定期的に手動で更新する方法が適しています。
タスクをエクスポートすると、タスクに保存されたパスワードは自動削除されます。
ワークフローチェックポイン
詳細手順
Octoparseを使用してAmazonのログインページを開いてください(ログインページのリンクは頻繁に変更されるため、具体的なURLを提供することができません)。
ログインテキストボックスをクリックし、パネルから「テクストを入力する」を選択します。
3. ユーザー名をテキストボックスに入力した後、「はい」を押してください。
4.ログインの手順に従い、「次に進む」を選択してください。
5.次に、パスワードのテキストボックスをクリックし、「」をパネルから選択してください。
6.ログインの手順に従い、「次に進む」を選択してください。
方法二:Cookieをクローラ内保存する
Cookieとは
Cookieは、ブラウザとウェブサイトのサーバー間で情報をやり取りするための小さなテキストファイルです。ウェブサイトにログインすると、サーバーはブラウザにCookieを送信し、その中にはログイン情報が含まれています。ブラウザはこのCookieを保存し、一定期間内は再ログインする必要がなくなります。なぜなら、サーバーはCookieを通じてあなたを認識できるからです。Cookieには有効期限があり、期限が切れると新しいCookieを取得するために再度ログインする必要があります。
詳細手順
取得したいAmazonの商品ページをクライアント内で開き、ブラウザモードを開始し、ログインを完了してください。
次に、ログイン状態をワークフローに保存します。「Webページを開く」ステップの詳細設定の「特定のCookieを使用」を選択し、「該当ページのCookieを取得する」をクリックします。
クッキーの取得に成功しました。保存することを忘れないでください。
これでデータ抽出へ進むことができるようになりました。
注意:
1. 保存されたクッキーは期限が切れる前にのみ有効です
クッキーは多くの形式があります。一部は特定の期限を持ち、他のものはブラウザが閉じられるとすぐに期限切れになります。Octoparseでは、保存されたクッキーは期限が切れると機能しなくなります。これを解決するには、ブラウザモードで再度ログインの手順を踏み、更新されたクッキーを取得して保存する必要があります。
2. パスワードはしっかり保護されています
Octoparseでは、パスワードを入力すると、それはあなたのアカウントでのみアクセス可能です。タスクがエクスポートされると、タスクに保存されたパスワードは自動的に削除されます。
保存されたログイン情報は、タスクが削除されるとアカウントから永久に削除されます。
3. ローカル抽出中にキャプチャを手動で入力する
キャプチャに遭遇した場合、ローカルでタスクを実行しているときにキャプチャを手動で入力できます。
Octoparseは特定の種類のキャプチャを自動的に処理できます。詳細は「CAPTCHAを解決する」を参照してください。