Octoparseは、コーディングの知識がなくても簡単にウェブサイトからデータを抽出できる強力なウェブスクレイピングツールです。使いやすいインターフェースと高度な機能を備え、企業や個人ユーザーに幅広く利用されています。この記事では、データ収集を効率よく行うための便利なツールや機能、活用のコツをご紹介します。
1. ブラウザモード
Octoparseの内蔵ブラウザには、セレクトモードとブラウザモードの2つのモードがあります。
デフォルトではセレクトモードが設定されています。このモードでは、ページ上の要素にカーソルを移動させると、要素が青でハイライトされます。要素をクリックしてもすぐにクリック動作が実行されるわけではなく、要素が選択され、ヒントが表示されます。
ブラウザモードに切り替えると、内蔵ブラウザが通常のブラウザとして機能します。青いハイライトが表示されず、要素をクリックすると実際のクリック操作が行われます。
右上の「ブラウザ」ボタンをクリックしてブラウザモードを有効にしますと、不要なポップアップ(例:クッキーのポップアップ)を閉じたり、CAPTCHAを解決したりすることができます。
2. ローカル実行時にブラウザを表示
タスクをデバイスで実行するとき、「収集画面」ボタンをクリックすることで、スクレイピングプロセスが表示されます。
ウィンドウにウェブページが開かれ、プロセスの進行を見ながら、各ステップが正しく機能しているか確認できます。
「ローカル収集する際、モニタリング画面を表示させる」は、タスク設定でこのオプションを選択すると自動的に有効になります。
3. 実行ログ
タスクがローカルまたはクラウドで実行されると、実行された各ステップが記録されます。抽出ウィンドウでイベントログを確認できます。これらのログは、うまく動作していないステップを特定するのに役立ちます。
関連するチュートリアル: クラウド抽出の実行ログと実行履歴とは?
4. XPathを再生成
Octoparseは、時々ウェブサイトの変更により動作が失敗することがあります。この場合、XPathを更新する必要があります。ここでは、XPathを迅速に更新するための簡単な手順を紹介します。
XPathボックスの後にあるこのアイコンをクリックします。
ウェブページに移動して、ターゲット要素を選択すると、XPathが更新されます。
5. データタイプを設定
Octoparseは、テキスト情報、URL、HTMLコード、または1つの要素の属性値をスクレイピングできます。テキストをスクレイピングするフィールドがあり、それをHTMLコードをスクレイピングするように変更する必要がある場合、どうすればよいでしょうか?
このように進みます:ほかのオプション -> データタイプを設定 -> スクレイピングする対象情報を選ぶ
6. サブページに入る
「サブページに入る」は、詳細ページのリンクを迅速に選択して入るのに役立ちます。
リストページからのスクレイピングを設定したら、「サブページに入る」をクリックして開くリンクを選択できます(ヒントからオプションが見つからない場合)。Octoparseは、各リンクからデータを取得するためのクリックステップを設定します。
7. ワークフローからステップを追加
要素を選択してヒントからアクションを選ぶ以外にも、ワークフローから直接ステップを追加できます。
ワークフロー内の矢印にカーソルを合わせると、+ボタンが表示されます。それをクリックして追加するステップを選択します。
8. 選択エリアを拡張
ページ要素にカーソルを合わせて全体を選択できない場合は、まずこのエリア内の要素をクリックし、その後「選択エリアを拡張」ボタンをクリックしてみます。
9. タスクを2つに分割
多くの場合、1つのタスクを2つに分割することをお勧めします。これにより、データの取得が速くなったり、より効率的にスクレイピングができます。
例えば、eコマースの検索結果ページをスクレイピングし、各製品リンクをクリックして情報を取得する必要がある場合、最初にすべての製品リンクをスクレイピングするタスクを作成し、次に製品リンクからデータをスクレイピングする別のタスクを作成できます。
タスクを2つに分割することを試みるべき一般的な状況は以下の通りです。
各製品リンクをクリックしてデータを取得する必要があり、データの量がかなり多い場合。最初にリンクをスクレイピングすることで、既に製品リンクを持っているため、見逃した製品をスクレイピングしやすくなります。
特に、ウェブサイトが無限スクロールや「もっと読み込む」機能を使用している場合に便利です。
ウェブサイトがリンクを直接クリックしたときにAJAXロードを使用している場合。
スクレイピングプロセスが長くなる場合は、タスクを分割して正常に動作することを確認することを検討できます。
10. 「ループアイテム」をクリックして、Octoparseが前のページに戻れるか確認
ワークフロー内のアクションを手動でクリックすることで、ループアイテムが正しく機能しているか確認できます。
リストページが読み込まれた後に「ループアイテム」をクリックします。
「アイテムをクリック」をクリックし、新しいページが読み込まれるのを待ちます。
再度「ループアイテム」をクリックして、Octoparseがリストページを表示するか確認します。
リストページが表示される場合、Octoparseはリストページに戻ることができ、ループが機能していることを意味します。そうでない場合は、ワークフローを修正して正常に動作させる必要があります。
関連チュートリアルはこちらです:最初のページだけデータ取得ができたが、なぜ残りのページをクリックせず止まったか?
11. 設定でブラウザのユーザーエージェントをEdge 125.0に切り替えて、CAPTCHAを回避
ユーザーエージェントをEdge 125.0に切り替えることは、CAPTCHAやCloudflareのセキュリティチェックを回避する非常に効果的な方法です。また、ウェブページの読み込みに問題がある場合、このシンプルな調整が解決策となることがあります。