Octoparseを使ってデータを自動検出するのは便利ですが、必要なデータが正確に検出されない場合があります。 このレッスンでは、スクレイピングタスクを最適化するために適用できる簡単な修正について説明します。
1.必要なデータが検出されない場合
Octoparseは、Webページ全体をスキャンし、機械学習アルゴリズムを用いて1つ以上のデータセットを抽出しようとします。最初の試行で目的のデータが検出されない場合は、「識別結果を切り替える」をクリックして、他のデータセットに切り替えてみてください。
💡それでも必要なデータが取得できない場合は、データを選択する方法をご参照ください。すべてのデータが自動的に取得できるとは限りません。たとえば、キーワード検索やドロップダウンメニューの選択など、データが表示される前に操作が必要なケースがあります。詳細な操作方法については、こちらをクリックしてチュートリアルをご参照ください。
2.自動検出された「次のページ」ボタンが正しくない場合
自動検出で「次へ」ボタンが正しく見つからない場合は、「編集」をクリックして簡単に修正し、「操作ヒント」の指示に従って正しい「次のページ」ボタンを再度選択します。
💡「次へ」ボタンや「さらに読み込む」ボタンが検出されない場合は、こちらをクリックしてチュートリアルをご参照ください。(なお、Webページに「次のページ」ボタンが存在しない場合の対処方法については、ページ送りボタンを指定する方法をご参照ください。
3.スクロールダウンが必要な場合
無限スクロール形式のWebページでは、Octoparseが自動的にスクロール動作を設定します。データの取得前にさらにスクロールが必要な場合は、「編集」をクリックし、スクロール回数を調整することで柔軟に対応できます。
4.ワークフローの構築と編集
Octoparseでスクレイピングタスクを作成・実行すると、Webページを開いたり、要素やボタンをクリックしてデータを抽出したりと、実際の人間の操作をシミュレートするように設計されています。
タスクは、自動検出機能によってワークフロー形式で自動的に構築されます。この自動生成されたワークフローはそのまま使用することもできますが、必要に応じて編集することも可能です。また、より正確にタスクを設定したい場合は、最初から手動で各ステップやアクションを追加して構築することもできます。
Octoparseでは、自動検出によって作業を効率化できる一方で、タスクの内容に応じてワークフローを柔軟にカスタマイズすることが可能です。
ワークフローに追加できるアクションにはさまざまな種類があり、またそれぞれのステップやアクションには、スクレイピングタスクを細かく調整するための設定項目が用意されています。
1.ステップをドラッグ&ドロップして順序を変更できます。
2.各ステップをクリックすると、設定内容の確認や変更が可能です。
3.新しいステップを追加するには、追加したい位置にカーソルを合わせ、表示される「+」アイコンをクリックしてアクションを選択します。
「+」アイコンが表示されるまで少し待ち、表示されたらクリックして、追加したいアクションを選択します。
4.ステップの右クリックすれば、ステップの名前変更・コピー・削除などの操作が行えます。
次へ
レッスン3:データフィールドを調整する