前回では、初めてのスクレイピングタスクを作成しテストしました。このレッスンでは、タスクを実行して実際のデータを抽出しましょう!
1. データを取得する方法
タスクを実行するには2つの方法があります。
ローカル抽出(ご自分のパソコンで実行する)
クラウド抽出(クラウドサーバーで実行する)
ご自分パソコンでタスクを実行する場合、抽出中にOctoparseアプリを開く必要があります。 ブラウザと実行ログから抽出状況が確認できます。
一方、クラウドでタスクを実行すると、タスクはOctoparseクラウドプラットフォームで実行されます。つまり、Octoparseアプリまたはパソコンをシャットダウンして、抽出が完了したらデータをチェックすることができます。ローカル抽出と比べると、クラウドで実行されるタスクは、通常6倍~20倍速くなります。クラウド抽出は有料機能で、料金プランをご参照ください。
ヒント:
一部のタスクには、ローカルとクラウド実行の両方に「通常モード」と「高速モード」のオプションがあります。通常モードと高速モードの違いについては、こちらをご確認ください。
2. 実行を開始する
タスクの作成が完了したら、「実行」ボタンをクリックして実行を開始できます。
または、ダッシュボードでタスクを見つけ、タスクを実行/停止することもできます。
3. データを確認する
タスクの実行が完了したら、データを確認することができます。
ダッシュボードでタスクを見つけ、表示されるデータ件数をクリックすると、データプレビュー画面に移動します。
または、ダッシュボードの「そのほか」アイコンをクリックし、「データプレビュー」で「ローカルデータ」と「クラウドデータ」のどちらを表示するかを選択することもできます。
4. データをエクスポートする
データに問題がなければ、データビュータブの右下隅にある「エクスポート」をクリックして、データをエクスポートすることができます。 Octoparseは、次の3つの方法でデータをエクスポートできます:
ファイルエクスポート:データをExcel、CSV、HTML、JSON、またはXMLファイルとしてエクスポートします。
データベースにエクスポート:データをGoogleスプレッドシート、PostgreSQL、SQL Server、MySQL、またはOracleなどのデータベースにエクスポートします。
クラウドストレージにエクスポート:データをGoogle Drive、Dropbox、またはAmazon S3のようなクラウドストレージプラットフォームにエクスポートします。
データ範囲の指定について
クラウドデータをエクスポートするとき、 データ範囲を指定する必要があります。デフォルトは「すべてのデータ」です。
すべてのデータ:クラウドサーバーに保存されているすべてのデータです。
エクスポート待ちデータ:タスクが複数回で実行された場合で使います。例えば、昨日抽出されたデータは昨日でエクスポートされたが、今日実行すると新しいデータが抽出され、今日の分をエクスポートするには、「エクスポート待ちデータ」を選択することができます。
ヒント:
クラウド抽出データ: アカウントにログインすれば、どのデバイスからでもアクセス可能です。
クラウドデータの保存期間: クラウド上のデータは最大3か月間保存され、それ以降は削除されます。削除される前に必ずデータをエクスポートしてください。
データ行数が20,000行を超える場合: データは1ファイルにつき最大20,000行で分割され、複数のファイルにエクスポートされます。
ローカルデータについて: ローカル抽出が行われたデバイスでのみアクセス可能です。
クラウドデータの重複削除: 同じタスクで収集されたデータはクラウド上でまとめて保存され、重複が削除されます。ただし、同じタスクを再実行すると、一時的に重複したデータが表示される場合がありますが、重複は自動的に削除されます。
次へ
レッスン6:定期実行をスケジュールする